Gaussian mixture clustering and imputation of microarray data
Bioinformatics 2004 Apr 12;20(6):917-23
欠損値予測ものだった.アレイデータでの欠損値を PCA(っていうか SVD), k-NN 法を使った欠損値,そして彼らの使っている GMC(Gaussian mixture clustering) を使った結果で解析している.混合ガウス分布のパラメータは EM 法を使って求めており,何個のガウス分布で近似するのかは,2〜8個の中で最適なものを選んでいる.GMC で予測するのが一番良かったと結論している

SVD, k-NN, GMC ともに言える事だけど,何個のパラメータで予測するのかを決めるのかが鍵になると思う.この論文では正解を知った上で何個が最適化を見せているのだが,本番データでは分かる由も無い.ただ,MDL(Minimum description length) や AIC(Akaike Information Criteria) を使って最適パラメータ数を設定することは可能かもしれない.その意味では MDL/AIC との相性が良いと思われる,この論文の方法は悪くないと思った.