20. 19/25
問題の再定式化
しかし (3) は依然として NP 困難であるから,H が Rn×k
を動くものと
する.すなわち
minimize
H∈Rn×k
tr (H LH)
subject to H DH = I
(4)
を解くことにする.
解きやすくするため,以下では T := D1/2
H と置いた
minimize
T ∈Rn×k
tr T D?1/2
LD?1/2
T
subject to T T = I
(5)
を考える.
24. 23/25
アルゴリズム
Normalized spectral clustering according to Shi and Malik (2000)
1: Construct a similarity graph.
2: Compute the graph Laplacian L.
3: Compute the ?rst k generalized eigenvectors u1, . . . , uk of the
generalized eigenproblem Lu = λDu.
4: Let H := (hiκ) = (u1 · · · uk) ∈ Rn×k
.
5: Let yi := (hi,1 · · · hi,k) ∈ Rk
(i = 1, . . . , n).
6: Cluster the points y1, . . . , yn with the k-means algorithm into clusters
C1, . . . , Ck.
時間計算量について考察する.類似度行列の作成は,完全連結で計算し
た場合 O dn2
となる.固有ベクトルの計算は,手法によって違いはあ
るものの大体 O n3
程度である.k 平均法によるクラスタリングは繰
り返しの回数を I として O (Ikdn) である.
データが増えると固有ベクトルの計算が大きな負担になってしまう.
26. 25/25
参考文献
Murphy, K. P. (2012). Machine learning: a probabilistic
perspective.
Simovici, D. A. and Djeraba, C. (2008). Mathematical tools for
data mining. Advanced Information and Knowledge
Processing, page 129–172.
von Luxburg, U. (2007). A tutorial on spectral clustering.
Statistics and computing, 17(4):395–416.