狠狠撸

狠狠撸Share a Scribd company logo
クラスタリング 
@Wakamatz
ものまね鳥をまねる会 
「ものまね鳥をまねる」の読書会 
(原著:TO MOCK A MOCKINGBIRD) 
ラムダ計算と等価なSKIコンビネータ論理を学ぶ。 
次回11/16
クラスタリングとは 
クラスタリングは、データ解析手法の一種。 
教師なしデータ分類手法、つまり与えられたデータを外的基準 
なしに自動的に分類する手法。 
データの集合をある特徴(多くは類似性)で部分集合(クラスタ) 
に分割する。 
機械学習やデータマイニング、パターン認識、イメージ解析やバ 
イオインフォマティックスなど多くの分野で用いられる。
クラスタリングの分類 
分割最适化クラスタリング 
K-平均法など 
階層型クラスタリング 
凝集型クラスタリング 
単リンク法,完全リンク法など 
分枝型クラスタリング 
スペクトラルクラスタリングなど
分割最适化クラスタリング
K-平均法(K-MEANS) 
1. 各点をK個のクラスタをそれぞれランダムに割り振る。 


    

 
)
)
    
)
 
	%
  BSHNJO ]] ? ] 
2. 各クラスタの重心を求める。 
3. 各点のクラスタを、一番近い重心のクラスタに変更する。 
?'?
 
4% )' ] 
4. 2.、3.を収束するまで繰り返す。
K-平均法の可視化 
てっく煮ブログ K-means 法を D3.js でビジュアライズしてみた
ソフトK-平均法(K-MEANS) 
距離の代わりに確率的にクラスタを決定する。 
混合ガウスモデルに対するEMアルゴリズムである。 
混合ガウスモデル 
 
,	]N 
 U 

 ' 4* がクラスタ' 
に属する確率 
,	*
 '
  !4,	? D]] ? ]]
 クラスタの重心 
4* N' 
 
 !4,	? D]] ? ]]
 % 
4* N% 
' 
N  ' 
,	*
'
 * 
4* 
,	*
'
 *
K-メドイド法(K-MEDOIDS) 
1. 各点をK個のクラスタをそれぞれランダムに割り振る。 


    

 
2. 各クラスタのメドイド(クラスタの各点からの距離の総和が最小 
となる点)を求める。 
%?  	 
 
 
' BSHNJO 
%?' 
 
?' 
4% 4 
3. 各点のクラスタを、一番近いメドイドのクラスタに変更する。 
	%
  BSHNJO	 
 
 
?'?
 
4% 4%? 
' 
4. 2.、3.を収束するまで繰り返す。
凝集型クラスタリング
凝集型クラスタリング 
1. 最初は各データがひとつのクラスタを成す。各データ間には非 
類似性をしめす尺度が与えられている。(たとえばユークリッド 
距離) 
2. もっとも近いクラスタと結合してひとつのクラスタにする。 
3. クラスタ数がK個に達したら終了する。
単リンク法(SINGLE LINKAGE) 
 	

  NJO  	 
 
 
4?
4? 
4 4
凝集型クラスタリング 
完全リンク法(Complete Linkage) 
 	

  NBY  	 
 
 
4?
4? 
- 群平均法(Group Average) 
4 4 
 
 	

   	 
 
 
]]]] ? 
4  
? 
4  
4 4
凝集型クラスタリングの例 
Elements of Statistical Learning
THANK YOU.

More Related Content

クラスタリング