狠狠撸

狠狠撸Share a Scribd company logo
1/20
類似度が与えられたもとでの
クラスタリングに関する研究
岡留研究室 石川智己
2/20研究背景
構造を持つデータに対応できる
クラスタリング手法が少ない
3/20本研究の目的
1.0 0.4 0.9
0.4 1.0 0.6
0.9 0.6 1.0
? ?
? ?
? ?
? ?
? ?
? ?
類似度行列
※真のクラス数は与えない
4/20先行研究
スペクトラル中華料理店過程[Luxburg 2007]
ある固有値問題を解くことで、類似度行列から
各個体をベクトル形式に変換したのち、
ディリクレ過程混合モデルによってクラスタリングを行う。
[竹岡 2016]
カーネル行列の生成モデルを定義し、
2クラスの分割を繰り返すことでクラスタリングを行う。
5/20先行研究の特徴
スペクトラル中華料理店過程
反復が不要
2段階による
クラスタリング
データに応じて手法の
使い分けが必要
竹岡手法
超パラメータによる
性能のブレが少ない
表現力が乏しい
行ごとの分割による
近似をしている
長所
短所
6/20本研究のアプローチ
① 類似度行列の確率的生成モデルを構築
② 所属クラスの事後確率最大化によって
所属クラスとクラス数を自動決定
7/20確率的生成モデルの利点
? 人工データの生成が可能
? ベイズ的に問題を扱え、事前情報を使うことで
精度が上がる可能性がある
8/20確率的生成モデルの構築
類似度行列は正定値行列とする
対応するカーネル関数 がある( , )k x y
ある特徴空間での内積とみなせる
9/20類似度行列の確率的生成モデル
クラス2
T
(1.3, 4.5, 0.3, 4.0, 2.1)i ? ?z   T
( 4.7, 12.3, 3.4, 8.8, 5.4)j ? ? ?z  
M次元の潜在特徴ベクトル
クラス1
11 1
1
N
N NN
k k
k k
? ?
? ?
? ? ?
? ?
? ?
K類似度行列
T
( , 1, , )i j i jk i j N? ?z z
個体 ごとに
特徴ベクトル を持つiz
N
N
11( | , )iz μ Λ 22( | , )jz μ Λ
i
10/20類似度行列の確率的生成モデル
1
~ ( | , )i i c c
?
z z μ Λ
T
ij i jk ? z z
類似度行列
1
0, ~ ( ; ,( ) ) ( ; , )
( 1, , )
c c
c
? ??
? ?
μ Λ μ μ Λ Λ A?
1 2( ) ~ CRP( )Ns s s ??s
11
1
iN
N NN
k k
k k
? ?
? ?
? ? ?
? ?
? ?
K
N
N
iz は 上の確率変数M
は個体 の所属クラスを示す潜在変数is i
11/20本研究の目的
1.0 0.4 0.9
0.4 1.0 0.6
0.9 0.6 1.0
? ?
? ?
? ?
? ?
? ?
? ?
K類似度行列 sクラスラベル列
類似度行列 が与えられたもとでのクラスタリングK
(クラスラベル列 を求めることに相当)s
12/20類似度行列の各列の分布
~ ( , ) ( 1, , )c ci i N?μk Λ
仮定
2
1 1
2
2 2
2 2
1 2 1 2
2 2
1 1
~ ( , )
~ ( , )
~ ( , )
~ ( , )
Y
X
k
X
Y
X k k
? ?
? ?
? ? ? ?
? ?
? ? ?
ガウス分布に従う確率変数の
?和はガウス分布
?実数倍はガウス分布
類似度行列の各列はガウス分布に従う
ガウス分布の再生性
13/20類似度行列の各列の分布
~ ( , ) ( 1, , )c ci i N?μk Λ
仮定
T T 1
) ( | ,( | , )c ijij ij i c ii cp k s k? ? ?
? ?z z z Λ z
1 1j iMi i jj Mk zz zz? ? ?
よって類似度行列の各列はM次元ガウス分布に従う
類似度行列の各列はガウス分布に従う
類似度行列の各要素は制約のもとでガウス分布に従う
14/20所属クラスの事後確率最大化
( | )p s K の最大化は困難(組み合わせ数が膨大)
崩壊型ギブスサンプリング
確率的に を決定し、 を計算
繰り返すことで効率的に最大化
( | )p s Ks
15/20所属クラスの事後確率最大化
( | )p s K の最大化は困難(組み合わせ数が膨大)
崩壊型ギブスサンプリング
( | , , )
( | , ) ( | )
i j i i i
i i j i i j i
p s
p s p s
?
? ?
? ?
? ?
?
? ? ?
k s K
k K s
尤度 事前確率
中華料理店過程(CRP)ガウス分布
クラス数の自動決定のため
16/20比較実験
?ガウス混合データセット
?Irisデータセット
?純度 (Purity)
?正規化相互情報量 (NMI)
?ランド指数 (RI)
?クラス数
評価指標データセット
手法
?スペクトラル中華料理店過程
?竹岡手法
?提案手法
17/20比較実験(分散の小さいガウス混合データ)
SC+CRP 竹岡手法 提案手法
Purity 0.95 1.00 0.88
NMI 0.89 0.96 0.81
RI 0.88 0.95 0.77
クラス数 4.00 3.47 3.34
0
0.2
0.4
0.6
0.8
1
1.2
Purity NMI RI
分散の小さいガウス混合データ
SC+CRP 竹岡手法 提案手法
18/20
SC+CRP 竹岡手法 提案手法
Purity 0.61 0.67 0.87
NMI 0.58 0.76 0.75
RI 0.43 0.57 0.72
クラス数 3.00 2.00 2.98
比較実験(Irisデータ)
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Purity NMI RI
Irisデータセットに対する実験
SC+CRP 竹岡手法 提案手法
19/20議論
? 真のクラス数を捉えている
? 超パラメータが多いため、チューニング段階で
クラス数を学習していると考えられる。
? データセットによって性能に差が出た
? 適切な超パラメータを見つけられなかった。
? クラスタリングの評価に真の情報(クラスラベル列)
を用いたために過学習に陥る危険がある。
20/20今後の課題と展開
? 超パラメータの効率的なチューニング方法の考案
? 真の情報(クラスラベル列)によらない評価関数の構築
? 「構造」データに対する実験
? 計算の高速化

More Related Content

类似度が与えられたもとでのクラスタリングに関する研究-卒业研究审査会资料-