際際滷

際際滷Share a Scribd company logo
MMDs	
 ?7.3	
 ?-?\	
 ?7.4	
 ?
05-?\03-?\2014	
 ?
Shota	
 ?Horii	
 ?
書指の坪否
?? ポイント護り輝て侏クラスタリングの旗燕議アルゴリズム	
 ?
C? K-?\means	
 ?algorithm	
 ?
	
 ?
?? K-?\meansを寄トデ`タで佩うためのアルゴリズム	
 ?
C? BFR	
 ?algorithm	
 ?
	
 ?
?? 寄トデ`タのクラスタリング(}jな侘彜のクラスタに)	
 ?
C? CURE	
 ?algorithm	
 ?
k-means algorithm
7.3.1. k-means 古勣
?? 恷も嗤兆なポイント護り輝て侏クラスタリング	
 ?
?? デ`タについての協	
 ?
C? デ`タがユ`クリッド腎g貧にある並	
 ?
C? クラスタ方が屡岑である並 -?\>	
 ?隆岑の栽でもトライ&エラ`で容y辛	
 ?
クラスタ方 =	
 ?3	
 ?
e.g.)	
 ?
7.3.1. k-means 古勣
畠ての泣がクラスタに	
 ?
護り輝てられるまでRり卦す。	
 ?
なるクラスタに奉するであろう泣をkxび	
 ?
それぞれクラスタ嶷伉とする。	
 ?
それ參翌の泣を、恷も嶷伉の除いクラスタに護り輝てる。	
 ?
クラスタ嶷伉の了崔を俐屎。	
 ?
7.3.1. k-means 古勣
1.? なるクラスタに奉するであろうKの泣をxび竃す。	
 ?
	
 ?
2.? xばれたポイントをそれぞれのクラスタの嶷伉とする。	
 ?
	
 ?
3.? step1でxばれていない畠ての泣pについて	
 ?
	
 ?I)	
 ?	
 ?pに恷も除いクラスタ嶷伉をつける	
 ?
	
 ?II)	
 ?pをその嶷伉の奉するクラスタに弖紗する	
 ?
	
 ?III)	
 ?pを紗えた貧でそのクラスタの嶷伉了崔を壅麻する	
 ?
	
 ?
4(opConal).	
 ?	
 ?	
 ?畠クラスタの嶷伉を耕協し、壅業畠ての泣pについて	
 ?
	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?恷も除いクラスタ嶷伉を冥し、そのクラスタに護り輝てる。	
 ?
?? なるクラスタに奉するであろう泣をxびたい	
 ?
approach1:	
 ?	
 ?できる泙裨xれたkの泣をxぶ	
 ?
	
 ?
	
 ?
	
 ?
	
 ?
	
 ?
	
 ?
approach2:	
 ?	
 ?デ`タのサンプルをA啜弔kのクラスタに蛍護し、	
 ?
	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?それぞれのクラスタの嶷伉に除い泣をxぶ	
 ?
7.3.2. kの兜豚嶷伉のxび圭
7.3.3. クラスタ方が隆岑のケ`ス
?? 屎しいクラスタ方を嚠yしたい	
 ?
	
 ?
?? クラスタリングの措倦をyる児覆あれば、?なクラスタ
方をして恷mなものをxべる。	
 ?
	
 ?
?? (畽)	
 ?揖匯クラスタ坪の恷もhい屈泣gの鉦xをそのクラス
タの	
 ?¨岷抄¨	
 ?という。	
 ?
	
 ?
?? この岷抄を旋喘してクラスタリングの措倦をyる。	
 ?
7.3.3. クラスタ方が隆岑のケ`ス
k	
 ?=	
 ?1	
 ? k	
 ?=	
 ?2	
 ?
k	
 ?=	
 ?3	
 ? k	
 ?=	
 ?4	
 ?
クラスタの峠譲岷抄はかなり弌さくなる。	
 ?
クラスタの峠譲岷抄はあまり笋錣蕕覆ぁ	
 ?
7.3.3. クラスタ方が隆岑のケ`ス
?? k=1,2,4,8,´	
 ?とk-?\meansを佩う	
 ?
?? v,	
 ?2vのgで篁が富ないようなvをつける	
 ?
?? 寔のkはv/2,	
 ?vのgにある	
 ?
?? v/2とvのgの方をバイナリサ`チの勣Iで寔のkを冥す	
 ?
?? =>恷K議に	
 ?2logv指のクラスタリングが駅勣	
 ?
BFR algorithm
7.3.4. BFRアルゴリズム 古勣
?? 互肝圷ユ`クリッド腎g貧のデ`タをクラスタリングするため
に深宛されたk-?\meansのバリエ`ション。	
 ?
?? BFR	
 ?は广宀の兆念の^猟忖(Bradley,	
 ?Fayyad	
 ?and	
 ?Reina)	
 ?
?? クラスタの侘彜についてしい協	
 ?
C? クラスタ坪の泣が、クラスタ嶷伉の巓りに屎キ峅爾靴討い襪海
(normally	
 ?distributed)	
 ?
C? 峠譲と米餓は光肝圷でなって措いが、光肝圷がそれぞれ鏡羨
であること	
 ?-?\>	
 ?クラスタのSが肝圷のS貧に冽っていること	
 ?
7.3.4. BFRアルゴリズム 古勣
?? まず宥械のk-?\meansと揖にkの兜豚嶷伉をO協する。	
 ?
?? その瘁、デ`タをメインメモリにdるサイズのchunk阿釦iみ
zんでクラスタリングを佩っていく。	
 ?
	
 ?
?? chunk阿釦iみzんだ泣畠ての秤鵑鬟瓮ぅ鵐瓮皀蠅鵬个靴
おくことはできない。	
 ?	
 ?
-?\>	
 ?iみzんだ秤鵑鰔sしてメインメモリに鯉{しておく。	
 ?
?? メインメモリには、肝にiみzむデ`タchunk	
 ?+	
 ?iみzみg
デ`タの勣s秤鵑鯉{されることになる。	
 ?
7.3.4. 3つのオブジェクト
?? The	
 ?Discard	
 ?Set	
 ?
C? kのクラスタについての秤	
 ?
C? クラスタ秤鵑榔3屬気譟光泣の秤鵑脇される。	
 ?
?? The	
 ?Compressed	
 ?Set	
 ?
C? どのクラスタとも除くないが、麿の泣と除くにある泣の鹿ま
りをミニクラスタと柵ぶ。	
 ?
C? ミニクラスタの秤鵑隠隔され、光泣の秤鵑脇される。	
 ?
?? The	
 ?Retained	
 ?Set	
 ?
C? どのクラスタとも、麿のどの泣とも除くない泣は、iみzま
れたままの泣の秤鵑箸靴謄瓮ぅ鵐瓮皀蠅鳳3屬気譴襦	
 ?
*	
 ?除い/除くない の登協児覆瘁のスライドで	
 ?
7.3.4. 3つのオブジェクト
7.3.4. クラスタ秤鵑匹Ρ3屬気譴襪
?? クラスタ秤鵑肇潺縫ラスタ秤鵑呂修譴召2d+1の、砲茲辰	
 ?
隠隔される。	
 ?
C? クラスタ坪の泣の方	
 ?N	
 ?
C? 光肝圷阿法畠ての泣の、虜腕。(Lさdのベクトル	
 ?SUM)	
 ?
C? 光肝圷阿法畠ての泣の、龍\の栽。(Lさdのベクトル	
 ?SUMSQ)	
 ?
	
 ?
?? 恷K議には、クラスタ,	
 ?ミニクラスタを參和のに燕したい。	
 ?
C? クラスタ坪の泣の方	
 ?
C? クラスタの嶷伉了崔	
 ?
C? 光肝圷の米餓	
 ?
	
 ?
?? これらは隠隔された秤鵑らgに箔まる。	
 ?
C? クラスタ坪の泣の方	
 ?=	
 ?N	
 ?
C? ith肝圷の嶷伉了崔	
 ?=	
 ?	
 ?
C? ith肝圷の米餓	
 ?=	
 ?	
 ?
	
 ?
SUMi / N
SUMSQi / N ?(SUMi / N)2
7.3.4. クラスタ秤鵑匹Ρ3屬気譴襪
e.g.)	
 ? 泣(5,1),	
 ?(6,	
 ?-?\2),	
 ?(7,	
 ?0)	
 ?から撹るクラスタについて深える。	
 ?
	
 ?
	
 ?N	
 ?=	
 ?3	
 ?
	
 ?SUM	
 ?=	
 ?[5+6+7,	
 ?1-?\2+0]	
 ?=	
 ?[18,	
 ?-?\1]	
 ?
	
 ?SUMSQ	
 ?=	
 ?[25+36+49,	
 ?1+4+0]	
 ?=	
 ?[110,	
 ?5]	
 ?
	
 ?
	
 ?クラスタ嶷伉	
 ?=	
 ?SUM/N	
 ?=	
 ?[6,	
 ?-?\1/3]	
 ?
	
 ?光肝圷の米餓:	
 ?
	
 ? 	
 ?	
 ?
	
 ?	
 ?
std1 = 110 / 3?(18 / 3)2
= 0.667 = 0.816
std2 = 5 / 3?(?1/ 3)2
= 1.56 =1.25
?? なぜ恷兜からクラスタを嶷伉と米餓で隠隔せずに	
 ?
N,	
 ?SUM,	
 ?SUMSQの侘で隠隔するのか	
 ?
★ クラスタに仟しい泣を弖紗したH、厚仟の麻が掲械にSに。	
 ?
7.3.5. BFRアルゴリズム プロセス
	
 ?
1.? デ`タchunk嶄の泣で、光クラスタ嶷伉に噴蛍除いものはそのクラスタに弖
紗される。	
 ?
	
 ?
2.? step1でクラスタに弖紗されなかった泣と、Retained	
 ?Setの泣について、メイン
メモリ貧でクラスタリングを佩う(A咼ラスタリング吉)。	
 ?
ここでクラスタとなったものはCompressed	
 ?Set(ミニクラスタ)へ。	
 ?
g匯の泣として火ったものはRetained	
 ?Setへ。	
 ?
	
 ?
3.? 屡にあるミニクラスタと書指仟たに竃栖たミニクラスタの嶄で、除くにあるも
のを禳呂垢襦	
 ?
	
 ?
4.? クラスタ	
 ?or	
 ?ミニクラスタに弖紗された泣はメインメモリからは篤され、セカ
ンダリメモリに。	
 ?
	
 ?
5.? もし恷瘁のチャンクの栽、Compressed	
 ?SetとRetained	
 ?SetをI尖。	
 ?
-?\? どのクラスタにも護り輝てない	
 ?
-?\? あるいは、恷も除いクラスタに禳呂垢	
 ?
‐ひとつの	
 ?chunk	
 ?をiみzんだrのプロセス/	
 ?
7.3.5. 除さの登協 (圭隈1)
?? 泣pに恷も嶷伉が除いクラスタをxび竃す。	
 ?
?? 書瘁畠ての泣をI尖しKわった瘁もそのクラスタが泣pから
恷も除いクラスタであると深えられる栽、泣pを紗える。	
 ?
?? そうでない栽、どのクラスタにも紗えない。	
 ?
(Compressed	
 ?Set	
 ?嗽は	
 ?Retained	
 ?Setに紗えられることになる)	
 ?
	
 ?
C? }jなy麻が駅勣。	
 ?
C? アドバンテ`ジ:	
 ?泣pがどのクラスタともhい栽でも、曳^議に恷も
除いクラスタに弖紗される。	
 ?
‐泣pをクラスタに弖紗するかどうかの登協	
 ?
	
 ?	
 ?	
 ?=	
 ?泣pがクラスタに噴蛍除いかどうかの登協/	
 ?
	
 ?
?? 光肝圷でクラスタ嶄の泣はS貧に屎キ峅爾靴討い襪協。	
 ?
?? 絞に、泣pからクラスタ嶷伉までの鉦xが蛍かれば、その鉦
xの泣がクラスタに根まれている_楕が麻できる。	
 ?
	
 ?
	
 ?
?? マハラノビス鉦xを麻する。	
 ?
7.3.5. 除さの登協 (圭隈2)
7.3.5. マハラノビス鉦x
?? マハラノビス鉦x	
 ?=	
 ?クラスタの光肝圷の米餓で屎サされた、泣pか
らクラスタ嶷伉までの鉦x。	
 ?
(
pi ?ci
σi
)2
i=1
d
‘
p =[p1, p2,..., pd ]
c =[c1,c2,...,cd ]
σi = i桑朕の肝圷におけるクラスタの米餓	
 ?
クラスタ嶷伉と泣pとの屎サされた鉦x	
 ?
畠てのクラスタとのマハラノビス鉦xを麻し、これが恷も弌さいクラスタをxぶ。	
 ?
もしこのクラスタとの鉦xが、茲蠅睾,気韻譴弌泣pをクラスタに紗える。	
 ?
7.3.5. マハラノビス鉦x
?? 箭えば、4にO協したとする。	
 ?
?? もしデ`タが云輝に屎キ峅爾惄辰瞳峅爾靴討い襪覆蕕4
米餓よりxれた泣がクラスタに奉する_楕は1/1000000
より弌さい。	
 ?
?? すなわちgHにクラスタに奉している泣を`って俳り里討
_楕は1/1000000より弌さい。	
 ?
CURE algorithm
7.4. CUREアルゴリズム 古勣
?? CURE	
 ?=	
 ?Clustering	
 ?Using	
 ?REpresentaCves	
 ?
?? ユ`クリッド腎g貧の泣を	
 ?
?? クラスタの侘彜について採も崙泙靴覆	
 ?
	
 ?(S忖侘彜やリングなどもOK)	
 ?
	
 ?
	
 ?
	
 ?
	
 ?
	
 ?
	
 ?
?? クラスタの燕Fに、嶷伉の旗わりに}方の旗燕泣を喘いる。	
 ?
e.g.)	
 ?
7.4.1. CUREアルゴリズム 兜豚晒
1.? メインメモリにdるサイズのサンプルを函る	
 ?
2.? それらをメインメモリ貧でクラスタリング	
 ?
-?\? 恷も除い泣を隔つクラスタ揖平を禳呂靴討いようなA咼ラスタリン
グが容Xされる。 	
 ?
	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?	
 ?-?\>}jな侘彜のクラスタ に鬉任る。	
 ?
	
 ?
3.? 光クラスタから}方の旗燕泣をxぶ。	
 ?
-?\? クラスタ坪でできる泙裨xれた泣をxkする	
 ?
	
 ?
4.? 光旗燕泣を、匯協の護栽でクラスタ嶷伉の圭へ卞咾気擦襦	
 ?
-?\? 20%が容Xされる	
 ?
7.4.2. CUREアルゴリズム 兜豚晒
1.	
 ?メインメモリにdるサイズをサンプリング	
 ? 2.	
 ?A咼ラスタリング	
 ?
3.	
 ?旗燕泣をxぶ	
 ? 4.	
 ?それぞれクラスタ嶷伉に匯協護栽篠せる	
 ?
(恷も除い泣を隔つクラスタ揖平を禳呂垢觀酬┐)	
 ?
7.4.2. CUREアルゴリズム 兜豚晒
?? それぞれのクラスタを禳呂垢襪どうか登協する駅勣がある。	
 ?
光クラスタの旗燕泣揖平の鉦xがある邦覆茲蠅睾,気韻譴	
 ?
クラスタは禳呂気譴襪戮。	
 ?-?\>	
 ?この、魯僖薀瓸`タとしてQ協される。	
 ?
7.4.2. CUREアルゴリズム 頼阻
?? ストレ`ジ貧の火りの泣について	
 ?
恷も除くに旗燕泣を隔つクラスタに禳呂垢襦	
 ?
仟しい泣	
 ?-?\>	
 ?坪箸劼離ラスタに蛍される。	
 ?
new	
 ?point	
 ?
まとめ
?? k-?\means	
 ?algorithm	
 ?
C? ポイント護り輝て侏の旗燕議アルゴリズム	
 ?
C? 屎しいクラスタ方が隆岑の栽も嚠y辛嬬	
 ?
?? BFR	
 ?algorithm	
 ?
C? 寄トデ`タでk-?\meansを佩う	
 ?
C? クラスタ侘彜についてしい協	
 ?
C? iみzんだ秤鵑鰔sして隠隔	
 ?
?? CURE	
 ?algorithm	
 ?
C? 寄トデ`タに	
 ?
C? }jな侘彜のクラスタに	
 ?
C? クラスタを嶷伉ではなく}方の旗燕泣で燕Fする	
 ?

More Related Content

MMDs 7.3 - 7.4

  • 1. MMDs ?7.3 ?-?\ ?7.4 ? 05-?\03-?\2014 ? Shota ?Horii ?
  • 2. 書指の坪否 ?? ポイント護り輝て侏クラスタリングの旗燕議アルゴリズム ? C? K-?\means ?algorithm ? ? ?? K-?\meansを寄トデ`タで佩うためのアルゴリズム ? C? BFR ?algorithm ? ? ?? 寄トデ`タのクラスタリング(}jな侘彜のクラスタに) ? C? CURE ?algorithm ?
  • 4. 7.3.1. k-means 古勣 ?? 恷も嗤兆なポイント護り輝て侏クラスタリング ? ?? デ`タについての協 ? C? デ`タがユ`クリッド腎g貧にある並 ? C? クラスタ方が屡岑である並 -?\> ?隆岑の栽でもトライ&エラ`で容y辛 ? クラスタ方 = ?3 ? e.g.) ?
  • 5. 7.3.1. k-means 古勣 畠ての泣がクラスタに ? 護り輝てられるまでRり卦す。 ? なるクラスタに奉するであろう泣をkxび ? それぞれクラスタ嶷伉とする。 ? それ參翌の泣を、恷も嶷伉の除いクラスタに護り輝てる。 ? クラスタ嶷伉の了崔を俐屎。 ?
  • 6. 7.3.1. k-means 古勣 1.? なるクラスタに奉するであろうKの泣をxび竃す。 ? ? 2.? xばれたポイントをそれぞれのクラスタの嶷伉とする。 ? ? 3.? step1でxばれていない畠ての泣pについて ? ?I) ? ?pに恷も除いクラスタ嶷伉をつける ? ?II) ?pをその嶷伉の奉するクラスタに弖紗する ? ?III) ?pを紗えた貧でそのクラスタの嶷伉了崔を壅麻する ? ? 4(opConal). ? ? ?畠クラスタの嶷伉を耕協し、壅業畠ての泣pについて ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?恷も除いクラスタ嶷伉を冥し、そのクラスタに護り輝てる。 ?
  • 7. ?? なるクラスタに奉するであろう泣をxびたい ? approach1: ? ?できる泙裨xれたkの泣をxぶ ? ? ? ? ? ? ? approach2: ? ?デ`タのサンプルをA啜弔kのクラスタに蛍護し、 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?それぞれのクラスタの嶷伉に除い泣をxぶ ? 7.3.2. kの兜豚嶷伉のxび圭
  • 8. 7.3.3. クラスタ方が隆岑のケ`ス ?? 屎しいクラスタ方を嚠yしたい ? ? ?? クラスタリングの措倦をyる児覆あれば、?なクラスタ 方をして恷mなものをxべる。 ? ? ?? (畽) ?揖匯クラスタ坪の恷もhい屈泣gの鉦xをそのクラス タの ?¨岷抄¨ ?という。 ? ? ?? この岷抄を旋喘してクラスタリングの措倦をyる。 ?
  • 9. 7.3.3. クラスタ方が隆岑のケ`ス k ?= ?1 ? k ?= ?2 ? k ?= ?3 ? k ?= ?4 ? クラスタの峠譲岷抄はかなり弌さくなる。 ? クラスタの峠譲岷抄はあまり笋錣蕕覆ぁ ?
  • 10. 7.3.3. クラスタ方が隆岑のケ`ス ?? k=1,2,4,8,´ ?とk-?\meansを佩う ? ?? v, ?2vのgで篁が富ないようなvをつける ? ?? 寔のkはv/2, ?vのgにある ? ?? v/2とvのgの方をバイナリサ`チの勣Iで寔のkを冥す ? ?? =>恷K議に ?2logv指のクラスタリングが駅勣 ?
  • 12. 7.3.4. BFRアルゴリズム 古勣 ?? 互肝圷ユ`クリッド腎g貧のデ`タをクラスタリングするため に深宛されたk-?\meansのバリエ`ション。 ? ?? BFR ?は广宀の兆念の^猟忖(Bradley, ?Fayyad ?and ?Reina) ? ?? クラスタの侘彜についてしい協 ? C? クラスタ坪の泣が、クラスタ嶷伉の巓りに屎キ峅爾靴討い襪海 (normally ?distributed) ? C? 峠譲と米餓は光肝圷でなって措いが、光肝圷がそれぞれ鏡羨 であること ?-?\> ?クラスタのSが肝圷のS貧に冽っていること ?
  • 13. 7.3.4. BFRアルゴリズム 古勣 ?? まず宥械のk-?\meansと揖にkの兜豚嶷伉をO協する。 ? ?? その瘁、デ`タをメインメモリにdるサイズのchunk阿釦iみ zんでクラスタリングを佩っていく。 ? ? ?? chunk阿釦iみzんだ泣畠ての秤鵑鬟瓮ぅ鵐瓮皀蠅鵬个靴 おくことはできない。 ? ? -?\> ?iみzんだ秤鵑鰔sしてメインメモリに鯉{しておく。 ? ?? メインメモリには、肝にiみzむデ`タchunk ?+ ?iみzみg デ`タの勣s秤鵑鯉{されることになる。 ?
  • 14. 7.3.4. 3つのオブジェクト ?? The ?Discard ?Set ? C? kのクラスタについての秤 ? C? クラスタ秤鵑榔3屬気譟光泣の秤鵑脇される。 ? ?? The ?Compressed ?Set ? C? どのクラスタとも除くないが、麿の泣と除くにある泣の鹿ま りをミニクラスタと柵ぶ。 ? C? ミニクラスタの秤鵑隠隔され、光泣の秤鵑脇される。 ? ?? The ?Retained ?Set ? C? どのクラスタとも、麿のどの泣とも除くない泣は、iみzま れたままの泣の秤鵑箸靴謄瓮ぅ鵐瓮皀蠅鳳3屬気譴襦 ? * ?除い/除くない の登協児覆瘁のスライドで ?
  • 16. 7.3.4. クラスタ秤鵑匹Ρ3屬気譴襪 ?? クラスタ秤鵑肇潺縫ラスタ秤鵑呂修譴召2d+1の、砲茲辰 ? 隠隔される。 ? C? クラスタ坪の泣の方 ?N ? C? 光肝圷阿法畠ての泣の、虜腕。(Lさdのベクトル ?SUM) ? C? 光肝圷阿法畠ての泣の、龍\の栽。(Lさdのベクトル ?SUMSQ) ? ? ?? 恷K議には、クラスタ, ?ミニクラスタを參和のに燕したい。 ? C? クラスタ坪の泣の方 ? C? クラスタの嶷伉了崔 ? C? 光肝圷の米餓 ? ? ?? これらは隠隔された秤鵑らgに箔まる。 ? C? クラスタ坪の泣の方 ?= ?N ? C? ith肝圷の嶷伉了崔 ?= ? ? C? ith肝圷の米餓 ?= ? ? ? SUMi / N SUMSQi / N ?(SUMi / N)2
  • 17. 7.3.4. クラスタ秤鵑匹Ρ3屬気譴襪 e.g.) ? 泣(5,1), ?(6, ?-?\2), ?(7, ?0) ?から撹るクラスタについて深える。 ? ? ?N ?= ?3 ? ?SUM ?= ?[5+6+7, ?1-?\2+0] ?= ?[18, ?-?\1] ? ?SUMSQ ?= ?[25+36+49, ?1+4+0] ?= ?[110, ?5] ? ? ?クラスタ嶷伉 ?= ?SUM/N ?= ?[6, ?-?\1/3] ? ?光肝圷の米餓: ? ? ? ? ? ? std1 = 110 / 3?(18 / 3)2 = 0.667 = 0.816 std2 = 5 / 3?(?1/ 3)2 = 1.56 =1.25 ?? なぜ恷兜からクラスタを嶷伉と米餓で隠隔せずに ? N, ?SUM, ?SUMSQの侘で隠隔するのか ? ★ クラスタに仟しい泣を弖紗したH、厚仟の麻が掲械にSに。 ?
  • 18. 7.3.5. BFRアルゴリズム プロセス ? 1.? デ`タchunk嶄の泣で、光クラスタ嶷伉に噴蛍除いものはそのクラスタに弖 紗される。 ? ? 2.? step1でクラスタに弖紗されなかった泣と、Retained ?Setの泣について、メイン メモリ貧でクラスタリングを佩う(A咼ラスタリング吉)。 ? ここでクラスタとなったものはCompressed ?Set(ミニクラスタ)へ。 ? g匯の泣として火ったものはRetained ?Setへ。 ? ? 3.? 屡にあるミニクラスタと書指仟たに竃栖たミニクラスタの嶄で、除くにあるも のを禳呂垢襦 ? ? 4.? クラスタ ?or ?ミニクラスタに弖紗された泣はメインメモリからは篤され、セカ ンダリメモリに。 ? ? 5.? もし恷瘁のチャンクの栽、Compressed ?SetとRetained ?SetをI尖。 ? -?\? どのクラスタにも護り輝てない ? -?\? あるいは、恷も除いクラスタに禳呂垢 ? ‐ひとつの ?chunk ?をiみzんだrのプロセス/ ?
  • 19. 7.3.5. 除さの登協 (圭隈1) ?? 泣pに恷も嶷伉が除いクラスタをxび竃す。 ? ?? 書瘁畠ての泣をI尖しKわった瘁もそのクラスタが泣pから 恷も除いクラスタであると深えられる栽、泣pを紗える。 ? ?? そうでない栽、どのクラスタにも紗えない。 ? (Compressed ?Set ?嗽は ?Retained ?Setに紗えられることになる) ? ? C? }jなy麻が駅勣。 ? C? アドバンテ`ジ: ?泣pがどのクラスタともhい栽でも、曳^議に恷も 除いクラスタに弖紗される。 ? ‐泣pをクラスタに弖紗するかどうかの登協 ? ? ? ?= ?泣pがクラスタに噴蛍除いかどうかの登協/ ? ?
  • 20. ?? 光肝圷でクラスタ嶄の泣はS貧に屎キ峅爾靴討い襪協。 ? ?? 絞に、泣pからクラスタ嶷伉までの鉦xが蛍かれば、その鉦 xの泣がクラスタに根まれている_楕が麻できる。 ? ? ? ?? マハラノビス鉦xを麻する。 ? 7.3.5. 除さの登協 (圭隈2)
  • 21. 7.3.5. マハラノビス鉦x ?? マハラノビス鉦x ?= ?クラスタの光肝圷の米餓で屎サされた、泣pか らクラスタ嶷伉までの鉦x。 ? ( pi ?ci σi )2 i=1 d ‘ p =[p1, p2,..., pd ] c =[c1,c2,...,cd ] σi = i桑朕の肝圷におけるクラスタの米餓 ? クラスタ嶷伉と泣pとの屎サされた鉦x ? 畠てのクラスタとのマハラノビス鉦xを麻し、これが恷も弌さいクラスタをxぶ。 ? もしこのクラスタとの鉦xが、茲蠅睾,気韻譴弌泣pをクラスタに紗える。 ?
  • 22. 7.3.5. マハラノビス鉦x ?? 箭えば、4にO協したとする。 ? ?? もしデ`タが云輝に屎キ峅爾惄辰瞳峅爾靴討い襪覆蕕4 米餓よりxれた泣がクラスタに奉する_楕は1/1000000 より弌さい。 ? ?? すなわちgHにクラスタに奉している泣を`って俳り里討 _楕は1/1000000より弌さい。 ?
  • 24. 7.4. CUREアルゴリズム 古勣 ?? CURE ?= ?Clustering ?Using ?REpresentaCves ? ?? ユ`クリッド腎g貧の泣を ? ?? クラスタの侘彜について採も崙泙靴覆 ? ?(S忖侘彜やリングなどもOK) ? ? ? ? ? ? ? ?? クラスタの燕Fに、嶷伉の旗わりに}方の旗燕泣を喘いる。 ? e.g.) ?
  • 25. 7.4.1. CUREアルゴリズム 兜豚晒 1.? メインメモリにdるサイズのサンプルを函る ? 2.? それらをメインメモリ貧でクラスタリング ? -?\? 恷も除い泣を隔つクラスタ揖平を禳呂靴討いようなA咼ラスタリン グが容Xされる。 ? ? ? ? ? ? ? ? ? ?-?\>}jな侘彜のクラスタ に鬉任る。 ? ? 3.? 光クラスタから}方の旗燕泣をxぶ。 ? -?\? クラスタ坪でできる泙裨xれた泣をxkする ? ? 4.? 光旗燕泣を、匯協の護栽でクラスタ嶷伉の圭へ卞咾気擦襦 ? -?\? 20%が容Xされる ?
  • 26. 7.4.2. CUREアルゴリズム 兜豚晒 1. ?メインメモリにdるサイズをサンプリング ? 2. ?A咼ラスタリング ? 3. ?旗燕泣をxぶ ? 4. ?それぞれクラスタ嶷伉に匯協護栽篠せる ? (恷も除い泣を隔つクラスタ揖平を禳呂垢觀酬┐) ?
  • 27. 7.4.2. CUREアルゴリズム 兜豚晒 ?? それぞれのクラスタを禳呂垢襪どうか登協する駅勣がある。 ? 光クラスタの旗燕泣揖平の鉦xがある邦覆茲蠅睾,気韻譴 ? クラスタは禳呂気譴襪戮。 ?-?\> ?この、魯僖薀瓸`タとしてQ協される。 ?
  • 28. 7.4.2. CUREアルゴリズム 頼阻 ?? ストレ`ジ貧の火りの泣について ? 恷も除くに旗燕泣を隔つクラスタに禳呂垢襦 ? 仟しい泣 ?-?\> ?坪箸劼離ラスタに蛍される。 ? new ?point ?
  • 29. まとめ ?? k-?\means ?algorithm ? C? ポイント護り輝て侏の旗燕議アルゴリズム ? C? 屎しいクラスタ方が隆岑の栽も嚠y辛嬬 ? ?? BFR ?algorithm ? C? 寄トデ`タでk-?\meansを佩う ? C? クラスタ侘彜についてしい協 ? C? iみzんだ秤鵑鰔sして隠隔 ? ?? CURE ?algorithm ? C? 寄トデ`タに ? C? }jな侘彜のクラスタに ? C? クラスタを嶷伉ではなく}方の旗燕泣で燕Fする ?