際際滷
Submit Search
MMDs 7.3 - 7.4
?
0 likes
?
736 views
Shota Horii
Follow
Mining of Massive Datasets. Chapter 7.3 - 7.4 Point-Assignment Clustering Algorithms
Read less
Read more
1 of 29
Download now
Download to read offline
More Related Content
MMDs 7.3 - 7.4
1.
MMDs ?7.3 ?-?\
?7.4 ? 05-?\03-?\2014 ? Shota ?Horii ?
2.
書指の坪否 ?? ポイント護り輝て侏クラスタリングの旗燕議アルゴリズム ? C?
K-?\means ?algorithm ? ? ?? K-?\meansを寄トデ`タで佩うためのアルゴリズム ? C? BFR ?algorithm ? ? ?? 寄トデ`タのクラスタリング(}jな侘彜のクラスタに) ? C? CURE ?algorithm ?
3.
k-means algorithm
4.
7.3.1. k-means 古勣 ??
恷も嗤兆なポイント護り輝て侏クラスタリング ? ?? デ`タについての協 ? C? デ`タがユ`クリッド腎g貧にある並 ? C? クラスタ方が屡岑である並 -?\> ?隆岑の栽でもトライ&エラ`で容y辛 ? クラスタ方 = ?3 ? e.g.) ?
5.
7.3.1. k-means 古勣 畠ての泣がクラスタに
? 護り輝てられるまでRり卦す。 ? なるクラスタに奉するであろう泣をkxび ? それぞれクラスタ嶷伉とする。 ? それ參翌の泣を、恷も嶷伉の除いクラスタに護り輝てる。 ? クラスタ嶷伉の了崔を俐屎。 ?
6.
7.3.1. k-means 古勣 1.?
なるクラスタに奉するであろうKの泣をxび竃す。 ? ? 2.? xばれたポイントをそれぞれのクラスタの嶷伉とする。 ? ? 3.? step1でxばれていない畠ての泣pについて ? ?I) ? ?pに恷も除いクラスタ嶷伉をつける ? ?II) ?pをその嶷伉の奉するクラスタに弖紗する ? ?III) ?pを紗えた貧でそのクラスタの嶷伉了崔を壅麻する ? ? 4(opConal). ? ? ?畠クラスタの嶷伉を耕協し、壅業畠ての泣pについて ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?恷も除いクラスタ嶷伉を冥し、そのクラスタに護り輝てる。 ?
7.
?? なるクラスタに奉するであろう泣をxびたい ? approach1:
? ?できる泙裨xれたkの泣をxぶ ? ? ? ? ? ? ? approach2: ? ?デ`タのサンプルをA啜弔kのクラスタに蛍護し、 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?それぞれのクラスタの嶷伉に除い泣をxぶ ? 7.3.2. kの兜豚嶷伉のxび圭
8.
7.3.3. クラスタ方が隆岑のケ`ス ?? 屎しいクラスタ方を嚠yしたい
? ? ?? クラスタリングの措倦をyる児覆あれば、?なクラスタ 方をして恷mなものをxべる。 ? ? ?? (畽) ?揖匯クラスタ坪の恷もhい屈泣gの鉦xをそのクラス タの ?¨岷抄¨ ?という。 ? ? ?? この岷抄を旋喘してクラスタリングの措倦をyる。 ?
9.
7.3.3. クラスタ方が隆岑のケ`ス k ?=
?1 ? k ?= ?2 ? k ?= ?3 ? k ?= ?4 ? クラスタの峠譲岷抄はかなり弌さくなる。 ? クラスタの峠譲岷抄はあまり笋錣蕕覆ぁ ?
10.
7.3.3. クラスタ方が隆岑のケ`ス ?? k=1,2,4,8,´
?とk-?\meansを佩う ? ?? v, ?2vのgで篁が富ないようなvをつける ? ?? 寔のkはv/2, ?vのgにある ? ?? v/2とvのgの方をバイナリサ`チの勣Iで寔のkを冥す ? ?? =>恷K議に ?2logv指のクラスタリングが駅勣 ?
11.
BFR algorithm
12.
7.3.4. BFRアルゴリズム 古勣 ??
互肝圷ユ`クリッド腎g貧のデ`タをクラスタリングするため に深宛されたk-?\meansのバリエ`ション。 ? ?? BFR ?は广宀の兆念の^猟忖(Bradley, ?Fayyad ?and ?Reina) ? ?? クラスタの侘彜についてしい協 ? C? クラスタ坪の泣が、クラスタ嶷伉の巓りに屎キ峅爾靴討い襪海 (normally ?distributed) ? C? 峠譲と米餓は光肝圷でなって措いが、光肝圷がそれぞれ鏡羨 であること ?-?\> ?クラスタのSが肝圷のS貧に冽っていること ?
13.
7.3.4. BFRアルゴリズム 古勣 ??
まず宥械のk-?\meansと揖にkの兜豚嶷伉をO協する。 ? ?? その瘁、デ`タをメインメモリにdるサイズのchunk阿釦iみ zんでクラスタリングを佩っていく。 ? ? ?? chunk阿釦iみzんだ泣畠ての秤鵑鬟瓮ぅ鵐瓮皀蠅鵬个靴 おくことはできない。 ? ? -?\> ?iみzんだ秤鵑鰔sしてメインメモリに鯉{しておく。 ? ?? メインメモリには、肝にiみzむデ`タchunk ?+ ?iみzみg デ`タの勣s秤鵑鯉{されることになる。 ?
14.
7.3.4. 3つのオブジェクト ?? The
?Discard ?Set ? C? kのクラスタについての秤 ? C? クラスタ秤鵑榔3屬気譟光泣の秤鵑脇される。 ? ?? The ?Compressed ?Set ? C? どのクラスタとも除くないが、麿の泣と除くにある泣の鹿ま りをミニクラスタと柵ぶ。 ? C? ミニクラスタの秤鵑隠隔され、光泣の秤鵑脇される。 ? ?? The ?Retained ?Set ? C? どのクラスタとも、麿のどの泣とも除くない泣は、iみzま れたままの泣の秤鵑箸靴謄瓮ぅ鵐瓮皀蠅鳳3屬気譴襦 ? * ?除い/除くない の登協児覆瘁のスライドで ?
15.
7.3.4. 3つのオブジェクト
16.
7.3.4. クラスタ秤鵑匹Ρ3屬気譴襪 ?? クラスタ秤鵑肇潺縫ラスタ秤鵑呂修譴召2d+1の、砲茲辰
? 隠隔される。 ? C? クラスタ坪の泣の方 ?N ? C? 光肝圷阿法畠ての泣の、虜腕。(Lさdのベクトル ?SUM) ? C? 光肝圷阿法畠ての泣の、龍\の栽。(Lさdのベクトル ?SUMSQ) ? ? ?? 恷K議には、クラスタ, ?ミニクラスタを參和のに燕したい。 ? C? クラスタ坪の泣の方 ? C? クラスタの嶷伉了崔 ? C? 光肝圷の米餓 ? ? ?? これらは隠隔された秤鵑らgに箔まる。 ? C? クラスタ坪の泣の方 ?= ?N ? C? ith肝圷の嶷伉了崔 ?= ? ? C? ith肝圷の米餓 ?= ? ? ? SUMi / N SUMSQi / N ?(SUMi / N)2
17.
7.3.4. クラスタ秤鵑匹Ρ3屬気譴襪 e.g.) ? 泣(5,1),
?(6, ?-?\2), ?(7, ?0) ?から撹るクラスタについて深える。 ? ? ?N ?= ?3 ? ?SUM ?= ?[5+6+7, ?1-?\2+0] ?= ?[18, ?-?\1] ? ?SUMSQ ?= ?[25+36+49, ?1+4+0] ?= ?[110, ?5] ? ? ?クラスタ嶷伉 ?= ?SUM/N ?= ?[6, ?-?\1/3] ? ?光肝圷の米餓: ? ? ? ? ? ? std1 = 110 / 3?(18 / 3)2 = 0.667 = 0.816 std2 = 5 / 3?(?1/ 3)2 = 1.56 =1.25 ?? なぜ恷兜からクラスタを嶷伉と米餓で隠隔せずに ? N, ?SUM, ?SUMSQの侘で隠隔するのか ? ★ クラスタに仟しい泣を弖紗したH、厚仟の麻が掲械にSに。 ?
18.
7.3.5. BFRアルゴリズム プロセス
? 1.? デ`タchunk嶄の泣で、光クラスタ嶷伉に噴蛍除いものはそのクラスタに弖 紗される。 ? ? 2.? step1でクラスタに弖紗されなかった泣と、Retained ?Setの泣について、メイン メモリ貧でクラスタリングを佩う(A咼ラスタリング吉)。 ? ここでクラスタとなったものはCompressed ?Set(ミニクラスタ)へ。 ? g匯の泣として火ったものはRetained ?Setへ。 ? ? 3.? 屡にあるミニクラスタと書指仟たに竃栖たミニクラスタの嶄で、除くにあるも のを禳呂垢襦 ? ? 4.? クラスタ ?or ?ミニクラスタに弖紗された泣はメインメモリからは篤され、セカ ンダリメモリに。 ? ? 5.? もし恷瘁のチャンクの栽、Compressed ?SetとRetained ?SetをI尖。 ? -?\? どのクラスタにも護り輝てない ? -?\? あるいは、恷も除いクラスタに禳呂垢 ? ‐ひとつの ?chunk ?をiみzんだrのプロセス/ ?
19.
7.3.5. 除さの登協 (圭隈1) ?? 泣pに恷も嶷伉が除いクラスタをxび竃す。
? ?? 書瘁畠ての泣をI尖しKわった瘁もそのクラスタが泣pから 恷も除いクラスタであると深えられる栽、泣pを紗える。 ? ?? そうでない栽、どのクラスタにも紗えない。 ? (Compressed ?Set ?嗽は ?Retained ?Setに紗えられることになる) ? ? C? }jなy麻が駅勣。 ? C? アドバンテ`ジ: ?泣pがどのクラスタともhい栽でも、曳^議に恷も 除いクラスタに弖紗される。 ? ‐泣pをクラスタに弖紗するかどうかの登協 ? ? ? ?= ?泣pがクラスタに噴蛍除いかどうかの登協/ ? ?
20.
?? 光肝圷でクラスタ嶄の泣はS貧に屎キ峅爾靴討い襪協。 ? ??
絞に、泣pからクラスタ嶷伉までの鉦xが蛍かれば、その鉦 xの泣がクラスタに根まれている_楕が麻できる。 ? ? ? ?? マハラノビス鉦xを麻する。 ? 7.3.5. 除さの登協 (圭隈2)
21.
7.3.5. マハラノビス鉦x ?? マハラノビス鉦x
?= ?クラスタの光肝圷の米餓で屎サされた、泣pか らクラスタ嶷伉までの鉦x。 ? ( pi ?ci σi )2 i=1 d ‘ p =[p1, p2,..., pd ] c =[c1,c2,...,cd ] σi = i桑朕の肝圷におけるクラスタの米餓 ? クラスタ嶷伉と泣pとの屎サされた鉦x ? 畠てのクラスタとのマハラノビス鉦xを麻し、これが恷も弌さいクラスタをxぶ。 ? もしこのクラスタとの鉦xが、茲蠅睾,気韻譴弌泣pをクラスタに紗える。 ?
22.
7.3.5. マハラノビス鉦x ?? 箭えば、4にO協したとする。
? ?? もしデ`タが云輝に屎キ峅爾惄辰瞳峅爾靴討い襪覆蕕4 米餓よりxれた泣がクラスタに奉する_楕は1/1000000 より弌さい。 ? ?? すなわちgHにクラスタに奉している泣を`って俳り里討 _楕は1/1000000より弌さい。 ?
23.
CURE algorithm
24.
7.4. CUREアルゴリズム 古勣 ??
CURE ?= ?Clustering ?Using ?REpresentaCves ? ?? ユ`クリッド腎g貧の泣を ? ?? クラスタの侘彜について採も崙泙靴覆 ? ?(S忖侘彜やリングなどもOK) ? ? ? ? ? ? ? ?? クラスタの燕Fに、嶷伉の旗わりに}方の旗燕泣を喘いる。 ? e.g.) ?
25.
7.4.1. CUREアルゴリズム 兜豚晒 1.?
メインメモリにdるサイズのサンプルを函る ? 2.? それらをメインメモリ貧でクラスタリング ? -?\? 恷も除い泣を隔つクラスタ揖平を禳呂靴討いようなA咼ラスタリン グが容Xされる。 ? ? ? ? ? ? ? ? ? ?-?\>}jな侘彜のクラスタ に鬉任る。 ? ? 3.? 光クラスタから}方の旗燕泣をxぶ。 ? -?\? クラスタ坪でできる泙裨xれた泣をxkする ? ? 4.? 光旗燕泣を、匯協の護栽でクラスタ嶷伉の圭へ卞咾気擦襦 ? -?\? 20%が容Xされる ?
26.
7.4.2. CUREアルゴリズム 兜豚晒 1.
?メインメモリにdるサイズをサンプリング ? 2. ?A咼ラスタリング ? 3. ?旗燕泣をxぶ ? 4. ?それぞれクラスタ嶷伉に匯協護栽篠せる ? (恷も除い泣を隔つクラスタ揖平を禳呂垢觀酬┐) ?
27.
7.4.2. CUREアルゴリズム 兜豚晒 ??
それぞれのクラスタを禳呂垢襪どうか登協する駅勣がある。 ? 光クラスタの旗燕泣揖平の鉦xがある邦覆茲蠅睾,気韻譴 ? クラスタは禳呂気譴襪戮。 ?-?\> ?この、魯僖薀瓸`タとしてQ協される。 ?
28.
7.4.2. CUREアルゴリズム 頼阻 ??
ストレ`ジ貧の火りの泣について ? 恷も除くに旗燕泣を隔つクラスタに禳呂垢襦 ? 仟しい泣 ?-?\> ?坪箸劼離ラスタに蛍される。 ? new ?point ?
29.
まとめ ?? k-?\means ?algorithm
? C? ポイント護り輝て侏の旗燕議アルゴリズム ? C? 屎しいクラスタ方が隆岑の栽も嚠y辛嬬 ? ?? BFR ?algorithm ? C? 寄トデ`タでk-?\meansを佩う ? C? クラスタ侘彜についてしい協 ? C? iみzんだ秤鵑鰔sして隠隔 ? ?? CURE ?algorithm ? C? 寄トデ`タに ? C? }jな侘彜のクラスタに ? C? クラスタを嶷伉ではなく}方の旗燕泣で燕Fする ?
Download