狠狠撸
Submit Search
第3回集合知プログラミング勉強会 #TokyoCI グループを見つけ出す 後半
?
Download as KEY, PDF
?
3 likes
?
1,831 views
Naoyuki Sato
Follow
集合知プログラミング勉強会 #3 2012.10.30
Read less
Read more
1 of 26
Download now
More Related Content
第3回集合知プログラミング勉強会 #TokyoCI グループを見つけ出す 後半
1.
グループを発见する
集合知プログラミング勉強会 #TokyoCI 2012.10.30 @satou30 https://gist.github.com/3974378
2.
前半 ? 教師あり学習 VS
教師なし学習 ? 単語ベクトル ? 阶层的クラスタリング ? デンドログラムを描く ? 列のクラスタリング
3.
後半 ? K 平均法 ?
Tanimoto 係数 ? 多次元尺度构成法
4.
K 平均法
5.
K 平均法 1. ランダムに
K 個の重心を配置する 2. 全てのアイテムを、最も近い重心に割り当てる 3. 各クラスタの重心を再計算する 4. 割り当てに変更が生じなくなるまで、繰り返す
6.
A
B 重心をランダムに決める C E D
7.
A
B 最も近い重心に割り当てる C E D
8.
A
B 重心を移動する C E D
9.
A
B 再度割り当てを行う C E D
10.
A
B 結果が安定するまで続ける C E D
11.
阶层的クラスタリング
K平均法 ? クラスタ数不明 ? クラスタ数を、予め決 めることができる ? データが巨大な場合、 時間がかかる ? 阶层的クラスタリング と比べて、高速 ? 重心の選び方で結果が 変わる
14.
Tanimoto 係数
15.
Tanimoto 係数 2 つの集合の類似度を測る指標
A B C :集合Xの要素数
16.
Tanimoto 係数 ?
サンプルとして、嗜好のクラスタリングをす る ? ほしいものリストを作成できる Zebo(www.zebo.com) からデータを取得 ? Beautiful Soup を使って、Webサイトをスクレ イピング
17.
ITEM
U1 U2 U3 ... U1749 mansion 1 0 1 ... 1 bike 1 1 1 ... 1 car 0 0 1 ... 0 clothes 1 1 0 ... 0 ... ... ... ... ... ... kids 1 0 1 ... 1
18.
つながらない
19.
仕方ないので
20.
多次元尺度构成法
21.
多次元尺度构成法 ? データを2次元のセットで表現する ? アイテムの全ての組の差を用いて、アイ
テム間の距離がこの差の大きさを表す ようなチャートを描く
22.
4次元のデータを考える A
0.5 0.0 0.3 0.1 B 0.4 0.15 0.2 0.1 C 0.2 0.4 0.7 0.8 D 1.0 0.3 0.6 0.0
23.
アイテム间の距离を计算
A B C D A 0.0 0.2 0.9 0.8 B 0.2 0.0 0.9 0.7 C 0.9 0.9 0.0 1.1 D 0.8 0.7 1.1 0.0
24.
2次元上にランダムに配置
0.4 C A 0.7 0.6 0.6 0.5 B D 0.4
25.
目标との误差を缩める
C 目標 A A B C D A 0.0 0.2 0.9 0.8 B 0.2 0.0 0.9 0.7 C 0.9 0.9 0.0 1.1 D 0.8 0.7 1.1 0.0 B D
26.
まとめ ?
クラスタリング手法 ? 阶层的クラスタリング ? 非阶层的クラスタリング ? K平均法 ? 類似性の尺度 ? Pearsonの相関係数(2章 でも登場) ? Tanimoto係数 ? 可視化 ? デンドログラム ? 多次元尺度法
Editor's Notes
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
Download