狠狠撸

狠狠撸Share a Scribd company logo
グループを発见する
     集合知プログラミング勉強会
                #TokyoCI 2012.10.30
                           @satou30
     https://gist.github.com/3974378
前半
? 教師あり学習 VS 教師なし学習
? 単語ベクトル
? 阶层的クラスタリング
? デンドログラムを描く
? 列のクラスタリング
後半

? K 平均法
? Tanimoto 係数
? 多次元尺度构成法
K 平均法
K 平均法
1. ランダムに K 個の重心を配置する


2. 全てのアイテムを、最も近い重心に割り当てる


3. 各クラスタの重心を再計算する


4. 割り当てに変更が生じなくなるまで、繰り返す
A


            B



                重心をランダムに決める

    C




                    E

        D
A


            B



                最も近い重心に割り当てる

    C




                     E

        D
A


            B




                重心を移動する
    C




                  E

        D
A


            B




                再度割り当てを行う
    C




                   E

        D
A


            B




                結果が安定するまで続ける
    C




                    E

        D
阶层的クラスタリング                 K平均法


?   クラスタ数不明      ?   クラスタ数を、予め決
                     めることができる
?   データが巨大な場合、
    時間がかかる       ?   阶层的クラスタリング
                     と比べて、高速


                 ?   重心の選び方で結果が
                     変わる
第3回集合知プログラミング勉強会 #TokyoCI グループを見つけ出す 後半
第3回集合知プログラミング勉強会 #TokyoCI グループを見つけ出す 後半
Tanimoto 係数
Tanimoto 係数
2 つの集合の類似度を測る指標

  A       B
      C




           :集合Xの要素数
Tanimoto 係数
?   サンプルとして、嗜好のクラスタリングをす
    る

?   ほしいものリストを作成できる
    Zebo(www.zebo.com) からデータを取得

?   Beautiful Soup を使って、Webサイトをスクレ
    イピング
ITEM     U1    U2    U3    ...   U1749
mansion   1     0     1     ...     1
 bike     1     1     1     ...     1
  car     0     0     1     ...     0
clothes   1     1     0     ...     0
  ...     ...   ...   ...   ...    ...
 kids     1     0     1     ...     1
つながらない
仕方ないので
多次元尺度构成法
多次元尺度构成法

? データを2次元のセットで表現する
? アイテムの全ての組の差を用いて、アイ
 テム間の距離がこの差の大きさを表す
 ようなチャートを描く
4次元のデータを考える
A   0.5   0.0    0.3   0.1

B   0.4   0.15   0.2   0.1

C   0.2   0.4    0.7   0.8

D   1.0   0.3    0.6   0.0
アイテム间の距离を计算

    A     B     C     D

A   0.0   0.2   0.9   0.8

B   0.2   0.0   0.9   0.7

C   0.9   0.9   0.0   1.1

D   0.8   0.7   1.1   0.0
2次元上にランダムに配置

                0.4                C

        A

                      0.7
                                       0.6
                             0.6
  0.5

            B                          D
                       0.4
目标との误差を缩める
                                    C

          目標                A

    A     B     C     D

A   0.0   0.2   0.9   0.8

B   0.2   0.0   0.9   0.7

C   0.9   0.9   0.0   1.1

D   0.8   0.7   1.1   0.0
                                B       D
まとめ
?   クラスタリング手法

    ?   阶层的クラスタリング

    ?   非阶层的クラスタリング

        ?   K平均法

?   類似性の尺度

    ?   Pearsonの相関係数(2章 でも登場)

    ?   Tanimoto係数

?   可視化

    ?   デンドログラム

    ?   多次元尺度法

More Related Content

第3回集合知プログラミング勉強会 #TokyoCI グループを見つけ出す 後半

Editor's Notes

  1. \n
  2. \n
  3. \n
  4. \n
  5. \n
  6. \n
  7. \n
  8. \n
  9. \n
  10. \n
  11. \n
  12. \n
  13. \n
  14. \n
  15. \n
  16. \n
  17. \n
  18. \n
  19. \n
  20. \n
  21. \n
  22. \n
  23. \n
  24. \n
  25. \n
  26. \n