狠狠撸

狠狠撸Share a Scribd company logo
1/27




         E-SOINN
オンライン教師なし分類のための追加学習手法



              東京工業大学
           小倉和貴, 申富饒, 長谷川修

電子情報通信学会論文誌, D Vol. J90-D, No.6, pp.1610-1622 (2007)
2/27

            研究背景
? 教師なし追加学習の重要性
  (実世界で活躍する知能の実現に向けて)

 – 教師なし学習
  ? 教師のない学習データから、
    データの背後に存在する本質的な構造を自律的に獲得すること
  ? 学習すべき対象全てに教師を与えることは困難

 – 追加学習
  ? 過去の学習結果を破壊あるいは忘却せず、
    新規の学習データに適応すること
  ? あらかじめ全てを学習しておくことは困難
    (環境の変化に応じて、未知の知識を追加的に学習)
3/27

  教師なし学習の代表的手法
? クラスタリング
 – バッチ処理による学習


? 競合型ニューラルネットワークによる学習
 – オンライン処理による学習
   →実世界での学習に向いている
4/27
   競合型ニューラルネットワークと
       追加学習能力
? 自己組織化マップ SOM (T.Kohonen, 1982)
? Neural Gas (T.M.Martinetz, 1993)
  – ネットワーク構造(ノード数など)を事前に決定
  – 問題点:表現能力に限界がある
? Growing Neural Gas :GNG(B.Fritzke, 1995)
  – ノードを定期的に挿入することで、追加学習に対応
  – 問題点:永続的な学習には適さない
? GNG-U (B.Fritzke, 1997)
  – ノードを削除することで、環境の変化に対応
  – 問題点:既存の学習結果を破壊
5/27
Self-Organizing Incremental Neural Network
 (SOINN) (F.Shen, Neural Networks, 2006)
? 既存の学習結果を破壊せずに、追加学習が可能
? 入力データのクラス数、位相構造を自律的に獲得
? ノイズ耐性を持つ




                 分布を近似



       入力データ                 学習結果
6/27

      SOINNにおける学習の流れ
入力データ
          ? 1層目に学習データを入力
           – ノードを増殖させながら入力の
             分布を近似
1層目        – 事前に決定された回数が入力
             されると、学習を停止
          ? 1層目の学習結果を2層目に
            入力
2層目        – 最終的な学習結果を取得
7/27

        SOINNの問題点
入力データ
         ? 2層構造による問題
          – 1層目への入力回数(2層目を
            開始するタイミング)を適切に
1層目         決定する必要がある
          – 2層目はオンライン学習に対応
            していない


2層目      ? なぜ2層必要なのか?
          – 1層だけではクラスの分離性能
            が低い
8/27

        本研究の目的
? SOINNに改良を加え
  – クラス分離性能を向上させる
  – 2層目が不要になり、SOINNの問題点を解決



入力データ     1層目       2層目
9/27

    クラス分離性能の向上
? 基本的な考え
 – ノードの密度を定義
 – サブクラスを定義
 – 辺の必要性を判定(不要な辺を削除)
10/27

          ノードの密度
? 勝者ノード(入力ベクトルに最も近いノード)になった際、
  以下のポイントを与える
                     :隣接ノードへの平均距離



? 「一定期間λに与えられるポイントの平均値」
  を密度として定義
 (ただし、ノード近傍に入力が与えられなかった期間は除く)

                     N:与えられたポイントが0以上の期間
                        :j番目の期間におけるk番目の
                        入力によって与えられたポイント
11/27

         サブクラスの決定
 ? ノードの密度が局所的に最大であるノード
   →異なるサブクラスのラベルを貼る
 ? それ以外のノード
   →密度が最大の隣接ノードと同じラベルを貼る
ノードの密度
12/27

           辺の必要性(1)
? ノイズがある場合、ノードの密度には
  細かい凹凸がある
  →特定の条件を満たす辺は残す必要がある
  ノードの密度
13/27

         辺の必要性(2)
? 以下の条件を満たす辺は残す
                             ノードの密度
                                      A
                             Amax
                       ×αA
ここで、αは以下の式で算出

                                          B
                             Bmax
                       ×αB    m
   :サブクラスAにおける密度の最大値
   :サブクラスAにおける密度の平均値
14/27

   分離性能向上による効果
? 2層目が不要に
 – 完全なオンライン学習が可能に
 – 「クラス内挿入」が不要に(もう1つの効果)
15/27

     クラス内挿入の削除
? クラス内挿入とは?
 – ノードを増殖させる処理の1つ
 – 2層目において、活用される


? クラス内挿入の削除による利点
 – 計算量の軽減
 – パラメータ数の削減
   従来手法(8つ)→提案手法(4つ)
16/27

    実験1:人工データその1
? 5クラス(ガウス分布×2、同心円×2、サインカーブ)
? 10%の一様ノイズ
? 従来手法は正しく学習できる(論文より)
                         追加学習における入力
                     1    2   3   4   5   6   7
                 A   ○        ○
                 B       ○        ○
                 C            ○           ○
                 D                ○   ○
                E1                    ○
                E2                        ○
                E3                            ○
17/27

  人工データその1 :実験結果
? 従来手法と同様の結果が得られた
 – 従来手法の利点を継承
   (ノイズ耐性、クラス数?位相構造の自律的獲得)




    通常の学習           追加学習
18/27

   実験2:人工データその2
? 3クラス(ガウス分布×3)
? 10%の一様ノイズ
? 実験1より高密度な重なりを持つ



                  追加学習における入力

                    1   2      3
              A     ○
              B         ○
              C                ○
19/27

  人工データその2:従来手法
    Input      First layer   Second layer
? 高密度の重なりを持つクラスを分離できない




    Input      First layer   Second layer




       通常の学習                 追加学習
20/27

        人工データその2:提案手法
? 従来手法を超える分離能力を実現
   –
Input   高密度の重なりを持つクラスを分離できる




          通常の学習          追加学習   デモ
21/27

    実験3:AT&T_FACE
? 10人の顔画像(各クラス10サンプル)


? 1/4に縮小し、平滑化した画像を使用
  (23×28=644次元)



? 従来手法では正しく分類できる(論文より)
22/27

   AT&T_FACE:実験結果
? 従来手法と同等の結果が得られた
 – 学習例(各クラスのプロトタイプベクトル)




                        認識率(%)
                 通常の学習       追加学習
    提案手法           90            86
  従来手法(論文より)       90            86
 ※得られたクラスのラベル(誰の顔か)は人が決定し、認識実験を行った
23/27

AT&T_FACE:出力クラス数の頻度
? 従来手法を超える安定性を実現
  – 提案手法は安定的に10クラス前後を出力
  400
  350                                                     提案手法  
                                                          (通常の学習)
  300
  250                                                     提案手法  
回                                                         (追加学習)
数 200
  150                                                     従来手法   
                                                          (通常の学習)
  100
   50                                                     従来手法
                                                          (追加学習)
    0
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
                        クラス数
24/27

      実験4:Optdigits
? 0~9までの手書き数字(10クラス)
? 8×8サイズ(64次元)
? データ数:3823(学習用)、1797(テスト用)



      学習データの例(各クラスの平均ベクトル)
25/27

      Optdigits:実験結果
? 従来手法より適切な分類を実現
 – 学習例(各クラスの平均ベクトル)
  ? 提案手法


  ? 従来手法


           最頻出の        認識率(%)
           クラス数    通常の学習     追加学習
 提案手法       12      94.3     95.8
 従来手法       10      92.2     90.4
 ※得られたクラスのラベル(どの数字か)は人が決定し、認識実験を行った
26/27

               まとめ
? SOINN(F.Shen, Neural Networks, 2006)を
  改良した新しい教師なし学習手法を提案
  – 従来手法(SOINN)の利点を継承
    ? ノイズ耐性
    ? クラス数、位相構造の自律的獲得
  – 分布に重なりを持つクラスの分離性能を向上
  – 完全なオンライン学習が可能に
  – 安定性の向上
  – パラメータ数の削減
27/27

       今後の課題
? 更なる安定性の向上
? 更なるパラメータ数の削減
? 学習結果の忘却

More Related Content

E-SOINN

  • 1. 1/27 E-SOINN オンライン教師なし分類のための追加学習手法 東京工業大学 小倉和貴, 申富饒, 長谷川修 電子情報通信学会論文誌, D Vol. J90-D, No.6, pp.1610-1622 (2007)
  • 2. 2/27 研究背景 ? 教師なし追加学習の重要性 (実世界で活躍する知能の実現に向けて) – 教師なし学習 ? 教師のない学習データから、 データの背後に存在する本質的な構造を自律的に獲得すること ? 学習すべき対象全てに教師を与えることは困難 – 追加学習 ? 過去の学習結果を破壊あるいは忘却せず、 新規の学習データに適応すること ? あらかじめ全てを学習しておくことは困難 (環境の変化に応じて、未知の知識を追加的に学習)
  • 3. 3/27 教師なし学習の代表的手法 ? クラスタリング – バッチ処理による学習 ? 競合型ニューラルネットワークによる学習 – オンライン処理による学習 →実世界での学習に向いている
  • 4. 4/27 競合型ニューラルネットワークと 追加学習能力 ? 自己組織化マップ SOM (T.Kohonen, 1982) ? Neural Gas (T.M.Martinetz, 1993) – ネットワーク構造(ノード数など)を事前に決定 – 問題点:表現能力に限界がある ? Growing Neural Gas :GNG(B.Fritzke, 1995) – ノードを定期的に挿入することで、追加学習に対応 – 問題点:永続的な学習には適さない ? GNG-U (B.Fritzke, 1997) – ノードを削除することで、環境の変化に対応 – 問題点:既存の学習結果を破壊
  • 5. 5/27 Self-Organizing Incremental Neural Network (SOINN) (F.Shen, Neural Networks, 2006) ? 既存の学習結果を破壊せずに、追加学習が可能 ? 入力データのクラス数、位相構造を自律的に獲得 ? ノイズ耐性を持つ 分布を近似 入力データ 学習結果
  • 6. 6/27 SOINNにおける学習の流れ 入力データ ? 1層目に学習データを入力 – ノードを増殖させながら入力の 分布を近似 1層目 – 事前に決定された回数が入力 されると、学習を停止 ? 1層目の学習結果を2層目に 入力 2層目 – 最終的な学習結果を取得
  • 7. 7/27 SOINNの問題点 入力データ ? 2層構造による問題 – 1層目への入力回数(2層目を 開始するタイミング)を適切に 1層目 決定する必要がある – 2層目はオンライン学習に対応 していない 2層目 ? なぜ2層必要なのか? – 1層だけではクラスの分離性能 が低い
  • 8. 8/27 本研究の目的 ? SOINNに改良を加え – クラス分離性能を向上させる – 2層目が不要になり、SOINNの問題点を解決 入力データ 1層目 2層目
  • 9. 9/27 クラス分離性能の向上 ? 基本的な考え – ノードの密度を定義 – サブクラスを定義 – 辺の必要性を判定(不要な辺を削除)
  • 10. 10/27 ノードの密度 ? 勝者ノード(入力ベクトルに最も近いノード)になった際、 以下のポイントを与える :隣接ノードへの平均距離 ? 「一定期間λに与えられるポイントの平均値」 を密度として定義 (ただし、ノード近傍に入力が与えられなかった期間は除く) N:与えられたポイントが0以上の期間 :j番目の期間におけるk番目の 入力によって与えられたポイント
  • 11. 11/27 サブクラスの決定 ? ノードの密度が局所的に最大であるノード →異なるサブクラスのラベルを貼る ? それ以外のノード →密度が最大の隣接ノードと同じラベルを貼る ノードの密度
  • 12. 12/27 辺の必要性(1) ? ノイズがある場合、ノードの密度には 細かい凹凸がある →特定の条件を満たす辺は残す必要がある ノードの密度
  • 13. 13/27 辺の必要性(2) ? 以下の条件を満たす辺は残す ノードの密度 A Amax ×αA ここで、αは以下の式で算出 B Bmax ×αB m :サブクラスAにおける密度の最大値 :サブクラスAにおける密度の平均値
  • 14. 14/27 分離性能向上による効果 ? 2層目が不要に – 完全なオンライン学習が可能に – 「クラス内挿入」が不要に(もう1つの効果)
  • 15. 15/27 クラス内挿入の削除 ? クラス内挿入とは? – ノードを増殖させる処理の1つ – 2層目において、活用される ? クラス内挿入の削除による利点 – 計算量の軽減 – パラメータ数の削減 従来手法(8つ)→提案手法(4つ)
  • 16. 16/27 実験1:人工データその1 ? 5クラス(ガウス分布×2、同心円×2、サインカーブ) ? 10%の一様ノイズ ? 従来手法は正しく学習できる(論文より) 追加学習における入力 1 2 3 4 5 6 7 A ○ ○ B ○ ○ C ○ ○ D ○ ○ E1 ○ E2 ○ E3 ○
  • 17. 17/27 人工データその1 :実験結果 ? 従来手法と同様の結果が得られた – 従来手法の利点を継承 (ノイズ耐性、クラス数?位相構造の自律的獲得) 通常の学習 追加学習
  • 18. 18/27 実験2:人工データその2 ? 3クラス(ガウス分布×3) ? 10%の一様ノイズ ? 実験1より高密度な重なりを持つ 追加学習における入力 1 2 3 A ○ B ○ C ○
  • 19. 19/27 人工データその2:従来手法 Input First layer Second layer ? 高密度の重なりを持つクラスを分離できない Input First layer Second layer 通常の学習 追加学習
  • 20. 20/27 人工データその2:提案手法 ? 従来手法を超える分離能力を実現 – Input 高密度の重なりを持つクラスを分離できる 通常の学習 追加学習 デモ
  • 21. 21/27 実験3:AT&T_FACE ? 10人の顔画像(各クラス10サンプル) ? 1/4に縮小し、平滑化した画像を使用 (23×28=644次元) ? 従来手法では正しく分類できる(論文より)
  • 22. 22/27 AT&T_FACE:実験結果 ? 従来手法と同等の結果が得られた – 学習例(各クラスのプロトタイプベクトル) 認識率(%) 通常の学習 追加学習 提案手法 90 86 従来手法(論文より) 90 86 ※得られたクラスのラベル(誰の顔か)は人が決定し、認識実験を行った
  • 23. 23/27 AT&T_FACE:出力クラス数の頻度 ? 従来手法を超える安定性を実現 – 提案手法は安定的に10クラス前後を出力 400 350 提案手法   (通常の学習) 300 250 提案手法   回 (追加学習) 数 200 150 従来手法    (通常の学習) 100 50 従来手法 (追加学習) 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 クラス数
  • 24. 24/27 実験4:Optdigits ? 0~9までの手書き数字(10クラス) ? 8×8サイズ(64次元) ? データ数:3823(学習用)、1797(テスト用) 学習データの例(各クラスの平均ベクトル)
  • 25. 25/27 Optdigits:実験結果 ? 従来手法より適切な分類を実現 – 学習例(各クラスの平均ベクトル) ? 提案手法 ? 従来手法 最頻出の 認識率(%) クラス数 通常の学習 追加学習 提案手法 12 94.3 95.8 従来手法 10 92.2 90.4 ※得られたクラスのラベル(どの数字か)は人が決定し、認識実験を行った
  • 26. 26/27 まとめ ? SOINN(F.Shen, Neural Networks, 2006)を 改良した新しい教師なし学習手法を提案 – 従来手法(SOINN)の利点を継承 ? ノイズ耐性 ? クラス数、位相構造の自律的獲得 – 分布に重なりを持つクラスの分離性能を向上 – 完全なオンライン学習が可能に – 安定性の向上 – パラメータ数の削減
  • 27. 27/27 今後の課題 ? 更なる安定性の向上 ? 更なるパラメータ数の削減 ? 学習結果の忘却