狠狠撸
Search
Submit Search
Deep Fried Convnets
?
9 likes
?
2,919 views
Fujimoto Keisuke
もう少し整理したら再アップロードします
Read less
Read more
1 of 22
Download now
Downloaded 18 times
More Related Content
Deep Fried Convnets
1.
2016/02/06 CV勉強会@関東 ICCV2015読み会 発表資料 2016/02/06 @peisuke
2.
自己紹介 名前:藤本 敬介 研究:ロボティクス、コンピュータビジョン 点群:形状統合、メッシュ化、認識 画像:画像認識、SfM?MVS ロボット:自律移動、動作計画
3.
本発表の概要 ? 発表論文 ? Deep
Fried Convnets ? 本論文に至るまでの経緯 ? 2008年 Random Kitchen SinkがNIPSで発表される ? 2013年 Random Kitchen SinkをベースにFast Food TransformがGoogleから発表される(※猫画像のあの人) ? 2015年 Fast Food Transformを用いたDeep Fried Convnetsが発表される ? どんな論文? ? ニューラルネットワークの全結合層のパラメータ削減?高速化
4.
Deep Fried Convnets Z.
Yang, M. Moczulski, M. Denil N. Freitas, A. Smola, L. Song, Z. Wang 画像出典:http://makopi.sakura.ne.jp/images/1004/10040303.jpg
5.
Convolutional Neural Network ?
高性能な画像認識を実現 ? 畳み込み層、プーリング層、全結合層から構成 畳み込み層:画像から様々な特徴を抽出 プーリング層: 特徴を消さないように サイズを縮小 全結合層:残った特徴と 認識対象を紐づけ ? = ? ? ? ? + ? ? = ? ? ? ? + ?
6.
Convolutional Neural Networkの課題 ?
全結合層におけるパラメータ数?計算負荷が大きい ? 全パラメータの99.9%以上を占める ※Caffe reference modelの場合 パラメータ数: 58,621,952個!! パラメータ数: 27,232個 ? = ? ? ? ? + ? ? = ? ? ? ? + ? 局所特徴量の サイズに依存 特徴量の次元数に依存
7.
Deep Fried Convnets ?
Fastfood TransformをNN用に改良し、全結 合層の行列計算を少数のパラメータで近似 パラメータ数: 計算量: O(nd) O(n) O(nd) O(nlogd) ? = ? ? ? ? + ? これ ※xがd次元、yがn次元
8.
?? ? Fastfood Transform ? SVM等のカーネル法を高速近似手法 ?
Random Kitchen Sinkを高速化する手法として 提案された 参考???Random Kitchen Sinkとは ? カーネルと等価な特徴ベクトルをサンプリングで算出 ? データ数に依存しない計算量での予測が可能 ? = ? ?? ? ?, ?? カーネル関数kを用いた予測 データ数に依存 ? ?, ?′ = ? ? exp ?? ? ? ? ?′ ?? Bochnerの定理 ※ガウシアンカーネルであればwはガウス分布
9.
= ? ?
cos ? ? ? ? ?′ ?? Random Kitchen Sink (cond.) カーネルは実数として = ? ? cos ? ? ? cos ? ? ?′ + sin ? ? ? sin ? ? ?′ ?? ≈ 1 ? cos ?? ? ? cos ?? ? ?′ + sin ?? ? ? sin ?? ? ?′ = φ ? φ ?′ , φ ? = 1 ? cos ?T ? sin ?T ? ? サンプル数?に依存するφ ? を基底として計算 ? = ? ??φ? ? 積分をサンプリングによって近似すると
10.
Fastfood Transform ? SVM等のカーネル法を高速化するための近似手法 ?
Random Kitchen Sinkを高速化 ?? ? Random Kitchen Sink φ ? = 1 ? cos ?T ? sin ?T ? ? 特徴ベクトル: O(Ld) ? ≈ ???Π?? ? RKSの行列Wを下記計算で近似 ? 各行列は対角行列や置換行列など、計算が容易 ? パラメータ数:O(Ld)→O(L) ? 計算量:O(Ld)→O(Llogd) ※Wは各要素をガウス分布で サンプリングしたランダム行列
11.
Fastfood Transform (cond.) ?
RKSの行列を下記計算で近似 ? ≈ ???Π?? S:スケール調整用の対角行列 G:ガウス分布から値を生成した対角行列 B:{±1}からランダムに値を生成した対角行列 Π:ランダムに生成された置換行列 H:アダマール変換
12.
参考:アダマール変換 元画像 既定行列 スペクトル画像 高い周波数をカット カットする周波数無し ? フーリエ変換の一つ、周波数領域に変換 ?
バタフライ演算により高速に计算可能
13.
Fastfood Transform (cond.) ?
詳しい証明は省略するが、下記条件を満たすこと からWの要素はガウス分布となる ? ≈ ???Π?? ? なぜ行列Wを近似できるのか? 1. ??Π??の各行は同じスケール 2. ??Π??の各行内の各要素は独立のガウス分布 3. ???Π??の各行はガウシアンである
14.
CNNへのFastfood Transformの適用 ? Fastfood
Transformのパラメータを誤差逆伝播で算出 ? 調性するパラメータはS,B,G ? = ? ? ? ? + ? ? ≈ ???Π?? CNNの全結合層の計算 パラメータの計算
15.
Deep Learningへの適用 ? 全結合層をAdaptive
Fastfood Transformで置き換え ? 最後の畳み込み層と全結合層間の変換を置き換え ? 全結合層が複数ある場合は、それらの間も置き換え ? 最終層については従来通り
16.
Random Projectionとの関係 ? Random
Projection???ランダム行列による次元削減 ? ランダムな行列を掛けるだけで、高次元データをデータ間 の距離関係を保ったまま低次元化できる 参考:さかな前線「魚でもわかるRandom Projection」、 http://daily.belltail.jp/?p=737 ? RPと比べて必要な記憶容量?計算量も低い ? 学習可能な次元削除法であり精度が高い
17.
カーネル法との関係 ? 特徴ベクトルの内積とカーネルは双対関係 RBF Networkにおけるカーネル版NNと特徴版NNの関係性 同様にReLUはarc-cosineカーネルと双対関係 ?
= ?? ? ?, ???0 ?0 ?1 ?2 ?1 ?2 ?0 ?1 ?2 ? cos, sin ? = ?? ? ?? ? Fastfood TransformのNNへの適用はカーネル ベースのNNの近似と見なせる
18.
実験 ?MINIST ? 全結合層1024層?2048層のFastfood, Adaptive Fastfoodと、Reference
Modelを比較 Model Error Params Fastfood 1024 0.71% 38,821 Adaptive Fastfood 1024 0.72% 38,821 Fastfood 2048 0.71% 52,124 Adaptive Fastfood 2048 0.73% 52,124 Reference Model 0.87% 430,500 Fastfoodが性能が一番良かった???
19.
実験 ?ImageNet ? 畳み込み層のパラメータを固定、全結合層のみ 学習しての比較 Model Top-1
Error Params Fastfood 16,384 50.09% 16.4M Adaptive Fastfood 16,384 45.30% 16.4M Fastfood 32,768 50.53% 32.8M Adaptive Fastfood 32,768 43.77% 32.8M MLP 47.76% 58.6M Adaptive Fastfoodが性能が一番良い! ※MLP:ReferenceモデルのMLPを再学習
20.
実験 ?ImageNet ? 畳み込み層も含めて全パラメータを学習 Model Top-1
Error Params Fastfood 16,384 46.88% 16.4M Adaptive Fastfood 16,384 42.90% 16.4M Fastfood 32,768 46.63% 32.8M Adaptive Fastfood 32,768 41.93% 32.8M Reference Model 42.59% 58.7M
21.
実験 ?SVDによる次元削除法との比較 ? 学習済みReference ModelについてSVDでパラメータ数を 削減したもの、削減後に追加学習したものと比較 Model
Top-1 Error Params SVD-half 43.61% 46.6M SVD-half-Fine tune 42.73% 46.6M Adaptive Fastfood 32,768 41.93% 32.8M SVD-quarter 46.12% 23.4M SVD-quarter-Fine tune 43.81% 23.4M Adaptive Fastfood 16,384 42.90% 16.4M Half:9216-2048-4096-2048-4096-500-1000 Quarter:Half:9216-1024-4096-1024-4096-250-1000 ※パラメータ数
22.
まとめ ? 畳み込みニューラルネットの全結合層のパラメータ 削減手法を提案 ? 行列計算をFastfood
Transformでの置き換え ? 学習可能としたAdaptive Fastfood Transform ? パラメータ数を削減しつつ精度は向上 ? 速度に関する実験は無し ? なぜFastfood?Friedであるかは不明
Download