狠狠撸

論文紹介
Learning Important Features
Through Propagating Activation
Differences
東京大学工学系研究科
システム創成学専攻和泉研究室
D1 伊藤友貴

自己紹介
? 東京大学工学系研究科和泉研究室所属
– 金融に関するデータマイニング
– 人工市場によるシミュレーション
? 普段はロイターニュースとかヤフーファイナン
ス掲示板とか触って遊んでます
? 今日紹介する論文、ちょいちょい正確に理解
できていないです…お手柔らかにお願い致し
ます

概要
? 紹介する論文
– Learning Important Features Through Propagating
Activation Differences
(A. Shrikumar et. Al, ICML, 2017)
? 概要
– Neural Network から重要な要素は何かを抽出す
る方法のアプローチ(Deep Lift 法)を提案
– 既存手法より色々良さそう

既存手法
? Perturbation approach
? Back propagation approach
– Gradients
? (Springenberg et. al. 2014) など
– Gradients × Input
? (Shrikumar et. al. 2016) など

問題点1
? 勾配0になると問題が起こる
Fig. 1

問題点2 (ジャンプ)
? ジャンプする(不連続)
Fig. 2

Deep Lift
? 勾配の問題やジャンプの問題を解決する方
法を提案 (Deep Lift )
– 個人的にはどうしてこの発想になったのかわかっ
ていないので多分ちゃんと理解できていない

Deep Lift Philosophy
ある層の値:
出力:
reference activation:
difference-from-reference:
← 基準値みたいなもの（後で定義)
Contribution Scores:
? 各入力値 (xi) の出力値(t) への影
響度(後で定義)
? これをどう計算するかが肝
← 基準値からどれくらい外れるか

Multipliers and the Chain Rule
Multipliers を以下のように定義
CHAIN RULE でを計算 (式(3))

Defining the reference
i1
i2
入力:
出力:
Reference activation:
より以下のように Reference activation を計算

Separating positive and negative
? ポジティブ項とネガティブ項を別々に考える
Linear Rule, Rescale Rule, or Reveal cancel Rule
により計算(後で定義)

Contribution Scores の計算
? 線形な変換 → Linear Rule で計算
– 例: 結合層?たたみ込み層
? 非線形な変換
→ Rescale Rule or Reveal cancel Rule で計算
– 例: tanh, ReLU

The Linear Rule
? 線形な部分 (結合?畳み込み)では以下のよう
にContribution Scores を計算
に対して

The Linear Rule
このとき, 以下が成立

THE RESCALE RULE
? 非線形部分(ReLU, tanh など)では以下のよう
に Contribution Scores を計算
? このとき以下が成立

具体例: Rescale Rule
i1
0 = i2
0 = 0, i1 + i2 > 1 の場合 Rescale Rule だと

具体例: Rescale Rule2
x0 = y0 = 0, x = 10 + ε の場合 Rescale Rule だと
不自然なジャンプ
連続

具体例3
Fig. 3
これについて i1 > i2 , i1
0 = i2
0 = 0 という条件で
とを計算
Rescale Rule を使う場合:
Reveal Cancel Rule
を使う場合:

その他の工夫
? 最終層の活性化後の値に対する入力値の
Contribution Score ではなく活性化前の
Contribution Score を計算
? 最終層が Softmax のときは全体の平均を引
いたスコアで考える

数値実験1
? MNIST
– Ex. 数字を8 から 3 に変える
（一部消す）
– Contribution Score の変化
値が消した部分に対応
するかどうか検証
– (ちゃんと把握できてません)

数値実験2
? DNA 配列の分類に関する実験
? 意図通りに Contribution Score がつくかどう
かを検証
? (すいません、ちゃんと把握できてません。)

比較手法
? 既存手法
– Guided backprop * inp ()
– Gradient * input
– Integrated gradient -5
– Integrated gradient -10
? 提案手法 (Deep LIFT)
– Deep LIFT Rescale
– Deep LIFT Reveal Cancel
– Deep LIFT fc-RC-conv-RS

結果(MNIST)
Deep Lift の方がよい

結果 (DNA)
? Deep Lift の方がよい結果
? Reveal Cancel 入れた方がよい結果

結論
? Deep Liｆｔという重要な要素は何かを抽出する方法
のフレームワーク(Deep Lift 法)を提案
? 既存手法 (gradient や gradient * input で起こるよう
な不自然なジャンプや勾配が0のときに起こる問題
を解決)
? RNNへの適用方法, Maxout, MaxPooling へのベスト
な適用方法などが課題

狠狠撸

20170618論文読み会伊藤

Recommended

More Related Content

What's hot (20)

Similar to 20170618論文読み会伊藤 (20)

20170618論文読み会伊藤

狠狠撸

20170618論文読み会 伊藤

Recommended

More Related Content

What's hot (20)

Similar to 20170618論文読み会 伊藤 (20)

20170618論文読み会 伊藤

20170618論文読み会伊藤

Similar to 20170618論文読み会伊藤 (20)

20170618論文読み会伊藤