狠狠撸

ECCV 2018 読み会
Women Also Snowboard:
Overcoming Bias in Captioning Models
牛久祥孝
losnuevetoros

お前は誰だ？
～2014.3 博士(情報理工学)、東京大学
? 画像説明文の自動生成
? 大規模画像分類
2014.4～ NTT コミュニケーション科学基礎研究所

お前は誰だ？
2014.4～ NTT コミュニケーション科学基礎研究所
という自己紹介スライドで
今年度も続けるつもりでした

お前は誰だ？
2014.4～2016.3 NTT コミュニケーション科学基礎研究
所

お前は誰だ？
2014.4～2016.3 NTT コミュニケーション科学基礎研究所
2016.4～東京大学大学院情報理工学系研究科
知能機械情報学専攻講師 (原田?牛久研究室)

お前は誰だ？
2014.4～2016.3 NTT コミュニケーション科学基礎研究所
2016.4～東京大学大学院情報理工学系研究科
知能機械情報学専攻講師 (原田?牛久研究室)
という自己紹介スライドを使ったのが
2016年4月の関東CV勉強会でした

自己紹介
2014.3 博士(情報理工学)、東京大学
2014.4～2016.3 NTT CS研研究員
2016.4～東京大学講師 (原田?牛久研究室)
2016.9～産業技術総合研究所協力研究員
2016.12～国立国語研究所共同研究員
2018.4～オムロンサイニックエックス株式会社
技術アドバイザ
[Ushiku+, ACMMM 2012]
[Ushiku+, ICCV 2015]
画像キャプション生成主観的な感性表現を持つ
画像キャプション生成
動画の特定区間と
キャプションの相互検索
[Yamaguchi+, ICCV 2017]
A guy is skiing with no shirt on
and yellow snow pants.
A zebra standing in a field with
a tree in the dirty background.
[Shin+, BMVC 2016]
A yellow train on the tracks near
a train station.

自己紹介
2014.4～2016.3 NTT CS研研究員
2016.4～2018.9 東京大学講師 (原田?牛久研究室)
2016.12～国立国語研究所共同研究員
[Shin+, BMVC 2016]
a train station.

自己紹介
2014.4～2016.3 NTT CS研研究員
2016.12～2018.9 国立国語研究所共同研究員
[Shin+, BMVC 2016]
a train station.

自己紹介
2014.4～2016.3 NTT CS研研究員
2018.4～2018.9 オムロンサイニックエックス株式会社
[Shin+, BMVC 2016]
a train station.

自己紹介
2014.4～2016.3 NTT CS研研究員
プリンシパルインベスティゲーター
[Shin+, BMVC 2016]
a train station.

自己紹介
2014.4～2016.3 NTT CS研研究員
プリンシパルインベスティゲーター
[Shin+, BMVC 2016]
a train station.
関東CV勉強会のおかげで転職できました！

宣伝
OMRON SINIC X では Researcher+Engineer を募集中です!!
Jiaxin Ma
栗原聡
(慶應大)
橋本敦史
Felix von Drigalski
片岡裕雄
(産総研)
米谷竜
(東大)
諏訪正樹
小西光春
井尻善久
牛久祥孝
松原崇充
(NAIST)

宣伝
Jiaxin Ma
栗原聡
(慶應大)
橋本敦史
Felix von Drigalski
片岡裕雄
(産総研)
米谷竜
(東大)
諏訪正樹
小西光春
井尻善久
牛久祥孝
松原崇充
(NAIST)
（実際にある声）女性がいない！

大事なのは…
? 性自認と採用や活躍の機会が独立であること
? 採用性自認, 他の情報 = ? 採用他の情報
? 最近のニュース：AmazonのAI採用中止
– 2014: 履歴書審査AI開発開始
– 2015: 欠陥の発見
逆に履歴書に「女性」に関係する単語、
例えば「女性チェス部の部長」といった
経歴が記されていると評価が下がる傾向
が出てきた。関係者によると、ある２つ
の女子大の卒業生もそれだけで評価を落
とされた。 [ロイター, 2018年10月14日より引用]
– 2017: 開発チーム解散
– 2018: 報道される
[http://static.blogos.com/media/img/105619/free_m.jpg]

原因：データセットのバイアス
? このスノーボーダーは男性？女性？
望ましい判断は：
「この写真からは男性か女性かは分からない」
機械学習にありがちなのは：
「データセットに男性が多いから男性だろう」
? Amazonの履歴書採点システムも…
男性の履歴書を多く学習した為に女性に不利な挙動だった

本日読む論文
画像キャプション生成が題材
? outward gender appearance として正しい男女の記述
? 適切な画像領域から男女の記述
判断に用いた画像領域の可視化（GradCAM）

背景
? コンテキストの利用は
通常だと識別に有効だが…

背景
? コンテキストの利用は
通常だと識別に有効だが…
? データセットの偏りが不公平さを生むこともある
– 台所にいるから女性、スノーボードがあるから男性、等
– Bias amplification:
訓練データに偏りがあると、テストデータでの推測で
偏りが助長される
例えば：訓練データには
傘+女性が70%、傘＋男性が30%
テストデータに傘があると
85%を女性だと識別する

目的
コンテキストに依存するべきではない単語を、
コンテキストに依存しない形で推定できる学習法
↑推定が合っていてもコンテキストを見ていたら×

関連研究：Fairness
? Fairness を担保した機械学習
– Protected attributes: 年齢や性自認、性的指向など
– Fairness を担保した機械学習:
Protected attributes を入力に含むときに
? 特定の attribute で不利益にならないように学習する手法
cf. 先程の Amazon の履歴書採点システム (反面教師)
? 今回の論文は Protected attribute が入力ではなく出力
? 主な取り組み
– GANと同様、attribute を推定させる敵対的学習と併せて
attribute を推定できない特徴量を獲得 [Zhang+, 2018]
– ドメイン適応と同様、attributes 間で分布を一致させる
[Quadrianto+, NIPS 2017]
– 運用中に受けとったデータで、attribute 間の識別結果の
割合を合わせるよう閾値を調整 [Hardt+, NIPS 2016]

関連研究：データセットバイアス
? 一番関連している研究 [Zhao+, EMNLP 2017]
– タイトルが Men Also Like Shopping: Reducing Gender
Bias Amplification using Corpus-level Constraints
論文タイトルめっちゃ意識している…
– マルチラベル推定問題で、訓練データセット中の
woman / man の割合に応じてテストデータセットでも
woman / man の事後確率をブースト
今回読んだ論文が指摘する欠点
? テストデータを1つずつ受け取った時には
使えない
? 学習時と運用時で woman / man の割合
が同じとは限らない

Equalizerを利用したバイアスの解決
Equalizer = 以下の2つの損失
? Appearance Confusion Loss
– 性別に関わる単語を推定した
時に発生
– 人物部分を消去した画像から
性別を特定してしまうと損失大
? Confident Loss
– 性別に関わる単語を推定した
時に発生
– 元画像で両方の性別とも
事後確率が高いと損失大

ベース：Google NIC [Vinyals+, CVPR 2015]
Googleで開発された
? GoogLeNet [Szegedy+, CVPR 2015]
? LSTMによる翻訳 [Sutskever+, NIPS 2014]
を直列させてキャプションを生成
画像特徴
各文の全単語で和をとる
全文で和をとる
直前までの
正解単語列
?番目の単語を正しく
推定できる確率
Caption Correctness Loss :
キャプション生成でよくある損失

? 人物を消去した画像から性別を特定すると損失大
? 入力画像から人の部分を消した画像の特徴
– 今回の学習データセット: MSCOCOをベースにしたもの
– MSCOCOは… 人手で付与したキャプション
人手で付与したセグメンテーション
両方を持っている
→人を消した画像を作成できる
Appearance Confusion Loss (ACL)LAC

各文の全単語で和をとる
全文で和をとる
?番目の単語が女性か男性を表す語彙だったら1
それ以外は0
性別に依存する語彙を使った
ときのを足し上げたもの

女性を表す語彙を
用いる確率
男性を表す語彙を
用いる確率
（人が見えてないのに生じた）
性別の表現の事後確率の差

どちらの性別の表現も事後確率が高いと損失大
女性の表現を用いた
時のをを合算
Confident Loss (Conf)Lcon

Confident Loss (Conf)Lcon
（女性の表現を用いた時に）
男性の表現より何倍確率が高いか
何倍かという比率が高いほど損失小
ゼロ除算の予防

実験設定：データセット
? MSCOCO-Bias
– [Zhao+, EMNLP 2017] と同じプロトコルで作成
– MSCOCOには画像につき5本のキャプションがある
? manという単語があれば manクラス
? womanという単語があればwomanクラス
? manもwomanもあれば除外
– データ数の比は man:woman = 1:3
? MSCOCO-Balanced
– MSCOCO-Biasのテストサンプルをman:woman = 1:1 に
したもの
– 訓練サンプルは man:woman = 1:3 程度
cf. [Zhao+, EMNLP 2017]の仮定：
学習時も運用時も割合は同じ

実験設定：比較手法
? 共通事項
– まず100万イテレーションMSCOCO全体でpretrain
– 次に50万イテレーションMSCOCO-Biasでtrain
– 更に50万イテレーションCNN部分もfine-tuning
? Baseline-FT
全200万イテレーションで Caption Correctness Loss
だけを最適化
? Balanced
訓練時もman:woman=1:1になるよう、womanの画像を3倍
サンプリング
? UpWeight
通常の Caption Correctness Loss で性別を表す単語のとき
だけ損失を10倍（→必ずmanかwomanと言うようになる）

実験結果：エラー評価と性別比
? Error
正解のキャプションと異なる性別の表現をした割合
? Ratio
女性の表現を用いたキャプション数の
男性の表現を用いたキャプション数に対する比
? Ratio Δ
Ground truth とシステム出力とでの Ratio の差

? Error
? Ratio
? Ratio Δ
? Error は提案手法が一番低い
? 特に学習時と運用時で割合が変わると
どちらのLossも必要

? Error
? Ratio
? Ratio Δ
? 提案手法が Ratio Δ も最小
→ 学習時のBiasが運用時に強調される
Bias amplification が解消された

実験結果：各性別での性能
? Other
person など性別を明らかにしない表現が使われた割合
? Outcome Divergence between Genders
womenの Correct/Incorrect/Other の確率分布と
menの Correct/Incorrect/Other の確率分布の距離

? Other
? UpWeightがMenのCorrectでは最良
? 一方でWomenのIncorrectでは最悪
? 提案手法はIncorrectでは最良

? Other
? Divergenceは提案手法が最小
? 男女に依らず同じような出力であり
もっともfairであるという主張

実験結果：正解キャプションのConfidence
? MSCOCOには画像あたり5文ずつキャプションが
あるので、性別のconfidenceに差があるかも
– 1文にしかwomanと書かれていない画像
vs.
– 5文全てにwomanと書かれている画像
? Confidenceと性別の表現の正解率の関係を考察

vs.
? Confidenceが小さい画像だと
提案手法はむしろ一番正解率が悪い
（多くの画像でpersonと言いがち）

vs.
? 過半数のキャプションで性別の
表現がある画像では、
提案手法が最も良い正解率

実験結果：物体が性別推定に与える影響
MSCOCO-Biasでの検証
? motorcycleが写った全画像で
manがいる割合は…
– 正解キャプションだと 0.4
– Baseline-FT だと 0.81
– 提案手法だと 0.65
? umbrellaが写った全画像で
womanがいる割合は…
– 正解キャプションだと 0.4
– Baseline-FT だと 0.64
– 提案手法だと 0.56

実験結果：物体が性別推定に与える影響
? 提案手法の方が実際の正解に近い割合で男女の表
現を分けている！
? 種々の物体で正解キャプションの woman / man
の割合との差を平均すると…
– 正解キャプションとBaseline-FTとの差：
woman 0.99 man 0.193
– 正解キャプションと提案手法との差：
woman 0.096 man 0.147 ← より正しい割合

実験结果：理由の正当性
? 性別の表現を推定する際に参照した部分を可視化
– GradCAM [Selvaraju+, ICCV 2017]
– Saliency [Ramanishka+, ICCV 2017]
? 一番重視した座標が人のセグメント内
→正解としてカウント

提案手法が定性的にも定量的にも一番正しく人物の
領域を参照している
? アテンションではないので注意
? 下の画像でも提案手法のみが人を正しく参照し、
見た目では性別の判断をしないで person と出力

まとめ
? バイアスに起因して、対象物体に依らない推定をする
現象を解決する手法
– 例：画像キャプション生成における性別の表現を人以外の部
分から推定している現象
– Equalizer (Appearance Confusion Loss + Confident Loss)
を提案、実験的にfairnessの向上を確認
? 全てのカテゴリで推定精度が上がる話ではない
– キャプション自体の精度 (METEOR) も微減との報告
– 推定のふるまいを特定のクラス間でfairにするのが目的
? 今回の性別は outward gender appearance
– 生物学的な性別や性自認ではない点に注意
– 宗教や出身などにも適用可能という主張
? 感想：多くの実験と考察があってすごい
– 紙幅の半分以上が実験報告
– 人物のセグメントのアノテーションデータが無い場合の精度
が気になる

宣伝
Jiaxin Ma
栗原聡
(慶應大)
橋本敦史
Felix von Drigalski
片岡裕雄
(産総研)
米谷竜
(東大)
諏訪正樹
小西光春
井尻善久
牛久祥孝
松原崇充
(NAIST)
Genderに依らず
コラボレーション頂ける企業/研究室も募集中です！

狠狠撸

Women Also Snowboard: Overcoming Bias in Captioning Models（関東CV勉強会 ECCV 2018 読み会）

More Related Content

Women Also Snowboard: Overcoming Bias in Captioning Models（関東CV勉強会 ECCV 2018 読み会）