狠狠撸

狠狠撸Share a Scribd company logo
Informa(on-?‐Theore(c	
 ?Metric	
 ?Learning	
 ?
Jason	
 ?V.	
 ?Davis,	
 ?Brian	
 ?Kulis,	
 ?	
 ?
Prateek	
 ?Jain,	
 ?Suvrit	
 ?Sra,	
 ?Inderjit	
 ?S.	
 ?Dhillon	
 ?
(ICML	
 ?2007	
 ?best	
 ?paper)	
suzukake weekend	
 ?reading	
 ?group	
 ?#2	
 ?
2013/04/20	
 ?	
 ?	
 ?紹介者	
 ?:	
 ?matsuda	
1	
13/04/20	
 ?17:42版
Metric	
 ?Learningとは何か	
[1	
 ?	
 ?0	
 ?
	
 ?0	
 ?	
 ?1]	
[2	
 ?	
 ?0	
 ?
	
 ?0	
 ?	
 ?1]	
①同クラスの事例間は近いほうが良い	
 ?
②異クラスの事例間は遠いほうが良い	
①	
②	
ユークリッド距離	
分類しやすい(???)	
距離空間を歪める	
マハラノビス距離	
2
別の例(Large	
 ?Margin	
 ?Nearest	
 ?Neighbor)	
hYp://www.cse.wustl.edu/~kilian/code/page21/page21.html?より	
3
問題設定	
?? マハラノビス距離を学習する	
 ?
–? 特徴量同士の距離を表す行列を学習する	
 ?
–? カーネルでない事に注意(ただ,相互に関係はある(実は等価???))	
 ?
?? カーネル	
 ?:	
 ?「データ間」の距離	
 ?
?? マハラノビス	
 ?:	
 ?「特徴量間」の距離	
 ?
?? 何のために?	
 ?
–? 機械学習の前処理として組み込む	
 ?
?? 典型的な例	
 ?:	
 ?k-?‐NN	
 ?
–? semi-?‐supervised	
 ?clustering	
 ?
–? 特徴選択の一般化とも言えそう	
 ?
?? 重み付け +	
 ?特徴量空間での回転	
4	
Prasanta	
 ?Chandra	
 ?Mahalanobis	
 ?
1893 1972
本論文のContribu(on	
?? Metric	
 ?Learning	
 ?を	
 ?LogDet	
 ?Divergence	
 ?の最適化
問題として定式化	
 ?
–? Bregman	
 ?Projec(onという手法に基づく効率的なアル
ゴリズムを導出	
 ?
–? 高速 (	
 ?O(d2)	
 ?d:次元数	
 ?),おおむね高精度	
 ?
?? カーネル学習との接続	
 ?
–? 実際には等価な問題であることを示す	
 ?
?? 拡張	
 ?(時間の都合上,ちょっと触れるだけ)	
 ?
–? カーネル化	
 ?
–? オンライン化	
 ?
?? Regret	
 ?Boundも示している	
5
マハラノビス距離とは	
x	
 ?	
 ?:	
 ?データ点を表すベクトル	
 ?
A	
 ?:	
 ?マハラノビス距離行列(正定値行列)	
 ?
Aが単位行列であれば,ユークリッド距離と一致	
 ?
1	
 ?0	
 ?
0	
 ?1	
2	
 ?0	
 ?
0	
 ?1	
2	
 ?1	
 ?
1	
 ?1	
6
制約の表現	
S	
 ?	
 ?:	
 ?近いと分かっているデータ点ペアの集合	
 ?
D	
 ?:	
 ?遠いと分かっているデータ点ペアの集合	
これらの条件を満たすようなマハラノビス距離行列	
 ?A	
 ?を学習する	
7
ユークリッド距離による正則化	
?? Metric	
 ?Learningにおける過去の研究において	
 ?
–?ユークリッド距離は多くの場合,そこそこ上手くい
く,ということが知られている	
 ?
–?ユークリッド距離からあまりかけ離れたくはない	
 ?
?? そのため,単位行列(ユークリッド距離)で正則
化をかけたい	
 ?
?? どうやって?	
 ?
A-?‐1	
 ?を共分散行列として持つ正規分布間の	
 ?
KLダイバージェンスを考える	
この論文の	
 ?
メインアイディア	
8
ユークリッド距離による正則化	
p(x;	
 ?A)	
 ?:	
 ?A-?‐1を共分散行列として持つ正規分布(平均は考えない)	
単位行列	
すると,解くべき最適化問題は以下のようになる	
9
LogDet	
 ?divergenceの導入	
さきほどの最適化問題は以下のように書ける	
制約を満たす解が無い場合もある	
 ?
	
 ?=>?スラック変数	
 ?ξ	
 ?を導入	
 ?	
 ?:	
 ?式	
 ?(4.5)	
 ?	
n	
 ?:	
 ?行列のサイズ	
平均が等しい多変量正規分布間のKLダイバージェンス :	
 ?LogDet	
 ?Divergence	
xTAx	
 ?=	
 ?tr(AxxT)	
 ?で書き換えてるだけ	
10
Bregman	
 ?Projec(onに基づく学習	
?? [Kulis+,	
 ?ICML’06]によりカーネル学習で用いられた手
法	
 ?
?? Algorithm	
 ?1はスラック変数を考慮しているため複雑
に見えるが,以下を繰り返しているだけ	
 ?
1.? 制約を一個ピックアップする	
 ?
2.? 制約を満たすように距離行列を修正する	
 ?
計算量:	
 ?
	
 ?それぞれの射影に	
 ?O(d2),	
 ?c個の制約を一巡するのにはO(cd2)	
 ?
	
 ?関連研究で必要とされていた半正定値計画,	
 ?固有値分解等をとかなくて良い	
 ?
	
 ?収束保証はなされていないが,実験的には高速(後述)	
 11	
制約の「方向」	
更新幅
Bregman	
 ?Projec(on(イメージ)	
制約1	
 ?
d(xi,xj)	
 ?=	
 ?u	
制約2	
 ?
d(xi,xj)	
 ?=	
 ?l	
β	
 ?:制約を満たす最小の更新幅(閉じた形で求まる)	
射影を繰り返すことで,すべての制約を満たすAに収束する※	
12	
この図は清水さんのスライド hYp://www.r.dl.itc.u-?‐tokyo.ac.jp/study_ml/pukiwiki/index.php?schedule%2F2008-?‐07-?‐24	
 ?にインスパイアされています	
制約1を満たす
空間	
制約2を満たす
空間	
※制約が三つ以上ある場合は,すべての制約を満たす点は一般には存在しない(スラック変数の出番)	
ココでmin	
 ?Dld(At,At+1)を担保
カーネル学習との関連	
X=	
 ?	
x1	
x2	
x3	
x4	
d次元	
距離行列A	
ー
行
列
K	
と書けば,見る方向が違うだけで問題は等価	
Metric	
 ?Learning	
 Kernel	
 ?Learning	
(Theorem	
 ?1:初等的に証明できる)	
両者は等価な計算であるゆえ:	
 ?
高次元少事例(or低次元多事例)	
 ?
の場合は O(min{n,d}2)	
 ?で計算可能	
 ?
[Jain+	
 ?JMLR	
 ?2012]	
 ?
事
例	
 ?
13
拡張(カーネル化/オンライン化)	
?? カーネル化 (Φ(?)	
 ?:	
 ?(高次元への)写像関数)	
 ?
?? オンライン化	
 ?
–? Algorithm	
 ?2?( Regret	
 ?Boundも示されている	
 ?)	
 ?
–? 詳細は割愛	
 ?
線形カーネル	
 ?(K	
 ?=	
 ?I)	
 学習された(距離行列のもとでの)カーネル	
新たなデータ点に対するカーネルは以下の式で計算できる	
 ?(σ:	
 ?A	
 ?–	
 ?I	
 ?の要素)	
14	
とおけば,Algorithm1がそのまま使える
実験結果(k-?‐NN)	
UCI	
 ?Dataset	
 Cralify	
 ?Dataset	
(baseline)	
 (baseline)	
ソフトウェアの自動サポートのための	
 ?
データセット	
 ?
Informa(on	
 ?Gainで20次元に次元削減	
分類アルゴリズム:4-?‐NN	
 ?
制約:	
 ?	
 ?
	
 ?20	
 ?c2	
 ?ペア	
 ?(	
 ?c	
 ?:	
 ?クラス数	
 ?)	
 ?
	
 ?をランダムに選択×5	
 ?trial	
15
実験(速度,	
 ?クラスタリング)	
HMRF-?‐Kmeans	
 ?:	
 ?[Basu+	
 ?KDD’04]	
 ?
	
 ?Must-?‐link,	
 ?Cannnot-?‐link制約を隠れ状態として持つクラスタリング	
 16
まとめ /	
 ?感想 /	
 ?私見	
?? Metric	
 ?Learningを,LogDetダイバージェンスの最適化として定式化	
 ?
–? カーネル学習と等価であることを示した,拡張:カーネル化,オンライン化	
 ?
?? 盛りだくさんの内容!	
 ?
–? カーネル学習と距離学習という,漠然と関係ありそうなものを明確に接続していて爽快	
 ?
–? 要素技術はカーネル学習[Kulis+	
 ?ICML’06]で使われているものの踏襲のようだ	
 ?
?? 私見(間違っている可能性高し!)	
 ?
–? 線形分離できない問題ができるようになるの??	
 ?
?? →?単なる線形変換なのでならない. 適切にスケーリングされてない状況でerror	
 ?rate下げる効果はあるかも	
 ?
–? 前処理せずSVMにかけるのとどっちがいいの??	
 ?
?? →?多くのケースでだいたい同じくらいらしい(k-?‐NNが異様に効くような状況除く)	
 ?[要出典]	
 ?
–? マハラノビス距離行列A	
 ?の 非対角要素(回転)にはどんな意味があるの??	
 ?
?? →?どうなんでしょう????カーネル行列Kの非対角要素には明らかに意味があるので,考えればわかるかも	
 ?
–? そもそも今さらkNNって????	
 ?
?? →?意外と強いっすよ.メモリに載れば+近傍探索が速ければ	
 ?
–? どういう時に使う??	
 ?
?? →?教師データが部分的にしか無い,学習されたMetricそのものを他の用途に使いたい状況など	
 ?
–? そもそもそもそも,線形変換が意味を持つ状況が思いつかない???	
 ?
?? →?分類器が非線形な場合(k-?‐NNなど)は意味があるはず.?分類器が線形な場合は???誰か教えてください.	
 ?17
Further	
 ?Reading	
?? “Metric	
 ?and	
 ?Kernel	
 ?Learning	
 ?Using	
 ?a	
 ?Linear	
 ?Transforma(on”	
 ?[Jain+,	
 ?	
 ?
JMLR’12]	
 ?
–? 本研究を含んだジャーナル,あんまり読んでない	
 ?
?? “Distance	
 ?Metric	
 ?Learning:	
 ?A	
 ?Comprehensive	
 ?Survey”	
 ?[Yang,	
 ?2006]	
 ?
–? サーベイ論文.ちょっと古いけど,基本的な考え方は分かりそう	
 ?
?? “Learning	
 ?Low-?‐Rank	
 ?Kernel	
 ?Matrices”[Kulis+,	
 ?ICML’06]	
 ?
–? 同チームによるカーネル学習の論文,基本的なアイディアは同じ	
 ?
–? IBM井出さんによる分かりやすい解説スライドあり	
 ?
?? 日本語で読めるもの	
 ?
–? 清水さんのスライド	
 ?
–? イントロ的なところは首都大小町先生による解説もあり	
 ?
–? “計量学習を用いた画像検索エンジンとアニメ顔類似検索v3について”	
 ?
?? かっこいい!	
 ?
?? 自然言語処理への応用例	
 ?
–? 類義語獲得	
 ?[Shimizu+,	
 ?Coling’08]	
 ?
–? Sen(ment	
 ?Analysis	
 ?における Domain	
 ?Adapta(on	
 ?[Dhillton+,	
 ?Coling’12]	
 ?
–? 語義曖昧性解消	
 ?[Sasaki	
 ?and	
 ?Shinnou,	
 ?SEMAPRO’12][佐々木,新納,	
 ?NLP’11]	
18

More Related Content

What's hot (20)

PDF
グラフィカルモデル入门
Kawamoto_Kazuhiko
?
PDF
サポートベクターマシン(厂痴惭)の数学をみんなに説明したいだけの会
Kenyu Uehara
?
PDF
cvpaper.challenge 研究効率化 Tips
cvpaper. challenge
?
PPTX
ようやく分かった!最尤推定とベイズ推定
Akira Masuda
?
PDF
画像认识の初歩、厂滨贵罢,厂鲍搁贵特徴量
takaya imai
?
PDF
DQNからRainbowまで ?深層強化学習の最新動向?
Jun Okumura
?
PDF
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
joisino
?
PDF
贰尝叠翱型痴础贰のダメなところ
KCS Keio Computer Society
?
PPTX
金融时系列のための深层迟过程回帰モデル
Kei Nakagawa
?
PDF
自然言语処理による议论マイニング
Naoaki Okazaki
?
PDF
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
Ken'ichi Matsui
?
PDF
Deep Learning Lab 異常検知入門
Shohei Hido
?
PDF
合成変量とアンサンブル:回帰森と加法モデルの要点
Ichigaku Takigawa
?
PDF
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
?
PDF
非線形データの次元圧縮 150905 WACODE 2nd
Mika Yoshimura
?
PDF
Recent Advances on Transfer Learning and Related Topics Ver.2
Kota Matsui
?
PDF
全力解説!罢谤补苍蝉蹿辞谤尘别谤
Arithmer Inc.
?
PDF
はじめよう多変量解析~主成分分析编~
宏喜 佐野
?
PDF
モデルではなく、データセットを蒸留する
Takahiro Kubo
?
PDF
机械学习による统计的実験计画(ベイズ最适化を中心に)
Kota Matsui
?
グラフィカルモデル入门
Kawamoto_Kazuhiko
?
サポートベクターマシン(厂痴惭)の数学をみんなに説明したいだけの会
Kenyu Uehara
?
cvpaper.challenge 研究効率化 Tips
cvpaper. challenge
?
ようやく分かった!最尤推定とベイズ推定
Akira Masuda
?
画像认识の初歩、厂滨贵罢,厂鲍搁贵特徴量
takaya imai
?
DQNからRainbowまで ?深層強化学習の最新動向?
Jun Okumura
?
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
joisino
?
贰尝叠翱型痴础贰のダメなところ
KCS Keio Computer Society
?
金融时系列のための深层迟过程回帰モデル
Kei Nakagawa
?
自然言语処理による议论マイニング
Naoaki Okazaki
?
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
Ken'ichi Matsui
?
Deep Learning Lab 異常検知入門
Shohei Hido
?
合成変量とアンサンブル:回帰森と加法モデルの要点
Ichigaku Takigawa
?
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
?
非線形データの次元圧縮 150905 WACODE 2nd
Mika Yoshimura
?
Recent Advances on Transfer Learning and Related Topics Ver.2
Kota Matsui
?
全力解説!罢谤补苍蝉蹿辞谤尘别谤
Arithmer Inc.
?
はじめよう多変量解析~主成分分析编~
宏喜 佐野
?
モデルではなく、データセットを蒸留する
Takahiro Kubo
?
机械学习による统计的実験计画(ベイズ最适化を中心に)
Kota Matsui
?

Viewers also liked (13)

PDF
认知距离学习器の説明
ドワンゴ 人工知能研究所
?
PDF
Metric learning ICML2010 tutorial
zukun
?
PDF
Improving neural networks by preventing co adaptation of feature detectors
Junya Saito
?
PDF
An Introduction to Metric Learning for Clustering
Federal University of Technology - Paraná/Brazil (UTFPR)
?
PDF
Laplacian Pyramid of Generative Adversarial Networks (LAPGAN) - NIPS2015読み会 #...
Koichi Hamada
?
PDF
論文輪読: Deep neural networks are easily fooled: High confidence predictions for...
mmisono
?
PDF
Distance Metric Learning
Sanghyuk Chun
?
PDF
Adversarial Networks の画像生成に迫る @WBAFLカシ?ュアルトーク#3
Daiki Shimada
?
PPTX
Image net classification with Deep Convolutional Neural Networks
Shingo Horiuchi
?
PDF
Deep Residual Learning (ILSVRC2015 winner)
Hirokatsu Kataoka
?
PDF
20150930
nlab_utokyo
?
PPTX
MIRU2014 tutorial deeplearning
Takayoshi Yamashita
?
PDF
Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料
tm_2648
?
认知距离学习器の説明
ドワンゴ 人工知能研究所
?
Metric learning ICML2010 tutorial
zukun
?
Improving neural networks by preventing co adaptation of feature detectors
Junya Saito
?
An Introduction to Metric Learning for Clustering
Federal University of Technology - Paraná/Brazil (UTFPR)
?
Laplacian Pyramid of Generative Adversarial Networks (LAPGAN) - NIPS2015読み会 #...
Koichi Hamada
?
論文輪読: Deep neural networks are easily fooled: High confidence predictions for...
mmisono
?
Distance Metric Learning
Sanghyuk Chun
?
Adversarial Networks の画像生成に迫る @WBAFLカシ?ュアルトーク#3
Daiki Shimada
?
Image net classification with Deep Convolutional Neural Networks
Shingo Horiuchi
?
Deep Residual Learning (ILSVRC2015 winner)
Hirokatsu Kataoka
?
20150930
nlab_utokyo
?
MIRU2014 tutorial deeplearning
Takayoshi Yamashita
?
Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料
tm_2648
?
Ad

Similar to Information-Theoretic Metric Learning (20)

PPTX
笔搁惭尝第6章「カーネル法」
Keisuke Sugawara
?
PDF
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
Preferred Networks
?
PDF
Datamining 5th knn
sesejun
?
PDF
Datamining 5th Knn
sesejun
?
PDF
PRML 第4章
Akira Miyazawa
?
PDF
データマイニング勉强会3
Yohei Sato
?
PPTX
距离とクラスタリング
大貴 末廣
?
PPT
Jokyokai
Taiji Suzuki
?
PDF
PRML 4.1 輪講スライド
KawaAkimune
?
PDF
オンライン凸最适化と线形识别モデル学习の最前线冲滨叠滨厂2011
Preferred Networks
?
PDF
それっぽく感じる机械学习
Yuki Igarashi
?
PDF
レコメント?アルコ?リス?ムの基本と周辺知识と実装方法
Takeshi Mikami
?
PDF
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
Deep Learning JP
?
PDF
PRML復々習レーン#9 前回までのあらすじ
sleepy_yoshi
?
PDF
第3回集合知プログラミング勉強会 #TokyoCI グループを見つけ出す
Atsushi KOMIYA
?
PDF
闯耻产补迟耻蝉における大规模分散オンライン机械学习
Preferred Networks
?
PDF
NN, CNN, and Image Analysis
Yuki Shimada
?
PDF
PFI Christmas seminar 2009
Preferred Networks
?
PDF
SSA-SOINN
SOINN Inc.
?
PDF
Cosine Based Softmax による Metric Learning が上手くいく理由
tancoro
?
笔搁惭尝第6章「カーネル法」
Keisuke Sugawara
?
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
Preferred Networks
?
Datamining 5th knn
sesejun
?
Datamining 5th Knn
sesejun
?
PRML 第4章
Akira Miyazawa
?
データマイニング勉强会3
Yohei Sato
?
距离とクラスタリング
大貴 末廣
?
Jokyokai
Taiji Suzuki
?
PRML 4.1 輪講スライド
KawaAkimune
?
オンライン凸最适化と线形识别モデル学习の最前线冲滨叠滨厂2011
Preferred Networks
?
それっぽく感じる机械学习
Yuki Igarashi
?
レコメント?アルコ?リス?ムの基本と周辺知识と実装方法
Takeshi Mikami
?
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
Deep Learning JP
?
PRML復々習レーン#9 前回までのあらすじ
sleepy_yoshi
?
第3回集合知プログラミング勉強会 #TokyoCI グループを見つけ出す
Atsushi KOMIYA
?
闯耻产补迟耻蝉における大规模分散オンライン机械学习
Preferred Networks
?
NN, CNN, and Image Analysis
Yuki Shimada
?
PFI Christmas seminar 2009
Preferred Networks
?
SSA-SOINN
SOINN Inc.
?
Cosine Based Softmax による Metric Learning が上手くいく理由
tancoro
?
Ad

More from Koji Matsuda (19)

PPTX
Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
Koji Matsuda
?
PPTX
KB + Text => Great KB な論文を多読してみた
Koji Matsuda
?
PPTX
Large-Scale Information Extraction from Textual Definitions through Deep Syn...
Koji Matsuda
?
PPTX
知識を紡ぐための言語処理と、 そのための言語資源
Koji Matsuda
?
PDF
「今日から使い切る」 ための GNU Parallel による並列処理入門
Koji Matsuda
?
PDF
場所参照表現タク?付きコーハ?スの 構築と評価
Koji Matsuda
?
PPTX
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介
Koji Matsuda
?
PDF
いまさら聞けない “モデル” の話 @DSIRNLP#5
Koji Matsuda
?
PDF
Practical recommendations for gradient-based training of deep architectures
Koji Matsuda
?
PDF
Align, Disambiguate and Walk : A Uni?ed Approach forMeasuring Semantic Simil...
Koji Matsuda
?
PDF
Joint Modeling of a Matrix with Associated Text via Latent Binary Features
Koji Matsuda
?
PPTX
Vanishing Component Analysis
Koji Matsuda
?
PDF
A Machine Learning Framework for Programming by Example
Koji Matsuda
?
PDF
Unified Expectation Maximization
Koji Matsuda
?
PDF
Language Models as Representations for Weakly-?Supervised NLP Tasks (CoNLL2011)
Koji Matsuda
?
PDF
研究室内PRML勉強会 11章2-4節
Koji Matsuda
?
PDF
研究室内PRML勉強会 8章1節
Koji Matsuda
?
PDF
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Koji Matsuda
?
PPTX
Approximate Scalable Bounded Space Sketch for Large Data NLP
Koji Matsuda
?
Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
Koji Matsuda
?
KB + Text => Great KB な論文を多読してみた
Koji Matsuda
?
Large-Scale Information Extraction from Textual Definitions through Deep Syn...
Koji Matsuda
?
知識を紡ぐための言語処理と、 そのための言語資源
Koji Matsuda
?
「今日から使い切る」 ための GNU Parallel による並列処理入門
Koji Matsuda
?
場所参照表現タク?付きコーハ?スの 構築と評価
Koji Matsuda
?
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介
Koji Matsuda
?
いまさら聞けない “モデル” の話 @DSIRNLP#5
Koji Matsuda
?
Practical recommendations for gradient-based training of deep architectures
Koji Matsuda
?
Align, Disambiguate and Walk : A Uni?ed Approach forMeasuring Semantic Simil...
Koji Matsuda
?
Joint Modeling of a Matrix with Associated Text via Latent Binary Features
Koji Matsuda
?
Vanishing Component Analysis
Koji Matsuda
?
A Machine Learning Framework for Programming by Example
Koji Matsuda
?
Unified Expectation Maximization
Koji Matsuda
?
Language Models as Representations for Weakly-?Supervised NLP Tasks (CoNLL2011)
Koji Matsuda
?
研究室内PRML勉強会 11章2-4節
Koji Matsuda
?
研究室内PRML勉強会 8章1節
Koji Matsuda
?
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Koji Matsuda
?
Approximate Scalable Bounded Space Sketch for Large Data NLP
Koji Matsuda
?

Information-Theoretic Metric Learning

  • 1. Informa(on-?‐Theore(c ?Metric ?Learning ? Jason ?V. ?Davis, ?Brian ?Kulis, ? ? Prateek ?Jain, ?Suvrit ?Sra, ?Inderjit ?S. ?Dhillon ? (ICML ?2007 ?best ?paper) suzukake weekend ?reading ?group ?#2 ? 2013/04/20 ? ? ?紹介者 ?: ?matsuda 1 13/04/20 ?17:42版
  • 2. Metric ?Learningとは何か [1 ? ?0 ? ?0 ? ?1] [2 ? ?0 ? ?0 ? ?1] ①同クラスの事例間は近いほうが良い ? ②異クラスの事例間は遠いほうが良い ① ② ユークリッド距離 分類しやすい(???) 距離空間を歪める マハラノビス距離 2
  • 3. 別の例(Large ?Margin ?Nearest ?Neighbor) hYp://www.cse.wustl.edu/~kilian/code/page21/page21.html?より 3
  • 4. 問題設定 ?? マハラノビス距離を学習する ? –? 特徴量同士の距離を表す行列を学習する ? –? カーネルでない事に注意(ただ,相互に関係はある(実は等価???)) ? ?? カーネル ?: ?「データ間」の距離 ? ?? マハラノビス ?: ?「特徴量間」の距離 ? ?? 何のために? ? –? 機械学習の前処理として組み込む ? ?? 典型的な例 ?: ?k-?‐NN ? –? semi-?‐supervised ?clustering ? –? 特徴選択の一般化とも言えそう ? ?? 重み付け + ?特徴量空間での回転 4 Prasanta ?Chandra ?Mahalanobis ? 1893 1972
  • 5. 本論文のContribu(on ?? Metric ?Learning ?を ?LogDet ?Divergence ?の最適化 問題として定式化 ? –? Bregman ?Projec(onという手法に基づく効率的なアル ゴリズムを導出 ? –? 高速 ( ?O(d2) ?d:次元数 ?),おおむね高精度 ? ?? カーネル学習との接続 ? –? 実際には等価な問題であることを示す ? ?? 拡張 ?(時間の都合上,ちょっと触れるだけ) ? –? カーネル化 ? –? オンライン化 ? ?? Regret ?Boundも示している 5
  • 6. マハラノビス距離とは x ? ?: ?データ点を表すベクトル ? A ?: ?マハラノビス距離行列(正定値行列) ? Aが単位行列であれば,ユークリッド距離と一致 ? 1 ?0 ? 0 ?1 2 ?0 ? 0 ?1 2 ?1 ? 1 ?1 6
  • 7. 制約の表現 S ? ?: ?近いと分かっているデータ点ペアの集合 ? D ?: ?遠いと分かっているデータ点ペアの集合 これらの条件を満たすようなマハラノビス距離行列 ?A ?を学習する 7
  • 8. ユークリッド距離による正則化 ?? Metric ?Learningにおける過去の研究において ? –?ユークリッド距離は多くの場合,そこそこ上手くい く,ということが知られている ? –?ユークリッド距離からあまりかけ離れたくはない ? ?? そのため,単位行列(ユークリッド距離)で正則 化をかけたい ? ?? どうやって? ? A-?‐1 ?を共分散行列として持つ正規分布間の ? KLダイバージェンスを考える この論文の ? メインアイディア 8
  • 9. ユークリッド距離による正則化 p(x; ?A) ?: ?A-?‐1を共分散行列として持つ正規分布(平均は考えない) 単位行列 すると,解くべき最適化問題は以下のようになる 9
  • 10. LogDet ?divergenceの導入 さきほどの最適化問題は以下のように書ける 制約を満たす解が無い場合もある ? ?=>?スラック変数 ?ξ ?を導入 ? ?: ?式 ?(4.5) ? n ?: ?行列のサイズ 平均が等しい多変量正規分布間のKLダイバージェンス : ?LogDet ?Divergence xTAx ?= ?tr(AxxT) ?で書き換えてるだけ 10
  • 11. Bregman ?Projec(onに基づく学習 ?? [Kulis+, ?ICML’06]によりカーネル学習で用いられた手 法 ? ?? Algorithm ?1はスラック変数を考慮しているため複雑 に見えるが,以下を繰り返しているだけ ? 1.? 制約を一個ピックアップする ? 2.? 制約を満たすように距離行列を修正する ? 計算量: ? ?それぞれの射影に ?O(d2), ?c個の制約を一巡するのにはO(cd2) ? ?関連研究で必要とされていた半正定値計画, ?固有値分解等をとかなくて良い ? ?収束保証はなされていないが,実験的には高速(後述) 11 制約の「方向」 更新幅
  • 12. Bregman ?Projec(on(イメージ) 制約1 ? d(xi,xj) ?= ?u 制約2 ? d(xi,xj) ?= ?l β ?:制約を満たす最小の更新幅(閉じた形で求まる) 射影を繰り返すことで,すべての制約を満たすAに収束する※ 12 この図は清水さんのスライド hYp://www.r.dl.itc.u-?‐tokyo.ac.jp/study_ml/pukiwiki/index.php?schedule%2F2008-?‐07-?‐24 ?にインスパイアされています 制約1を満たす 空間 制約2を満たす 空間 ※制約が三つ以上ある場合は,すべての制約を満たす点は一般には存在しない(スラック変数の出番) ココでmin ?Dld(At,At+1)を担保
  • 13. カーネル学習との関連 X= ? x1 x2 x3 x4 d次元 距離行列A ー 行 列 K と書けば,見る方向が違うだけで問題は等価 Metric ?Learning Kernel ?Learning (Theorem ?1:初等的に証明できる) 両者は等価な計算であるゆえ: ? 高次元少事例(or低次元多事例) ? の場合は O(min{n,d}2) ?で計算可能 ? [Jain+ ?JMLR ?2012] ? 事 例 ? 13
  • 14. 拡張(カーネル化/オンライン化) ?? カーネル化 (Φ(?) ?: ?(高次元への)写像関数) ? ?? オンライン化 ? –? Algorithm ?2?( Regret ?Boundも示されている ?) ? –? 詳細は割愛 ? 線形カーネル ?(K ?= ?I) 学習された(距離行列のもとでの)カーネル 新たなデータ点に対するカーネルは以下の式で計算できる ?(σ: ?A ?– ?I ?の要素) 14 とおけば,Algorithm1がそのまま使える
  • 15. 実験結果(k-?‐NN) UCI ?Dataset Cralify ?Dataset (baseline) (baseline) ソフトウェアの自動サポートのための ? データセット ? Informa(on ?Gainで20次元に次元削減 分類アルゴリズム:4-?‐NN ? 制約: ? ? ?20 ?c2 ?ペア ?( ?c ?: ?クラス数 ?) ? ?をランダムに選択×5 ?trial 15
  • 16. 実験(速度, ?クラスタリング) HMRF-?‐Kmeans ?: ?[Basu+ ?KDD’04] ? ?Must-?‐link, ?Cannnot-?‐link制約を隠れ状態として持つクラスタリング 16
  • 17. まとめ / ?感想 / ?私見 ?? Metric ?Learningを,LogDetダイバージェンスの最適化として定式化 ? –? カーネル学習と等価であることを示した,拡張:カーネル化,オンライン化 ? ?? 盛りだくさんの内容! ? –? カーネル学習と距離学習という,漠然と関係ありそうなものを明確に接続していて爽快 ? –? 要素技術はカーネル学習[Kulis+ ?ICML’06]で使われているものの踏襲のようだ ? ?? 私見(間違っている可能性高し!) ? –? 線形分離できない問題ができるようになるの?? ? ?? →?単なる線形変換なのでならない. 適切にスケーリングされてない状況でerror ?rate下げる効果はあるかも ? –? 前処理せずSVMにかけるのとどっちがいいの?? ? ?? →?多くのケースでだいたい同じくらいらしい(k-?‐NNが異様に効くような状況除く) ?[要出典] ? –? マハラノビス距離行列A ?の 非対角要素(回転)にはどんな意味があるの?? ? ?? →?どうなんでしょう????カーネル行列Kの非対角要素には明らかに意味があるので,考えればわかるかも ? –? そもそも今さらkNNって???? ? ?? →?意外と強いっすよ.メモリに載れば+近傍探索が速ければ ? –? どういう時に使う?? ? ?? →?教師データが部分的にしか無い,学習されたMetricそのものを他の用途に使いたい状況など ? –? そもそもそもそも,線形変換が意味を持つ状況が思いつかない??? ? ?? →?分類器が非線形な場合(k-?‐NNなど)は意味があるはず.?分類器が線形な場合は???誰か教えてください. ?17
  • 18. Further ?Reading ?? “Metric ?and ?Kernel ?Learning ?Using ?a ?Linear ?Transforma(on” ?[Jain+, ? ? JMLR’12] ? –? 本研究を含んだジャーナル,あんまり読んでない ? ?? “Distance ?Metric ?Learning: ?A ?Comprehensive ?Survey” ?[Yang, ?2006] ? –? サーベイ論文.ちょっと古いけど,基本的な考え方は分かりそう ? ?? “Learning ?Low-?‐Rank ?Kernel ?Matrices”[Kulis+, ?ICML’06] ? –? 同チームによるカーネル学習の論文,基本的なアイディアは同じ ? –? IBM井出さんによる分かりやすい解説スライドあり ? ?? 日本語で読めるもの ? –? 清水さんのスライド ? –? イントロ的なところは首都大小町先生による解説もあり ? –? “計量学習を用いた画像検索エンジンとアニメ顔類似検索v3について” ? ?? かっこいい! ? ?? 自然言語処理への応用例 ? –? 類義語獲得 ?[Shimizu+, ?Coling’08] ? –? Sen(ment ?Analysis ?における Domain ?Adapta(on ?[Dhillton+, ?Coling’12] ? –? 語義曖昧性解消 ?[Sasaki ?and ?Shinnou, ?SEMAPRO’12][佐々木,新納, ?NLP’11] 18