This document discusses various methods for calculating Wasserstein distance between probability distributions, including:
- Sliced Wasserstein distance, which projects distributions onto lower-dimensional spaces to enable efficient 1D optimal transport calculations.
- Max-sliced Wasserstein distance, which focuses sampling on the most informative projection directions.
- Generalized sliced Wasserstein distance, which uses more flexible projection functions than simple slicing, like the Radon transform.
- Augmented sliced Wasserstein distance, which applies a learned transformation to distributions before projecting, allowing more expressive matching between distributions.
These sliced/generalized Wasserstein distances have been used as loss functions for generative models with promising
博士論文の執筆した時に作った,チェックリストをスライドにまとめました.
This slide is only for Japanese speakers
他に参考になるページ
+修士論文の作り方( http://itolab.is.ocha.ac.jp/~itot/lecture/msthesis.html ) by 伊藤先生
+修論(D論)参考( http://d.hatena.ne.jp/rkmt/20101217/1292573279 ) by 暦本純一先生
博士論文の執筆した時に作った,チェックリストをスライドにまとめました.
This slide is only for Japanese speakers
他に参考になるページ
+修士論文の作り方( http://itolab.is.ocha.ac.jp/~itot/lecture/msthesis.html ) by 伊藤先生
+修論(D論)参考( http://d.hatena.ne.jp/rkmt/20101217/1292573279 ) by 暦本純一先生
本スライドは、弊社の梅本により弊社内の技術勉強会で使用されたものです。
近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。
"Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise.
The slides are made by the lecturer from outside our company, and shared here with his/her permission.
Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステムを導入しています。AIをいかに上手に使って仕事を効率化するか、そして人々の役に立つ結果を生み出すのか、それを考えるのが私たちの仕事です。
Arithmer began at the University of Tokyo Graduate School of Mathematical Sciences. Today, our research of modern mathematics and AI systems has the capability of providing solutions when dealing with tough complex issues. At Arithmer we believe it is our job to realize the functions of AI through improving work efficiency and producing more useful results for society.
DMMは日本で最大級の動画配信サービスを提供しています。
昨今はニーズの多様化と高品質への対応が急務となっており、動画配信基盤の刷新に取り組んでいます。モノリシックなシステムをマイクロサービス化すべく、Ruby on Rails?AngularJS?Go を利用しています。本セッションでは、それらのアーキテクトや開発フローについて判りやすく説明します。
8. Copyright@2014 NTT DATA Mathematical Systems Inc.
8
人間はアナロジー関係を適切にとらえる ことができます。 Skip-gramに代表される言語モデルの進化 により、このようなアナロジー関係をあ る程度機械的に計算できるようになりま した。
9. Copyright@2014 NTT DATA Mathematical Systems Inc.
9
Skip-gram モデル(+ Noise Sampling)
?T. Mikolov+, “Distributed Representations of Words and Phrases and their Compositionality”, NIPS2013
?Skip-gram モデルは、単語に同じ次元のベクタを割り当てます(語 ? に 割り当てられたベクタが ?? )。
?コーパスで共起する単語ペア(?,?~??)は、ベクタの内積が大きく なるようにします。
?コーパスの?倍の個数の単語ペア(?,?~??)を別途作成しますが、 それらの単語ペアのベクタの内積は小さくなるようにします。
Skip-gram (+NS) maximize ? ?(?)=??,?~??[log?(?,?;?)]+???,?~??log(1??(?,?;?), ????? ??,?;?=?????? ??????? = 11+exp (??????)
10. Copyright@2014 NTT DATA Mathematical Systems Inc.
10
共起しやすい ?ベクタの内積が大きい
mathematics
physics
tokyo
11. Copyright@2014 NTT DATA Mathematical Systems Inc.
11
Linear Regularity
?Skip-gram で学習された単語のベクタ( ?? )を使って、意味や統語の 線形計算ができることが実験的に確認されています。
T. Mikolov +, “Linguistic Regularities in Continuous Space Word Representations”, NAACL HLT 2013
12. Copyright@2014 NTT DATA Mathematical Systems Inc.
12
T. Mikolov +, “ Distributed Representations of Words and Phrases and their Compositionality”, NIPS 2013
13. Copyright@2014 NTT DATA Mathematical Systems Inc.
13
T. Mikolov +, “Efficient Estimation of Word Representations in Vector Space”, ICLR2013
14. Copyright@2014 NTT DATA Mathematical Systems Inc.
14
語の相対的な位置関係は言語非依存(?)
T. Mikolov +, “Exploiting Similarities among Languages for Machine Translation”, arXiv:1309.4168
15. Copyright@2014 NTT DATA Mathematical Systems Inc.
15
Skip-gram = PMI行列の行列分解
?最近、?=1,??(?,?)=?????? (ユニグラム分布の積)ととった Skip-gram モデルは PMI 行列の行列分解に相当することが示されました。
?O. Levy+, “Neural Word Embedding as Implecit Matrix Factorization”, NIPS2014
Skip-gram (+NS) maximize ? ?(?)=??,?~??[log?(?,?;?)]+???,?~??log(1??(?,?;?), ????? ??,?;?=?????? ??????? = 11+exp (??????)
?
?
Pointwise Mutual Information
????,?=log ???,? ?????(?)
PMI行列
16. Copyright@2014 NTT DATA Mathematical Systems Inc.
16
証明
下記の証明は、本質的には次の論文によるものです。 I. J. Goodfellow+, “Generative Adversarial Networks”, NIPS2014
(証明) ?(?)=??,?~??[log?(?,?;?)]+???,?~??log(1??(?,?;?) = ???,?log??,?;?+????,?log1???,?;? ?(?,?) ですが、?log?+?log1??は?=?/(?+?)で唯一の最大値をとるので、 ?(?) を最大化すると、下記へ収束します。 ??,?;?= ???,? ???,?+???(?,?) =??log ???,? ????,? ??,?;?=??????と比べると ?????=log ???,? ????,?
を得ます。よって、?=1,??=?????? の場合には、PMI行列の分解 になります。
17. Copyright@2014 NTT DATA Mathematical Systems Inc.
17
Linear Regularity 再考
?PMI行列の分解であることを想定すると、 のような関係は、任意の語 ? にたいして、 という関係を与えることがわかります。実際、 ????????=??????????? ?? ???????????????+?????=0 ?????,?????????,????????,?????+????,?????=0 ここで最後の式の左辺を計算すると log ?????? ????? ∕ ??????? ??????? =0 なので、上記関係を得ます。
????????=??????????? (?????を????などと略記)
?????? ????? = ??????? ??????? ????? ???= ??? ??
18. Copyright@2014 NTT DATA Mathematical Systems Inc.
18
??|?
?
?
?(?,?)
?(?)
計
?
?
???
1
計
行を正規化
同時確率
??|? は同時確率 ?(?,?)
から語自身の出現確率 ?(?)の効果を除いたもの
19. Copyright@2014 NTT DATA Mathematical Systems Inc.
19
Linear Regularity
????????=???????????? ?????? ????? = ??????? ???????
1
1
1
1
?
?
?
?
?
ここの比が常に等しい
????∶ ???=?????∶ ?????
king, man, queen, woman 固有の出 現確率を無視すると、どんな語に対 しても、その語の周辺に「 man に比 べて king がどれくらい出やすいか」 は、「woman に比べて queen がど れくらい出やすいか」と等しい。