22. (参考)perplexityの自動調整①
Automatic Selection of t-SNE Perplexity
? Cao and Wang 2017
? よさそうなperplexityを探すのは計算時間が掛かる+目視での評
価になるため、選択基準を与えて自動探索したい
? KL(P||Q) にperplexityによる罰則項を加えた指標を提案
? この指標が有効なら、S(perp)の最小点を二分探索(=自動
化)できる
? 探索範囲は、 5 ~ データサイズ/3のあいだ
23. 概要:SNE ②
データ点とマップ点の距離をそれぞれ確率分布モデルで表現し、
両者がなるべく近づくようなマップ点を探索する
2.マップ点 yi から yj までの類似度を、条件付き確率分布qj|iと考える
? qj|iは平均 yi ,分散 σ=1/√2の正規分布で定義される
? ただし、qi|i=0
3.pj|i と qj|i とが近づくように、yi を探索する
? pj|i と qj|iとの距離は、KL情報量(Kullback–Leibler divergence)で表現
? すべてのデータ点に対するKL情報量の和を損失関数 とし、勾配法で最小化
●問題点
? コスト関数の最適化が困難
? Crowding problem
24. (参考)perplexityの自動調整①
Automatic Selection of t-SNE Perplexity
? Cao and Wang 2017
? よさそうなperplexityを探すのは計算時間が掛かる+目視での評
価になるため、選択基準を与えて自動探索したい
? KL(P||Q) にperplexityによる罰則項を加えた指標を提案
? この指標が有効なら、S(perp)の最小点を二分探索(=自動
化)できる
? 探索範囲は、 5 ~ データサイズ/3のあいだ
KL(P||Q)が得られれば
S(perp)は計算できる
25. (参考)perplexityの自動調整②
Automatic Selection of t-SNE Perplexity
? Rtsne() は、KL(P||Q) を返してくれるので計算できる
itercosts:
? The total costs (KL-divergence) for all objects
in every 50th + the last iteration
pen.KLdist = last(mapping.tsne$itercosts) +
log(mapping.tsne$N) * perplexity/ mapping.tsne$N)
30. 概要? :UMAP
? The details for the underlying mathematics can be
found in:
? McInnes, L, Healy, J, UMAP: Uniform Manifold
Approximation and Projection for Dimension Reduction,
ArXiv e-prints 1802.03426, 2018
? https://arxiv.org/abs/1802.03426
? The important thing is that:
? you don't need to worry about that
? you can use UMAP right now for dimension reduction and
visualisation as easily as a drop in replacement for scikit-
learn's t-SNE.
※ ただし「拡張とか考えるなら、きちんと理解しておけ」みたいなことは書いてある
https://github.com/lmcinnes/umap