狠狠撸

狠狠撸Share a Scribd company logo
2013/10/17 PFIセミナー

SGD+α
確率的勾配降下法の現在と未来

東京大学 情報理工学系研究科
大岩 秀和 / @kisa12012
自己紹介

?大岩 秀和 (a.k.a. @kisa12012)
?所属: 東大 数理情報 D2 (中川研)
?研究: 機械学習?言語処理
?オンライン学習/確率的最適化/スパース正
則化 etc...

?前回のセミナー: 能動学習入門
?PFI: インターン(10) -> アルバイト(-12)
2
今日の話 1/2

?みんな大好き(?)確率的勾配降下法
?Stochastic Gradient Descent (SGD)
?オンライン学習の文脈では,Online
Gradient Decent (OGD)と呼ばれる

?SGDは便利だけど,使いにくい所も
?ステップ幅の設定方法とか
3
今日の話 2/2

?SGDに+αで出来る拡張の話をします
?最近提案されたトッピング(研究)を紹介
?ステップ幅設定/自動正規化など

Plain SGD

Topping
4
1. Plain SGD

5
基本問題設定
min f (w)

f (w)

? (損失)最小化問題 w
?
? 値が最小となる w を求めたい
f (·) は凸関数
?
?
w
関数がN個の関数に分解可能
?
? 必須ではないですが,今回はこの条件で進めます
f (w) =

N
X

n=1
6

ft (w)
Plain SGD
x1

x2

................................ xN

wt
7
Plain SGD
x1

x2

................................ xN

wt
データを一つランダムにピックアップ
8
Plain SGD
x1

x2

................................ xN

wt+1 = wt

?t @f2 (wt )

選んだデータに対応する勾配でパラメータ更新
9
Plain SGD
x1

x2

................................ xN

max(0, 1
(wT x

二乗損失 (回帰)

ヒンジ損失 (分類)

y)2

wt+1 = wt

?t @f2 (wt )

用いる損失関数は様々
10

ywT x)
Plain SGD

?関数を一つだけサンプルして,勾配を計算
wt+1 = wt

?t rfnt (wt )

?

関数 fnt (·) の値が一番小さくなる
方向へパラメータを更新

?t でステップの幅を調整
?

?微分不可能な場合も劣勾配で
11
Pros and Cons of Plain SGD
wt+1 = wt

?t rfnt (wt )

?長所
?大規模データに有効 (Bottou+ 11)
? そこそこの 解がすぐに欲しい時
?実装?デバッグ?実験サイクルを回すのが楽
?ノウハウ集 (Bottou 12)
?最適解への収束証明あり
12
Pros and Cons of Plain SGD

?短所
?ステップ幅で収束性が大きく変化
?Overshoot, Undershoot
?前処理しないと性能が劇的に悪化
?正規化, TF-IDF
?厳密な最適解が欲しい場合は遅い

損失
(対数)
SGD
GD
時間

13
SGD+α

?時代はビッグデータ
?複雑な最適化よりシンプルで軽いSGD
?しかし,SGDも不便な部分が多い
?SGD+α
?+αで,より効果的なアルゴリズムへ
?+αで,欠点の少ないアルゴリズムへ
?「それ,実はSGD+αで出来るよ?」
14
今日紹介する+α

? Importance-aware Update
? ステップ幅の問題を緩和
? Normalized Online Learning
? 前処理なし,オンラインで特徴量の正規化
? Linear Convergence SGD
? バッチデータに対して,線形収束するSGD
? 他にもAdaGrad/省メモリ化等を紹介したかったで
(Karampatziakis+ 11)

(Stéphane+ 13)

(Le Roux+ 12)

すが,略
15
2. Importance-aware Update

16
Overshoot / Undershoot
SGDはステップ幅設定に失敗すると,劇的に悪化

ステップ幅が大きすぎる

小さすぎる
17
ステップ幅設定は大変
w = (inf, inf, . . . )

?Overshootで生じるnan/infの嵐
?Cross-Validationで最適ステップ幅探しの旅
?つらい
?ステップ幅選択に悩みたくない
?Importance-aware Update
?キーワード: Invariance, Safety
18
Invariance

?ステップ幅設定をh倍 -> データ1個分の更新h回
へ再設定

→

19
Importance-aware Update
(Karampatziakis+ 11)

?Invarianceを満たすステップ幅の再設定法
?線形予測器では変化するのはステップ幅のみ
?主な損失関数のステップ幅は,閉じた式で計
算可能

?L2正則化等が入っても大丈夫
?Regret Boundの証明あり
20
Importance-aware step width
ステップ幅の再設定式
Table 1: Importance Weight Aware Updates for Various Loss Functions
Loss
`(p, y)
Update s(h)
?
?
>
p y
Squared
(y p)2
1 e h?x x
x> x
Logistic

log(1 + e

Exponential

e
y log

Logarithmic
Hellinger
Hinge
? -Quantile

p

( p

y
p

p

2

y)

yp

)

yp

+ (1
p

( 1

y) log
p

1 y
1 p

p

1

max(0, 1 yp)
if y > p
? (y p)
if y ? p (1 ? )(p y)

(6) gives a di?erential equation whose solution is the
result of a continuous gradient descent process.
As a sanity check we rederive (5) using (6). For
@`
squared loss @p = p y and we get a linear ODE:

y)2

> x+yp+eyp

) h?x> x eyp
for y 2 { 1, 1}
yx> x
py log(h?x> x+epy )
for y 2 { 1, 1}
x> xy
p
p 1+ (p 1)2 +2h?x> x
if y = 0
p x> x
p
p2 +2h?x> x
if y = 1
x> x
>
1
p 1+ 4 (12h?x x+8(1 p)3/2 )2/3
if y = 0
x> x
1
p 4 (12h?x> x+8p3/2 )2/3
if y = 1
x> x
1 yp
y min h?, x> x for y 2 { 1, 1}
if y > p
? min(h?, ?yx>p )
x
p y
if y ? p (1 ? ) min(h?, (1 ? )x> x )

W (eh?x

solution to (6) has no simple form for all y 2 [0, 1] but
for y 2 {0, 1} we get the expressions in table 1.
3.1.1

(Karampatziakis+ 11) より

Hinge Loss and Quantile Loss

Two other commonly used loss function are the hinge
loss
21 and the ? -quantile loss where ? 2 [0, 1] is a parameter function. These are di?erentiable everywhere
Safety

?Importance-aware Updateとなった二乗損失や
ヒンジ損失は,Safetyの性質を持つ
Safety
T
wt+1 x y
T
wt x y

0

が必ず満たされる
領域を超えない
22
No more step width war!

?SafetyによりOvershootの危険性が減る
?初期ステップ幅を大きめにとれる
?ステップ幅の精密化により,精度も改善
?賢いステップ幅選択方法は他にも提案
?(Duchi+ 10), (Schaul+ 13)...
23
3. Normalized Online Learning

24
特徴量の正規化
? 各特徴量のスケールに強い影響を受ける
? スケールの上限/下限の差が大きいほど,理論的にも実
証的にも性能悪化

? バッチ学習の場合は前処理で正規化する場合がほとんど
? オンライン学習では,前処理が不可能な場合がある
? 全部のデータを前もって用意出来ない etc.
x = (1.0, 5.2, . . . )
x = (1000.0, 5.2, . . . )
25

x = (0.001, 5.2, . . . )
Normalized Online Learning
(Stéphane+ 13)

s1

s2

................................

wt = (1.0, 2.0, . . . , 5.0)

各特徴量に,最大値保存用のボックスを設置
26

sD
Normalized Online Learning
s1

s2

................................

x2 = (2.0, 1.0, . . . , 5.0)

wt = (1.0, 2.0, . . . , 5.0)

データを一つランダムにピックアップ
27

sD
Normalized Online Learning
s1

s2

................................

x2 = (2.0, 1.0, . . . , 5.0)

wt = (1.0, 2.0, . . . , 5.0)

選択したデータの各特徴量の値が
最大値を超えていないかチェック
28

sD
Normalized Online Learning
2.0

s2

................................

sD

If 2.0 > s1
x2 = (2.0, 1.0, . . . , 5.0)
1.0 ? s2
1
wt = (
2 , 2.0, . . . , 5.0)
2.0

もし超えていたら,正規化せずに過去データを
処理してしまった分,重みを補正
29
Normalized Online Learning
2.0

................................

s2
wt+1 = wt

sD

?t g (@f2 (wt ), s1:D )

x2 = (2.0, 1.0, . . . , 5.0)

あとは,サンプルしてきたデータを使って,
正規化しながら確率的勾配法でアップデート
30
Normalized Online Learning
? オンライン処理しながら自動で正規化
? スケールを(あまり)気にせず,SGDを回せるように!
? スケールも敵対的に設定されるRegret Boundの証明付き
Algorithm 1 NG(learning rate ?t )

Algorithm 2 NAG(learning rate ?)

1. Initially wi = 0, si = 0, N = 0

1. Initially wi = 0, si = 0, Gi = 0, N

2. For each timestep t observe example (x, y)

2. For each timestep t observe example

(a) For each i, if |xi | > si

(a) For each i, if |xi | > si
wi si
i. wi
|xi |
ii. si
|xi |
P
(b) y = i wi xi
?
P x2
i
(c) N
N + i s2

wi s2
i
|xi |2

i. wi
ii. si
|xi |
P
(b) y = i wi xi
?
P
(c) N
N+ i
(d) For each i,
i. wi
wi

x2
i
2
si

(d) For each i,

y ,y)
t
?t N s1 @L(?i
2
@w
i

31

i. Gi

Gi +

ii. wi

wi

i

?

@L(?,y)
y
@wi

(Stéphane+ 13)より q t
?

N si

?2

1
p

@L
Gi @
4. Linear Convergence SGD

32
線形収束するSGD

?Plain SGDの収束速度
p
一般的な条件の下で凸関数 O(1/ T )
?
O(1/T )
滑らかで強凸
?
?使用データが予め固定されている場合
SGD+αで線形収束が可能に O(c )
?
?厳密な最適解を得たい場合もSGD+α
?
f (w)

f (w? )

T

33
Stochastic Average Gradient
(Le Roux+ 12)

x1

x2

................................ xN

wt
34
Stochastic Average Gradient
x1

x2

@f1 (·) @f2 (·)

................................ xN

................................ @fN (·)

wt
各データに,勾配保存用のボックスを一つ用意
35
Stochastic Average Gradient
x1

x2

@f1 (·) @f2 (·)

................................ xN

................................ @fN (·)

wt
データを一つランダムにピックアップ
36
Stochastic Average Gradient
x1

x2

@f2 (wold )
@f1 (·)

................................ xN

昔の勾配はステル

@f2 (wt )

................................ @fN (·)

wt
選んだデータに対応する勾配情報を更新
37
Stochastic Average Gradient
x1

x2

................................ xN

新しい勾配もあれば

@f1 (·)

古い勾配もある

................................ @fN (·)

@f2 (wt )

wt+1 = wt

N
X
?t
@fn (·)
N n=1

全勾配情報を使って,重みベクトルを更新
38
線形収束するSGD

?
?線形予測器ならば,一データにつきスカラー
f が強凸かつ各 fn (·) が滑らかな時,線形収束

(?oat/double)を一つ持てば良い

?正則化項を加えたい場合
?SAGでは,L1を使ったスパース化の収束性は
未証明 (近接勾配法)

?SDCA [Shalev+ 13], MISO[Mairal 13]
39
まとめ
? SGD+α
? ステップ幅設定/自動正規化/線形収束化
? その他,特徴適応型のステップ幅調整/省メモリ化
等,SGD拡張はまだまだ終わらない

? フルスタックなSGDピザが出来る..?
? 近いうちに,ソルバーの裏側でよしなに動いてくれ
る..はず?

? そんなソルバーを募集中
40
参考文献
?

L. Bottou, O.Bousquet, The Tradeo?s of Large-Scale Learning , Optimization for
Machine Learning, 2011.

?
?

L. Bottou, Stochastic Gradient Descent Tricks , Neural Networks, 2012.
Nikos Karampatziakis, John Langford, "Online Importance Weight Aware Updates", UAI,
2011.

?

John C. Duchi, Elad Hazan, Yoram Singer, "Adaptive Subgradient Methods for Online
Learning and Stochastic Optimization", JMLR, 2011.

?

Tom Schaul, Sixin Zhang and Yann LeCun., "No more Pesky Learning Rates", ICML,
2013.

?
?

Stéphane Ross, Paul Mineiro, John Langford, "Normalized Online Learning", UAI, 2013.
Nicolas Le Roux, Mark Schmidt, Francis Bach, Stochastic Gradient Method with an
Exponential Convergence Rate for Finite Training Sets , NIPS, 2012.

?

Shai Shalev-Shwartz, Tong Zhang, Stochastic Dual Coordinate Ascent Methods for
Regularized Loss Minimization , JMLR, 2013.

?

Julien Mairal, Optimization with First-Order Surrogate Functions , ICML, 2013.
41
Ad

Recommended

笔颁础の最终形态骋笔尝痴惭の解説
笔颁础の最终形态骋笔尝痴惭の解説
弘毅 露崎
?
スハ?ースモデリング入门
スハ?ースモデリング入门
Hideo Terada
?
深层强化学习の分散化?搁狈狈利用の动向?搁2顿2の绍介をもとに?
深层强化学习の分散化?搁狈狈利用の动向?搁2顿2の绍介をもとに?
Jun Okumura
?
変分ベイズ法の説明
変分ベイズ法の説明
Haruka Ozaki
?
机械学习におけるオンライン确率的最适化の理论
机械学习におけるオンライン确率的最适化の理论
Taiji Suzuki
?
ICML 2021 Workshop 深層学習の不確実性について
ICML 2021 Workshop 深層学習の不確実性について
tmtm otm
?
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習
Deep Learning JP
?
笔搁惭尝の线形回帰モデル(线形基底関数モデル)
笔搁惭尝の线形回帰モデル(线形基底関数モデル)
Yasunori Ozaki
?
Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)
Shohei Taniguchi
?
笔搁惭尝第6章「カーネル法」
笔搁惭尝第6章「カーネル法」
Keisuke Sugawara
?
深层学习による非滑らかな関数の推定
深层学习による非滑らかな関数の推定
Masaaki Imaizumi
?
はじめての碍谤测濒辞惫部分空间法
はじめての碍谤测濒辞惫部分空间法
tmaehara
?
[DL輪読会]Recent Advances in Autoencoder-Based Representation Learning
[DL輪読会]Recent Advances in Autoencoder-Based Representation Learning
Deep Learning JP
?
多様な强化学习の概念と课题认识
多様な强化学习の概念と课题认识
佑 甲野
?
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?
Masanao Ochi
?
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
?
勾配降下法の 最適化アルゴリズム
勾配降下法の 最適化アルゴリズム
nishio
?
フ?ースティンク?入门
フ?ースティンク?入门
Retrieva inc.
?
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
Deep Learning JP
?
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
Kota Matsui
?
クラシックな机械学习入门:付録:よく使う线形代数の公式
クラシックな机械学习入门:付録:よく使う线形代数の公式
Hiroshi Nakagawa
?
敌対的学习に対するラデマッハ复雑度
敌対的学习に対するラデマッハ复雑度
Masa Kato
?
罢别苍蝉辞谤贵濒辞飞で逆强化学习
罢别苍蝉辞谤贵濒辞飞で逆强化学习
Mitsuhisa Ohta
?
変分推論と Normalizing Flow
変分推論と Normalizing Flow
Akihiro Nitta
?
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
Deep Learning JP
?
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
?
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
Deep Learning JP
?
プロダクション環境でオンラインで機械学習を動かすにあたってツライ話 #MLCT
プロダクション環境でオンラインで機械学習を動かすにあたってツライ話 #MLCT
Tokoroten Nakayama
?

More Related Content

What's hot (20)

Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)
Shohei Taniguchi
?
笔搁惭尝第6章「カーネル法」
笔搁惭尝第6章「カーネル法」
Keisuke Sugawara
?
深层学习による非滑らかな関数の推定
深层学习による非滑らかな関数の推定
Masaaki Imaizumi
?
はじめての碍谤测濒辞惫部分空间法
はじめての碍谤测濒辞惫部分空间法
tmaehara
?
[DL輪読会]Recent Advances in Autoencoder-Based Representation Learning
[DL輪読会]Recent Advances in Autoencoder-Based Representation Learning
Deep Learning JP
?
多様な强化学习の概念と课题认识
多様な强化学习の概念と课题认识
佑 甲野
?
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?
Masanao Ochi
?
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
?
勾配降下法の 最適化アルゴリズム
勾配降下法の 最適化アルゴリズム
nishio
?
フ?ースティンク?入门
フ?ースティンク?入门
Retrieva inc.
?
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
Deep Learning JP
?
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
Kota Matsui
?
クラシックな机械学习入门:付録:よく使う线形代数の公式
クラシックな机械学习入门:付録:よく使う线形代数の公式
Hiroshi Nakagawa
?
敌対的学习に対するラデマッハ复雑度
敌対的学习に対するラデマッハ复雑度
Masa Kato
?
罢别苍蝉辞谤贵濒辞飞で逆强化学习
罢别苍蝉辞谤贵濒辞飞で逆强化学习
Mitsuhisa Ohta
?
変分推論と Normalizing Flow
変分推論と Normalizing Flow
Akihiro Nitta
?
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
Deep Learning JP
?
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
?
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
Deep Learning JP
?
Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)
Shohei Taniguchi
?
笔搁惭尝第6章「カーネル法」
笔搁惭尝第6章「カーネル法」
Keisuke Sugawara
?
深层学习による非滑らかな関数の推定
深层学习による非滑らかな関数の推定
Masaaki Imaizumi
?
はじめての碍谤测濒辞惫部分空间法
はじめての碍谤测濒辞惫部分空间法
tmaehara
?
[DL輪読会]Recent Advances in Autoencoder-Based Representation Learning
[DL輪読会]Recent Advances in Autoencoder-Based Representation Learning
Deep Learning JP
?
多様な强化学习の概念と课题认识
多様な强化学习の概念と课题认识
佑 甲野
?
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?
Masanao Ochi
?
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
?
勾配降下法の 最適化アルゴリズム
勾配降下法の 最適化アルゴリズム
nishio
?
フ?ースティンク?入门
フ?ースティンク?入门
Retrieva inc.
?
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
Deep Learning JP
?
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
Kota Matsui
?
クラシックな机械学习入门:付録:よく使う线形代数の公式
クラシックな机械学习入门:付録:よく使う线形代数の公式
Hiroshi Nakagawa
?
敌対的学习に対するラデマッハ复雑度
敌対的学习に対するラデマッハ复雑度
Masa Kato
?
罢别苍蝉辞谤贵濒辞飞で逆强化学习
罢别苍蝉辞谤贵濒辞飞で逆强化学习
Mitsuhisa Ohta
?
変分推論と Normalizing Flow
変分推論と Normalizing Flow
Akihiro Nitta
?
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
Deep Learning JP
?
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
?
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
Deep Learning JP
?

Viewers also liked (6)

プロダクション環境でオンラインで機械学習を動かすにあたってツライ話 #MLCT
プロダクション環境でオンラインで機械学習を動かすにあたってツライ話 #MLCT
Tokoroten Nakayama
?
クラシックな機械学習の入門 6. 最適化と学習アルゴリズム
クラシックな機械学習の入門 6. 最適化と学習アルゴリズム
Hiroshi Nakagawa
?
20151112 kutech lecture_ishizaki_public
20151112 kutech lecture_ishizaki_public
Kazuaki Ishizaki
?
线形?非线形?
线形?非线形?
nishio
?
機械学習プロフェッショナルシリーズ 深層学習 chapter3 確率的勾配降下法
機械学習プロフェッショナルシリーズ 深層学習 chapter3 確率的勾配降下法
zakktakk
?
プロダクション環境でオンラインで機械学習を動かすにあたってツライ話 #MLCT
プロダクション環境でオンラインで機械学習を動かすにあたってツライ話 #MLCT
Tokoroten Nakayama
?
クラシックな機械学習の入門 6. 最適化と学習アルゴリズム
クラシックな機械学習の入門 6. 最適化と学習アルゴリズム
Hiroshi Nakagawa
?
20151112 kutech lecture_ishizaki_public
20151112 kutech lecture_ishizaki_public
Kazuaki Ishizaki
?
线形?非线形?
线形?非线形?
nishio
?
機械学習プロフェッショナルシリーズ 深層学習 chapter3 確率的勾配降下法
機械学習プロフェッショナルシリーズ 深層学習 chapter3 確率的勾配降下法
zakktakk
?
Ad

Similar to SGD+α: 確率的勾配降下法の現在と未来 (20)

20170422 数学カフェ Part1
20170422 数学カフェ Part1
Kenta Oono
?
パターン认识モデル初歩の初歩
パターン认识モデル初歩の初歩
t_ichioka_sg
?
PRML復々習レーン#9 前回までのあらすじ
PRML復々習レーン#9 前回までのあらすじ
sleepy_yoshi
?
Deep learning basics described
Deep learning basics described
Naoki Watanabe
?
bigdata2012ml okanohara
bigdata2012ml okanohara
Preferred Networks
?
PRML Chapter 5 (5.0-5.4)
PRML Chapter 5 (5.0-5.4)
Shogo Nakamura
?
贬测辫别谤辞辫迟とその周辺について
贬测辫别谤辞辫迟とその周辺について
Keisuke Hosaka
?
オンライン凸最适化と线形识别モデル学习の最前线冲滨叠滨厂2011
オンライン凸最适化と线形识别モデル学习の最前线冲滨叠滨厂2011
Preferred Networks
?
PRML Chapter 5
PRML Chapter 5
Masahito Ohue
?
A Brief Survey of Schr?dinger Bridge (Part I)
A Brief Survey of Schr?dinger Bridge (Part I)
Morpho, Inc.
?
PRML_from5.1to5.3.1
PRML_from5.1to5.3.1
禎晃 山崎
?
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
harmonylab
?
笔搁惭尝轮読#1
笔搁惭尝轮読#1
matsuolab
?
PATTERN RECOGNITION AND MACHINE LEARNING (1.1)
PATTERN RECOGNITION AND MACHINE LEARNING (1.1)
Yuma Yoshimoto
?
PILCO - 第一回高橋研究室モデルベース強化学習勉強会
PILCO - 第一回高橋研究室モデルベース強化学習勉強会
Shunichi Sekiguchi
?
PRML 5.2.1-5.3.3 ニューラルネットワークの学習 (誤差逆伝播) / Training Neural Networks (Backpropa...
PRML 5.2.1-5.3.3 ニューラルネットワークの学習 (誤差逆伝播) / Training Neural Networks (Backpropa...
Akihiro Nitta
?
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
hirokazutanaka
?
PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5
sleepy_yoshi
?
Unified Expectation Maximization
Unified Expectation Maximization
Koji Matsuda
?
Prml5 6
Prml5 6
K5_sem
?
20170422 数学カフェ Part1
20170422 数学カフェ Part1
Kenta Oono
?
パターン认识モデル初歩の初歩
パターン认识モデル初歩の初歩
t_ichioka_sg
?
PRML復々習レーン#9 前回までのあらすじ
PRML復々習レーン#9 前回までのあらすじ
sleepy_yoshi
?
Deep learning basics described
Deep learning basics described
Naoki Watanabe
?
贬测辫别谤辞辫迟とその周辺について
贬测辫别谤辞辫迟とその周辺について
Keisuke Hosaka
?
オンライン凸最适化と线形识别モデル学习の最前线冲滨叠滨厂2011
オンライン凸最适化と线形识别モデル学习の最前线冲滨叠滨厂2011
Preferred Networks
?
A Brief Survey of Schr?dinger Bridge (Part I)
A Brief Survey of Schr?dinger Bridge (Part I)
Morpho, Inc.
?
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
harmonylab
?
笔搁惭尝轮読#1
笔搁惭尝轮読#1
matsuolab
?
PATTERN RECOGNITION AND MACHINE LEARNING (1.1)
PATTERN RECOGNITION AND MACHINE LEARNING (1.1)
Yuma Yoshimoto
?
PILCO - 第一回高橋研究室モデルベース強化学習勉強会
PILCO - 第一回高橋研究室モデルベース強化学習勉強会
Shunichi Sekiguchi
?
PRML 5.2.1-5.3.3 ニューラルネットワークの学習 (誤差逆伝播) / Training Neural Networks (Backpropa...
PRML 5.2.1-5.3.3 ニューラルネットワークの学習 (誤差逆伝播) / Training Neural Networks (Backpropa...
Akihiro Nitta
?
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
hirokazutanaka
?
PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5
sleepy_yoshi
?
Unified Expectation Maximization
Unified Expectation Maximization
Koji Matsuda
?
Ad

More from Hidekazu Oiwa (11)

NIPS2014読み会 NIPS参加報告
NIPS2014読み会 NIPS参加報告
Hidekazu Oiwa
?
ICML2013読み会 Large-Scale Learning with Less RAM via Randomization
ICML2013読み会 Large-Scale Learning with Less RAM via Randomization
Hidekazu Oiwa
?
Incentive Compatible Regression Learning (Mathematical Informatics Reading)
Incentive Compatible Regression Learning (Mathematical Informatics Reading)
Hidekazu Oiwa
?
PoisoningAttackSVM (ICMLreading2012)
PoisoningAttackSVM (ICMLreading2012)
Hidekazu Oiwa
?
Prml9
Prml9
Hidekazu Oiwa
?
Pfi last seminar
Pfi last seminar
Hidekazu Oiwa
?
PRML5
PRML5
Hidekazu Oiwa
?
Arow
Arow
Hidekazu Oiwa
?
NIPS2014読み会 NIPS参加報告
NIPS2014読み会 NIPS参加報告
Hidekazu Oiwa
?
ICML2013読み会 Large-Scale Learning with Less RAM via Randomization
ICML2013読み会 Large-Scale Learning with Less RAM via Randomization
Hidekazu Oiwa
?
Incentive Compatible Regression Learning (Mathematical Informatics Reading)
Incentive Compatible Regression Learning (Mathematical Informatics Reading)
Hidekazu Oiwa
?
PoisoningAttackSVM (ICMLreading2012)
PoisoningAttackSVM (ICMLreading2012)
Hidekazu Oiwa
?

Recently uploaded (7)

Protect Your IoT Data with UbiBot's Private Platform.pptx
Protect Your IoT Data with UbiBot's Private Platform.pptx
ユビボット 株式会社
?
勉強会_ターミナルコマント?入力迅速化_20250620. pptx. .
勉強会_ターミナルコマント?入力迅速化_20250620. pptx. .
iPride Co., Ltd.
?
Vibe Codingを始めよう ?Cursorを例に、ノーコードでのプログラミング体験?
Vibe Codingを始めよう ?Cursorを例に、ノーコードでのプログラミング体験?
iPride Co., Ltd.
?
PGConf.dev 2025 参加レポート (JPUG総会併設セミナー2025 発表資料)
PGConf.dev 2025 参加レポート (JPUG総会併設セミナー2025 発表資料)
NTT DATA Technology & Innovation
?
础滨技术共有会2025-06-05冲顿别别辫搁别蝉别补谤肠丑の理解と実践.辫诲蹿
础滨技术共有会2025-06-05冲顿别别辫搁别蝉别补谤肠丑の理解と実践.辫诲蹿
Takuma Oda
?
色について.pptx .
色について.pptx .
iPride Co., Ltd.
?
やってみた!OpenAI Function Calling 入門 .
やってみた!OpenAI Function Calling 入門 .
iPride Co., Ltd.
?
Protect Your IoT Data with UbiBot's Private Platform.pptx
Protect Your IoT Data with UbiBot's Private Platform.pptx
ユビボット 株式会社
?
勉強会_ターミナルコマント?入力迅速化_20250620. pptx. .
勉強会_ターミナルコマント?入力迅速化_20250620. pptx. .
iPride Co., Ltd.
?
Vibe Codingを始めよう ?Cursorを例に、ノーコードでのプログラミング体験?
Vibe Codingを始めよう ?Cursorを例に、ノーコードでのプログラミング体験?
iPride Co., Ltd.
?
PGConf.dev 2025 参加レポート (JPUG総会併設セミナー2025 発表資料)
PGConf.dev 2025 参加レポート (JPUG総会併設セミナー2025 発表資料)
NTT DATA Technology & Innovation
?
础滨技术共有会2025-06-05冲顿别别辫搁别蝉别补谤肠丑の理解と実践.辫诲蹿
础滨技术共有会2025-06-05冲顿别别辫搁别蝉别补谤肠丑の理解と実践.辫诲蹿
Takuma Oda
?
やってみた!OpenAI Function Calling 入門 .
やってみた!OpenAI Function Calling 入門 .
iPride Co., Ltd.
?

SGD+α: 確率的勾配降下法の現在と未来