Optimization for Machine Learning Chapter4 のsummary
最適化におけるincremental methodを大規模機械学習に応用。その理論。収束性の証明は概略だけ話し、本文に譲りました。
1 of 59
More Related Content
Incremental
1. Chapter 4
Incremental Gradient, Subgradient, and
Proximal Methods for Convex Optimization:
A Survey
Dimitri P. Bertsekas
Optimization for Machine Learning 勉強会 中川研M1 山田直敬
12年5月24日木曜日 1
2. Chapter 4
Incremental Gradient, Subgradient, and
Proximal Methods for Convex Optimization:
A Survey
4.1 Introduction
4.1.1 Some Examples of Additive Cost Problems
4.1.2 Incremental Gradient Methods - Differentiable Problems
4.1.3 Incremental Subgradient Methods - Nondifferentiable Problems
4.1.4 Incremental Proximal Methods
4.2 Incremental Subgradient-Proximal Methods
4.3 Convergence for Methods with Cyclic Order
4.4 Convergence for Methods with Randomized Order
4.5 Some Applications
4.5.1 Regularized Least Squares
4.5.2 Iterated Projection Algorithms
12年5月24日木曜日 2
3. Chapter 4
Incremental Gradient, Subgradient, and
Proximal Methods for Convex Optimization:
A Survey
4.1 Introduction
4.1.1 Some Examples of Additive Cost Problems
4.1.2 Incremental Gradient Methods - Differentiable Problems
4.1.3 Incremental Subgradient Methods - Nondifferentiable Problems
4.1.4 Incremental Proximal Methods
4.2 Incremental Subgradient-Proximal Methods
4.3 Convergence for Methods with Cyclic Order TODAY’S TOPIC
4.4 Convergence for Methods with Randomized Order
4.5 Some Applications
4.5.1 Regularized Least Squares
4.5.2 Iterated Projection Algorithms
12年5月24日木曜日 3
4. Chapter 4
Incremental Gradient, Subgradient, and
Proximal Methods for Convex Optimization:
A Survey
4.1 Introduction
4.1.1 Some Examples of Additive Cost Problems
4.1.2 Incremental Gradient Methods - Differentiable Problems
4.1.3 Incremental Subgradient Methods - Nondifferentiable Problems
4.1.4 Incremental Proximal Methods
4.2 Incremental Subgradient-Proximal Methods
4.3 Convergence for Methods with Cyclic Order
4.4 Convergence for Methods with Randomized Order
4.5 Some Applications
4.5.1 Regularized Least Squares
4.5.2 Iterated Projection Algorithms
12年5月24日木曜日 4
5. Incremental Method Additive
cost Problem
ex.) loss func.
mがとても大きい場合、すべての?(x) を計算してから勾配を求めるの
は高コスト
その代わり? を一つずつ取り、その値を用いて少しずつ更新していく
全部足して計算するよりも性能が良くなる可能性がある。
12年5月24日木曜日 5
6. 直観的な描像
= F(x)
最適性の証明にもこの考え方を用いる
f (x)
F の降下方向にノイズが乗ったも
? の降下方向 のと解釈できる
F(x)
12年5月24日木曜日 6
7. Chapter 4
Incremental Gradient, Subgradient, and
Proximal Methods for Convex Optimization:
A Survey
4.1 Introduction
4.1.1 Some Examples of Additive Cost Problems
4.1.2 Incremental Gradient Methods - Differentiable Problems
4.1.3 Incremental Subgradient Methods - Nondifferentiable Problems
4.1.4 Incremental Proximal Methods
4.2 Incremental Subgradient-Proximal Methods
4.3 Convergence for Methods with Cyclic Order
4.4 Convergence for Methods with Randomized Order
4.5 Some Applications
4.5.1 Regularized Least Squares
4.5.2 Iterated Projection Algorithms
12年5月24日木曜日 7
8. Example 1.1: Least Squares and Inference
f_i(x) = 二乗誤差
(a_i,b_i): given. 特徴ベクトルとラベルの組
xbar : given
12年5月24日木曜日 8
9. Example 1.1: Least Squares and Inference
L1正則化
ニューラルネットワーク
最尤推定、EM
12年5月24日木曜日 9
10. Example 1.2: Dual Optimization in Separable Problems
DUAL
m
導出は同著NONLINEAR本
5.1.6節より
凸関数
12年5月24日木曜日 10
11. Example 4.3:
Minimization of an Expected Value
- Stochastic Programming
m
= ∑ π i H (x,wi )
i=1
Hはxと確率変数w の関数
ただし、wはm通りの可能な値がある(m>>1)
P(w = wi ) = π i i = 1,..., m
このときHの期待値を最小化するようなxを求める
12年5月24日木曜日 11
12. Example 4.3:
Minimization of an Expected Value
- Stochastic Programming
あるいは wi を独立なサン
プルだと思うと、
は E{H (x,w)}の近似である
これもADDITIVE COST PROBLEMの一つ
12年5月24日木曜日 12
13. Example 4.4:
Problems with Many Constraints
制約の数が大きい場合、ペナルティ
関数を用いることで無制約化する
例 十分大きなcを設定
するのがポイント
12年5月24日木曜日 13
14. Example 4.4:
Problems with Many Constraints
{ x ∈? i=1 Xi
m
closed
set
十分大きなγを設定
12年5月24日木曜日 14
15. Example 4.5:
Distributed Incremental Optimization
- Sensor Networks
m
fusion ∑ f (x )
i k
i=1
center
f1 (xk ) f1 (xk )
f2 (xk ) ... ...
... ...
fi (xk )
同期させるため 同期を取らず、
通信のオーバーヘッド大 各センサの関数値を用いてXを決める
12年5月24日木曜日 15
16. Example 4.6:
Weber Problem in Loation Theory
x
(weighted) 1- meansとも解釈できる
12年5月24日木曜日 16
17. Chapter 4
Incremental Gradient, Subgradient, and
Proximal Methods for Convex Optimization:
A Survey
4.1 Introduction
4.1.1 Some Examples of Additive Cost Problems
4.1.2 Incremental Gradient Methods - Differentiable Problems
4.1.3 Incremental Subgradient Methods - Nondifferentiable Problems
4.1.4 Incremental Proximal Methods
4.2 Incremental Subgradient-Proximal Methods
4.3 Convergence for Methods with Cyclic Order
4.4 Convergence for Methods with Randomized Order
4.5 Some Applications
4.5.1 Regularized Least Squares
4.5.2 Iterated Projection Algorithms
12年5月24日木曜日 17
18. Incremental Gradient Methods
に対して、
f_iが微分可能とする(凸性は必要なし)
歴史は長い。”back propagation” もこの形
ikの選び方は周期的に取るか、乱択によって決める
ik = (k mod m) + 1
まんべんなく?f_ikを評価するために、反復数はm回以上取る
12年5月24日木曜日 18
32. Chapter 4
Incremental Gradient, Subgradient, and
Proximal Methods for Convex Optimization:
A Survey
4.1 Introduction
4.1.1 Some Examples of Additive Cost Problems
4.1.2 Incremental Gradient Methods - Differentiable Problems
4.1.3 Incremental Subgradient Methods - Nondifferentiable Problems
4.1.4 Incremental Proximal Methods
4.2 Incremental Subgradient-Proximal Methods
4.3 Convergence for Methods with Cyclic Order
4.4 Convergence for Methods with Randomized Order
4.5 Some Applications
4.5.1 Regularized Least Squares
4.5.2 Iterated Projection Algorithms
12年5月24日木曜日 32
33. Chapter 4
Incremental Gradient, Subgradient, and
Proximal Methods for Convex Optimization:
A Survey
4.1 Introduction
4.1.1 Some Examples of Additive Cost Problems
4.1.2 Incremental Gradient Methods - Differentiable Problems
4.1.3 Incremental Subgradient Methods - Nondifferentiable Problems
4.1.4 Incremental Proximal Methods
4.2 Incremental Subgradient-Proximal Methods
4.3 Convergence for Methods with Cyclic Order
4.4 Convergence for Methods with Randomized Order
4.5 Some Applications
4.5.1 Regularized Least Squares
4.5.2 Iterated Projection Algorithms
12年5月24日木曜日 33
34. 4.5.1 Regularized Least Square
例えばL1正則化だと、
ここで
γ 1 '
fi (x) = x 1 ,hi (x) = (ci x ? di ) とおけば
2
m 2
(SUB)GRADIENT DESCENT
CLOSED FORM
12年5月24日木曜日 34
35. Chapter 4
Incremental Gradient, Subgradient, and
Proximal Methods for Convex Optimization:
A Survey
4.1 Introduction
4.1.1 Some Examples of Additive Cost Problems
4.1.2 Incremental Gradient Methods - Differentiable Problems
4.1.3 Incremental Subgradient Methods - Nondifferentiable Problems
4.1.4 Incremental Proximal Methods
4.2 Incremental Subgradient-Proximal Methods
4.3 Convergence for Methods with Cyclic Order
4.4 Convergence for Methods with Randomized Order
4.5 Some Applications
4.5.1 Regularized Least Squares
4.5.2 Iterated Projection Algorithms
12年5月24日木曜日 35
40. gradient methodが定数ステップサイズ
で収束する条件(Nonlinear本 prop.1.2.3)
{x_k}をgradient method で得られた系列とする。
i.e. x k+1 = x k + α k d k ,where?F(x k )'d k < 0
F(x)がLipshitz連続
?L > 0,?x, y ∈? , ?F(x) ? ?F(y) ≤ L x ? y
n
2 k 2 2
?c1 ,c2 ,c1 ?F(x ) ≤ ??F(x )'d , d
k k k
≤ c2 ?F(x )
k
このとき gradient descentは次のαで局所最適解
c1 (2 ? ε )
に収束する ε ≤α ≤
L
12年5月24日木曜日 40
41. gradient methodが減衰ステップサイズで
収束する条件(Nonlinear本 prop.1.2.4)
{x_k}をgradient method で得られた系列とする。
i.e.
x k+1
= x + α d ,where?F(x )'d < 0
k k k k k
F(x)がLipshitz連続 ?L > 0,?x, y ∈? n , ?F(x) ? ?F(y) ≤ L x ? y
2 k 2 2
?c1 ,c2 ,c1 ?F(x ) ≤ ??F(x )'d , d
k k k
≤ c2 ?F(x )
k
∞
減衰ステップサイズ α → 0,
k
∑α k
=∞
k=0
このとき gradient descentは最適値F*に収束する
inf F(x) = F *
x∈X
12年5月24日木曜日 41
42. 驳谤补诲颈别苍迟に误差が乗っている场合の
収束性について
gradientが正確に計算できず、エラー付きでしか得られない場合の
更新式は次のようになる。
g = ?F(x ) + e
k k k
x k+1
= x ?α g
k k k
≤ δ ならば、収束先の値は F + O(δ )
*
eが有界 すなわち ?k, e k
となる。
eがstepsizeに比例する場合、すなわち ek ≤ α k q のとき、
α->0で収束先はF*に一致する
一般論おわり
12年5月24日木曜日 42