狠狠撸

狠狠撸Share a Scribd company logo
超高精細映像のための畳み込み
ニューラルネットワークによるフォーカス補正
Focus Correction by Convolutional Neural Network
for Ultra High Definition Television
松永 力
Chikara Matsunaga
株式会社朋栄 佐倉研究開発センター
Sakura R&D Center, FOR-A Co., Ltd.
E-mail: matsunaga@for-a.co.jp
SSII2016 IS2-01:
2016年6月9日(木)
4K?8K推進のためのロードマップ4K?8K推進のためのロードマップ
総務省「4K?8Kロードマップに関するフォローアップ会合(第6回会合)配布資料」,平成27年7月.
http://www.soumu.go.jp/main_sosiki/kenkyu/4k8kroadmap/02ryutsu11_03000046.html
2016年6月9日(木)
4K/8K超高精細映像の撮影には,フォーカスの調整が厳格に求められるが,
映像の高解像度化により,フォーカス調整は格段に難しくなっている.
撮影後にフォーカスずれが確認されることも少なくない.
研究の概要研究の概要
● 4K/8K(スーパーハイビジョン)超高精細映像におけるフォーカスずれ
を補正することを目的として,畳み込みニューラルネットワークによる
デブラー処理を行う.
● 畳み込みニューラルネットワークによるデブラー処理の復元性能,
ノイズ耐性を評価する.さらに,1パスビデオ超像における非線形
エンハンサ処理,真の画像との二乗誤差を最小化するウィーナーフィルタ
による結果と比較する.
2016年6月9日(木)
+
INPUT
DoG
NL[DoG]
Clip[I(x)]
Min/Max
Search
OUTPUT
Min/Max
松永 力, 時間空間方向性補間とマルチスケール非線形エンハンサによる1パスビデオ超解像,
第20回画像センシングシンポジウム(SSII2014)講演論文集, 横浜(パシフィコ横浜), 2014年6月.
1パスビデオ超解像における非線形エンハンサ1パスビデオ超解像における非線形エンハンサ
2016年6月9日(木)
1パスビデオ超解像における非線形エンハンサ1パスビデオ超解像における非線形エンハンサ
2016年6月9日(木)
とすると,画像 の DoGフィルタは,
ここで, は符号関数であり, は,2以上の定数である.
エッジの検出にはガウシアン差分(Difference of Gaussian, DoG)
フィルタを用いる.
DoGフィルタにより検出されたエッジ成分をレベルに関する非線形操作により
高周波成分を拡張して,原画像に加える.レベルに関する非線形操作としては,
である(ただし,1次元の場合).ここで, は畳み込み演算であり,
である.
Σ
学習用画像における復元画像(デブラー画像)と出力期待画像(真の画像)
との間の差分二乗和が最小になるように,パラメータを推定(学習)する.
畳み込みニューラルネットワーク畳み込みニューラルネットワーク
2016年6月9日(木)
赤枠で囲った6枚を学習用画像,残りの18枚を評価用画像として用いた.
Kodak Lossless True Color Image Suite, http://r0k.us/graphics/kodak/
学習用画像/評価用画像学習用画像/評価用画像
2016年6月9日(木)
ガウシアン平滑化
真の画像(出力期待画像) ガウシアン平滑化画像(入力画像)
学習用画像/評価用画像学習用画像/評価用画像
2016年6月9日(木)
学習アルゴリズム(1)学習アルゴリズム(1)
2016年6月9日(木)
値を定めるべきパラメータすべてに通し番号を付けて
次元ベクトル
を次のように定義する.
ある初期値 を定め,次の確率的勾配降下法に
よって を定める.
ここに は微小な学习係数である.
学習アルゴリズム(2)学習アルゴリズム(2)
2016年6月9日(木)
パラメータ更新を加速させるためには,次のような
モーメンタム法を用いるとよい.
モーメンタム係数 は, に設定する.
→ パラメータに対する巡回型フィルタと见なすことができる.
学習アルゴリズム(3)学習アルゴリズム(3)
2016年6月9日(木)
学習係数 を反復回数により指数関数的に減少させるとよい.
反復回数1万回以上の場合,初期学習係数 の1/10を反復回数
により指数関数的に減少させて,反復回数10万回で
とするためには,
として,時定数 とすればよい.
ここで, は真の画像, はガウシアン平滑化入力画像,
はデブラー復元画像である.
ISNRは,復元処理によるSN比の改善度を測るものである.
(a) 学習曲線(右上の全体の様子を拡大して表示). (b) 反復回数に対する学習用画像
(training),および評価用画像(test)の復元結果の平均ISNR[dB].いずれも横軸は反復
回数であり,対数目盛である.エラーバーは標準偏差である.反復回数98,500回で評価用
画像の復元結果の平均ISNRが最大であった.
(a) (b)
画像シミュレーション結果画像シミュレーション結果
2016年6月9日(木)
左からガウシアン平滑化入力画像(σ = 1.0),デブラー復元画像(ISNR = 5.33 [dB]),
および真の画像(出力期待画像).それらのFFT処理2値化画像(しきい値100).
画像シミュレーション結果画像シミュレーション結果
2016年6月9日(木)
画像シミュレーション結果画像シミュレーション結果
2016年6月9日(木)
左からガウシアン平滑化入力画像(σ = 1.0),デブラー復元画像(ISNR = 5.54 [dB]),
および真の画像(出力期待画像).それらのFFT処理2値化画像(しきい値100).
(a) 特徴マップのひとつの入力畳み込み重みパラメータ
の画像表示, (b) 2次元周波数特性の3次元プロット.
(a) (b)
画像シミュレーション結果画像シミュレーション結果
2016年6月9日(木)
(a) (b)
(c)
ガウシアン平滑化(σ = 0.8?1.2)に対する
評価用画像18枚の復元結果の平均ISNR[dB].
画素値に加えた正規ノイズレベルσNが0.5, 1.0
の結果も示す.エラーバーは標準偏差である.
(a) 畳み込みニューラルネットワーク,
(b) 非線形エンハンサ, (c) ウィーナーフィルタ
による結果である.
画像シミュレーション結果画像シミュレーション結果
2016年6月9日(木)
復元方法 σN = 0.0 σN = 0.5 σN = 1.0
CNN 6.15 (±0.66) 3.65 (±1.28) 0.75 (±1.78)
NLEnh 3.29 (±0.33) 2.60 (±0.48) 1.08 (±1.01)
Wiener 6.59 (±0.95) 2.53 (±1.76) ?1.18 (±2.09)
ガウシアン平滑化画像(σ = 1.0)に加えた正規ノイズレベルσN に対する復元結果.
評価用画像18枚の平均ISNR[dB](括弧内は標準偏差).畳み込みニューラルネットワーク
(CNN)による復元結果とともに,非線形エンハンサ(NLEnh),ウィーナーフィルタ(Wiener)
による結果も示す.
画像シミュレーション結果画像シミュレーション結果
2016年6月9日(木)
原画像
ブラー
フィルタ + 出力画像
ノイズ
となるような, を求めるフィルタ.周波数領域で考えると,
ここで, は の複素共役,
はそれぞれノイズ成分,真の画像のパワースペクトル密度である.
ウィーナーフィルタウィーナーフィルタ
2016年6月9日(木)
N. Wiener, Extrapolation, interpolation, and smoothing of stationary time series:
with engineering applications, John Wiley & Sons. Inc., New York, 1949.
ReLU活性化関数と半波整流正弦波ReLU活性化関数と半波整流正弦波
2016年6月9日(木)
# ReLU活性化関数は“半波整流器(ダイオード)”
と見なせる.
ReLU活性化関数結果のフーリエ級数展開ReLU活性化関数結果のフーリエ級数展開
2016年6月9日(木)
# 偶数次の高調波成分が発生している.
畳み込みニューラルネットワークによるデブラー処理とは?畳み込みニューラルネットワークによるデブラー処理とは?
2016年6月9日(木)
入力画像を畳み込みフィルタによりエッジ強調したものを,
非線形の活性化関数により高周波成分を復元する.
→ (学習用画像における最小二乗の意味で)
最適非線形エンハンサ
+
INPUT
DoG
NL[DoG]
Clip[I(x)]
Min/Max
Search
OUTPUT
Min/Max
松永 力, 時間空間方向性補間とマルチスケール非線形エンハンサによる1パスビデオ超解像,
第20回画像センシングシンポジウム(SSII2014)講演論文集, 横浜(パシフィコ横浜), 2014年6月.
1パスビデオ超解像における非線形エンハンサ1パスビデオ超解像における非線形エンハンサ
2016年6月9日(木)
2016年6月9日(木)
符号付き冪乗関数(1)符号付き冪乗関数(1)
# 3次高調波成分が発生している.
例えば, とすると,
3倍角の公式より, だから,
2016年6月9日(木)
符号付き冪乗関数(2)符号付き冪乗関数(2)
例えば, とすると,
まとめと今後の課題まとめと今後の課題
2016年6月9日(木)
● 4K/8K超高精細映像におけるフォーカスずれを補正することを
目的として,畳込みニューラルネットワークによるデブラー処理を
行った.
● 畳み込みニューラルネットワークによるデブラー処理の復元性能,
ノイズ耐性を評価した.さらに,1パスビデオ超解像における非線形
エンハンサ処理,最小二乗の意味において最適なウィーナーフィルタ
による結果と比較した.
● ネットワーク構成の最適化,深層化による復元性能,ノイズ耐性の向上
● 学習速度の向上のためのGPU利用
● GPU,FPGA実装による4K/8K映像のリアルタイム処理

More Related Content

超高精細映像のための畳み込み ニューラルネットワークによるフォーカス補正スライド