狠狠撸

ソニーネットワークコミュニケーションズ株式会社 / ソニー株式会社
シニアマシンラーニングリサーチャー
小林由幸
Deep Learningのもたらす
ゲームチェンジとモノづくり

2
自己紹介
小林由幸
1999年にソニーに入社、2003年より機械学習
技術の研究開発を始め、音楽解析技術「12音
解析」のコアアルゴリズム、認識技術の自動
生成技術「ELFE」などを開発。近年は
「Neural Network Console」を中心にディー
プラーニング関連の技術?ソフトウェア開発
を進める一方、機械学習普及促進や新しいア
プリケーションの発掘にも注力。
こばやしよしゆき

3
28.2 25.8 26.1
16.4
11.7
6.7
3.57
2.99
2.25
1
10
2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020
Top-5ErrorRate[%]
Year
Deep Learning従来型
機械学習
圧倒的な認識性能を示すDeep Learning
従来の性能限界を打ち破り、数々の課題で人を超える性能を達成しつつある
人の認識誤差
？
画像認識における精度向上
年率50%に迫る
誤差の改善

4
圧倒的な認識性能を示すDeep Learning
従来の性能限界を打ち破り、数々の課題で人を超える性能を達成しつつある
音声認識
? 2011年音声認識にDeep Learningを適用し、音声認識誤差を30%前後改善
スマートフォン等で音声認識が一般化する契機に
? 2016年10月 Microsoftは音声認識技術において人間並みの性能を実現したと発表
https://arxiv.org/pdf/1610.05256v1.pdf
囲碁
? 2015年10月 Google傘下のDeep Mindが開発したDeep Learningによる囲碁プログラム
Alpha Goがプロ棋士に勝利
? 2016年3月世界最強棋士の一人である李セドル九段に勝利
? 2017年5月世界棋士レート一位の柯潔に三局全勝
https://ja.wikipedia.org/wiki/AlphaGo

5
Deep Learningとは
脳の学習機能をコンピュータでシミュレーションするニューラルネットワークを用いた技術
神経細胞
人工ニューロン
x1
x2
x3
…
y
? = ? ??x? + b
ニューラルネットワーク
（1960～1990頃）
Deep Learning
(2006～)
0
1
入力層
中間層
出力層
…
…
…
1～2層の中間層
…
…
…
…
…
…
…
入力層出力層
3層～1000以上の中間層
数十Ｍ規模のニューロン数
大規模なニューラルネットワークの
学習が可能になり、大幅に性能向上

6
人の認識性能を超えたことで、機械学習の応用?実用化が急加速
人の認識性能
認識
性能
2015 20182012
応用?
実用化
機械学習を使えば自動化できるが、
人の認識能力にはかなわない。
適用できるシーンは限定的。
Deep Learningは人を超える
認識性能を示す。
さらに速くて安い。
相転移
機械学習は普及期へ。近い将来「あたりまえの技術」になると考えられる

7
Deep Learningを用い、認識機を作成するために必要な作業
…
…
…
…
…
…
…
画像認識機
（Neural Network）
Input：画像 Output：画像認識結果
「2」
1. データセットを用意する
入力と、期待する出力のペアを多数用意
（教材の準備に相当）
2. ニューラルネットワークの構造を
設計する（脳の構造設計に相当）
3. 用意したデータセットで、設計した
ニューラルネットワークを学習する
従来の機械学習手法と比較して、高い性能を実現できると同時に扱いやすい技術でもある
… 「0」
… 「1」
… 「2」
… 「3」
… 「4」
… 「5」
… 「6」
… 「7」
… 「8」
… 「9」

8
ソニーのDeep Learningソフトウェア
Neural Network Libraries
https://nnabla.org/
Neural Network Console
https://dl.sony.com/
import nnabla as nn
import nnabla.functions as F
import nnabla.parametric_functions as PF
x = nn.Variable(100)
t = nn.Variable(10)
h = F.tanh(PF.affine(x, 300, name='affine1'))
y = PF.affine(h, 10, name='affine2')
loss = F.mean(F.softmax_cross_entropy(y, t))
効率的なDeep Learning応用技術の研究開発～実用化、Deep Learning技術者の迅速な育成を目
的に、ソニーグループ内で2011年より活用を進めてきたソフトウェア
様々な特長を兼ね備えた最新世代のDeep Learningフレームワーク商用クオリティのDeep Learning応用技術開発を実現する統合開発環境
Deep Learningを扱うためのソフトウェア環境は急速に整いつつある
17/8/17 Windows版無償公開
18/5/9 クラウド版正式サービス開始 (CPU 10時間まで無料)
17/6/27 オープンソースとして公開
https://github.com/sony/nnabla/

9
Demonstration

10
利用方法実行環境言語 GPUの利用メリットデメリット
1. NNabla Python
CLI
Neural Network
Libraries
Python
(CLI)
Yes 最も簡単低速
2. NNabla Python
API
Python Yes 比較的容易
3. NNabla C++
Runtime
C++ Yes 推論時にPython不要
4. NNabla C
Runtime
C No 非常にコンパクトに組
み込み可能
環境に合わせた最
適化が必要
5. ONNX 対応ソフ
トウェア、ハード
ウェア
各社の提供する
ONNX対応Runtime
環境によ
り様々
環境により
様々
環境により様々現状は互換性の問
題が生じることも
作成したモデル（認識機等）の利用方法
※ NNabla C++ Runtimeからの実行方法 https://github.com/sony/nnabla/tree/master/examples/cpp/mnist_runtime
※ NNabla C Runtimeからの実行方法 https://github.com/sony/nnabla-c-runtime
※ ONNXへのコンバート方法 https://nnabla.readthedocs.io/en/latest/python/file_format_converter/file_format_converter.html
作成したモデルはクラウド、Edgeなど様々な環境で簡単に実行することができる

11
入出力次第で無限に広がるDeep Learningの応用
Deep Learningは汎用技術。応用開発人材の育成と、活用の促進が求められる
…入力出力
実現する機能入力出力
画像認識画像カテゴリ
文章の自動仕分け文章文章カテゴリ
音声認識音声文字列
機械翻訳英単語列日単語列
人工無能（チャット）入力発話の単語列期待応答の単語列
センサ異常検知センサ信号異常度
ロボット制御ロボットのセンサロボットのアクチュエーター
…
実現する機能

12
Deep Learningのソニーグループ内活用事例
画像認識ソニーのエンタテインメントロボット“aibo”（アイボ）『ERS-1000』の
画像認識にNeural Network Librariesが使用されています。aiboの鼻先の魚眼レンズによ
る画像認識においての人物判定から顔トラッキング、充電台認識、一般物体認識などで
積極的に活用され、多彩なセンサーを搭載することで状況に応じたふるまいの表出を可
能にしています
ジェスチャー認識ソニーモバイルコミュニケーションズの「Xperia Ear」の
ヘッドジェスチャー認識機能にNeural Network Librariesが使用されています。「Xperia
Ear」に搭載されているセンサーからのデータを元に、ヘッドジェスチャー認識機能に
より、首を縦や横に振るだけで、「Xperia Ear」に搭載されているアシスタントに対し
て「はい／いいえ」の応答や、着信の応答／拒否、通知の読み上げキャンセル、次／前
のトラックのスキップを行えます
価格推定ソニー不動産の「不動産価格推定エンジン」に、Neural Network
Librariesが使用されています。この技術を核として、ソニー不動産が持つ査定ノウハウ
やナレッジをベースとした独自のアルゴリズムに基づいて膨大な量のデータを解析し、
不動産売買における成約価格を統計的に推定する本ソリューションが実現されました。
本ソリューションは、「おうちダイレクト」や、「物件探索マップ」「自動査定」など、
ソニー不動産の様々なビジネスに活用されています。
既にソニーグループ内で多数の商品化実績。業務効率化にも積極活用

13
Deep Learning事例：Visual Question Answering
画像と、画像に対する質問の2つの入力を元に、質問に対する答えを推定する問題
入力1
画像
入力2
質問文
Sunny
What is the
weather like?
出力
質問に対する答え
入力と出力のペアからなる教示のみを元にニューラルネットワークを学習することで、
（ルールも知識表現もなく）相当複雑な機能を獲得できる
論文：「Multimodal Compact Bilinear Pooling for Visual
Question Answering and Visual Grounding」
Akira Fukui, Dong Huk Park, Daylen Yang, Anna Rohrbach,
Trevor Darrell, Marcus Rohrbach
https://arxiv.org/abs/1606.01847
…
ニューラルネットワーク

14
Deep Learningにより大きく変わる機能開発の概念
従来
機能をモジュールに分解して開発
Deep Learning時代
End-to-end学習
? 必要な機能をモジュールに分解（設計）
? プログラムにより各モジュールを実装
実現できる機能の複雑さ∝プログラム量
? 入力から出力を得る機能をデータからの
学習で直接獲得
実現できる機能の複雑さ∝データ量
高機能、高性能を実現するために求められるものは、設計ノウハウからデータに
構文解析
Visual Question Answering
文章認識画像認識
質問意味理解
回答推定

15
ワークフローの比較
従来の技術開発
? 仕様策定
? 設計（機能ブロックに分解）
? 実装
? デバッグ
? コンパイル
? 調整
? QA
Deep Learningベースの技術開発
? 仕様策定
? 入出力?ネットワークアーキテクチャ設計
? データ収集
? データ収集、ラベルミス修正
? 学習
? データ収集
? テストデータで評価
Deep Learningベースの開発はそのほとんどをデータ関連業務が占めることになる

16
データに取り組まずして、競争力ある機能?性能は実現し得ない時代に
Deep Learningにおけるデータの重要性
Deep Learningにおいて、データの量と質は性能に直結
データ収集には、アルゴリズム検討と同等かそれ以上にコストを割く価値がある
Exploring the Limits of Weakly Supervised Pretraining
(2018/5/2 Facebook)
https://arxiv.org/abs/1805.00932
log(データ数)に対し線形に性能が向上

17
Input Output
Deep Learningが加速するものづくり
従来のアーキテクチャ Deep Learning時代のアーキテクチャ
? 知的機能は性能に限界があった
? 専門スキルが必要
? 多大なメンテコスト
? 知的機能が実用的な性能に
? 誰でも開発可能に
? シンプルなアーキテクチャでメンテが容易
Deep Learningによりモノづくりの敷居はさらに下がる
Neural Net特化型プロセッサ
Neural Network
Hardware
Module
Module
Module
Module
Input Output
#include <stdio.h>
void main()
{
printf("Hello, World!");
}
機能のモジュール分解と
コーディングによる
開発
データによる開発

18
IoT向けスマートセンシングプロセッサ搭載ボード SPRESENSE
https://www.sony.co.jp/SonyInfo/News/Press/201805/18-044/
https://developer.sony.com/develop/spresense/
?乾電池で動作する低消費電力
?ソフトウェアはArduino IDE、Eclipse IDEにて開発可能
?Neural Network Consoleで学習したモデルを簡単に
動作させることができる
CPU ARM? Cortex?-M4F x 6
cores
Maximum Clock
Frequency
156 MHz
SRAM 1.5 MB
Flash Memory 8 MB
ニューラルネットワークを実行するEdge側の環境も急速に整備されつつある

19
Deep Learning時代の”モノ”への期待
センシング
例）IoTセンサ、ドローン
インタラクション
例）ロボット
実世界での人工知能実用化において、”モノ”が果たす役割は大きい
Deep Learningが必要とする
大量のデータの入り口としての”モノ”
?機械における五感に相当
知的な機能によって
人や環境に働きかける”モノ”
?機械における口や手足に相当

20
Deep Learning人材育成
Deep Learningは「習うより慣れろ」。直観的理解が活用促進につながる
ソニーグループでは2017年度時点でグループ内1000人以上の社員がNeural Network Libraries /
Consoleを活用。その後も急速にユーザが増えつつある。 ※社内Deep Learning講習会の様子
2018/9/18より、企業向けにもハンズオンセミナーの提供開始（スターターパック）

21
まとめ
Deep Learningは圧倒的に高い性能を実現するだけではなく、簡単。
既にソフトウェア環境は整いつつあり、近い将来「あたりまえの技術」になる
Deep Learningの開発はデータトリブンなEnd-to-end学習。
データとアイデア次第で高度な機能を効率的に開発することができる
Deep Learningの本質を理解するには「習うより、慣れろ」
Deep Learningを積極活用し、より豊かな社会の実現を

22
参考資料 (1/2)
https://dl.sony.com/ja/
Neural Network Consoleスターターパック（企業向け研修プログラムとテクニカルサポート）
https://dl.sony.com/ja/business/
Neural Network Libraries
https://nnabla.org/ja/
Twitter（Neural Network Libraries / Consoleに関する最新情報など）
@NNC_NNL_jpn
YouTube（デモ、解説、チュートリアル動画など）
https://www.youtube.com/channel/UCRTV5p4JsXV3YTdYpTJECRA
SPRESENSE
https://developer.sony.com/develop/spresense/

23
参考資料 (2/2)
CQ出版社より発売のインターフェイス誌 2019年1月号の特集、
「小型リアルタイム組み込み人工知能」第一部にて、Neural Network
Libraries / Consoleを使った認識機の学習から、SPRESENSEほか小型マ
イコンで動作させるまでの流れが解説されています。
組み込み用途での利用を検討されている方にお勧めです。
リックテレコム社より発売の「ソニー開発のNeural Network Console入
門 --数式なし、コーディングなしのディープラーニング」が改訂され、
クラウド対応版になりました。
Neural Network Consoleを用いた異常検知、文章分類の方法についても
紹介されています。

SONYはソニー株式会社の登録商標または商標です。
各ソニー製品の商品名?サービス名はソニー株式会社またはグループ各社の登録商標または商標です。その他の製品および会社名は、各社の商号、登録商標または商標です。

狠狠撸

20190316_Deep learning brings game change and manufacturing

More Related Content

20190316_Deep learning brings game change and manufacturing

Editor's Notes