狠狠撸

エヌビディア合同会社ディープラーニング部
部長井﨑武士
NVIDIA GPUが加速するディープラーニングと
最新事例

創業1993年
共同創立者兼CEO ジェンスン?フアン
（Jen-Hsun Huang）
1999年 NASDAQに上場（NVDA）
1999年にGPUを発明
その後の累計出荷台数は10億個以上
2015年度の売上高は46億8,000万ドル
社員は世界全体で9,100人
約7,300件の特許を保有
本社は米国カリフォルニア州サンタクララ

自動車HPC&Cloudエンタープライズ
グラフィックス
ゲーミング
GEFORCE
SHIELD
QUADRO
QUADRO VCA
Tesla
GRID
JETSON
DRIVE
インテリジェントマシン

広がるGPUコンピューティング
2008 2016
15万
CUDA Downloads
4,000
Academic Papers
60
Universities
Teaching
77
Supercomputing
Teraflops
3700万
CUDA GPUs
27
CUDA Apps
350万 CUDA Downloads
400 CUDA Apps
950 Universities Teaching
77,500 Academic Papers
77,000 Supercomputing Teraflops
6億3800万 CUDA GPUs

0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
2009 2010 2011 2012 2013 2014 2015 2016
ディープラーニングの目覚しい進化
Baidu の Deep Speech 2
人間を超える
多くのディープラーニングフレームワーク
が発表
IMAGENET
正答率
従来 CV 手法ディープラーニング
DeepMindのAlphaGoが囲碁で
世界チャンピオンを越える
トヨタ自動車が人工知能研究所に
1200億円投資
Atomwiseがエボラウィルスの感染力を
低減する可能性のある2つの新薬を開発
UCバークレーが作業を自ら学ぶ
ロボットを開発

新たなコンピューティングモデル
従来のコンピュータビジョン
特定領域の専門家が特徴検出を設計
品質 = アルゴリズムのパッチワーク
コンピュータビジョンの専門家と時間が必要
ディープラーニングの物体検出
大量のデータからDNNが特徴を学習
品質 = データ & 学習手法
大量のデータと演算能力が必要

木
猫
犬
ディープラーニングソフトウェア
“亀”
フォワードプロパゲーション
“亀” から “犬” へ
計算の重み付けを更新
バックワードプロパゲーション
学習済みモデル
“猫”
反復
トレーニング
推論

様々な分野でディープラーニングを応用
インターネットとクラウド
画像分類
音声認識
言語翻訳
言語処理
感情分析
推薦
メディアとエンターテイメント
字幕
ビデオ検索
リアルタイム翻訳
機械の自動化
歩行者検出
白線のトラッキング
信号機の認識
セキュリティと防衛
顔検出
ビデオ監視
衛星画像
医学と生物学
癌細胞の検出
糖尿病のランク付け
創薬

なぜ骋笔鲍がディープラーニングに向いているか

ディープラーニングを加速する3つの要因
“The GPU is the workhorse of modern A.I.”
ビッグデータ GPUDNN

典型的なネットワーク例
多量なトレーニングデータと多数の行列演算
目的
顔認識
トレーニングデータ
1,000万～1億イメージ
ネットワークアーキテクチャ
10 層
10 億パラメータ
ラーニングアルゴリズム
30 エクサフロップスの計算量
GPU を利用して30日

CNN: Convolution neural network
LeNet5 [LeCun et al.,1998]

FULL CONNECTION
Forward
Layer 1 Layer 2 Layer 3 Layer 4

FULL connection
?? ?? = ?? ?
??
(?? ?? ?? × ?? ?? )
x[N] y[M]
w[N][M]

FULL connection
x[N] y[M]
w[N][M]
x =
w[N][M] x[N] y[M]
Matrix Vector
?? ?? = ?? ?
??
(?? ?? ?? × ?? ?? )
メモリバンド幅で性能が決まる
Xeon E5-2690v3 Tesla M40
68GB/s 288 GB/s

FULL connection (Mini-BATCH)
x[N] y[M]
w[N][M]
x =
w[N][M] x[N] y[M]
Matrix Vector
?? ?? = ?? ?
??
(?? ?? ?? × ?? ?? )

FULL connection (Mini-BATCH)
x[K][N] y[K][M]
w[N][M]
x =
w[N][M] x[K][N] y[K][M]
Matrix Matrix
高い演算能力を発揮できる
??[??] ?? = ?? ?
??
(?? ?? ?? × ??[??] ?? )
Xeon E5-2690v3 Tesla M40
0.88 TFLOPS 7.0 TFLOPS

CONVOLUTIONs
Output feature maps
Input feature map(s)

CONVOLUTIONs
Input feature maps
Output feature maps

CONVOLUTIONs
Direct Convolution
- 膨大な組み合わせ
- それぞれ向けに最適化
するのは困難
FFT
- メモリ負荷が高い
- 柔軟性が低い
Matrix Multiply
Output feature maps
Input feature map(s)

CONVOLUTIONs
I0 I1 I2
I3 I4 I5
I6 I7 I8
F0 F1
F2 F3
Input
Filter
O0 O1
O2 O3
Output

CONVOLUTIONs
I0 I1 I2
I3 I4 I5
I6 I7 I8
F0 F1
F2 F3
Input data
Filter data
F0 F1 F2 F3
I0
I1
I3
I4
I1
I2
I4
I5
I3
I4
I6
I7
I4
I5
I7
I8
Expanded input data
Output data

CONVOLUTIONs
I0 I1 I2
I3 I4 I5
I6 I7 I8
F0 F1
F2 F3
Input data
Filter data
F0 F1 F2 F3
F0 F1
F2 F3
F0 F1 F2 F3
I0
I1
I3
I4
I1
I2
I4
I5
I3
I4
I6
I7
I4
I5
I7
I8
Expanded input data
Output data

CONVOLUTIONs
I0 I1 I2
I3 I4 I5
I6 I7 I8
F0 F1
F2 F3
Input data
Filter data
F0 F1 F2 F3G0 G1 G2 G3
J0
J1
J3
J4
J1
J2
J4
J5
J3
J4
J6
J7
J4
J5
J7
J8
J0 J1 J2
J3 J4 J5
J6 J7 J8
I0
I1
I3
I4
I1
I2
I4
I5
I3
I4
I6
I7
I4
I5
I7
I8
G0 G1
G2 G3
F0 F1
F2 F3
G0 G1
G2 G3
F0 F1 F2 F3G0 G1 G2 G3
Output data

行列演算のサイズ (lenet5)
LeNet5 [LeCun et al.,1998]
OutputsFilter
(Expanded)
Inputs
16
100 * batch size
150
150

行列演算のサイズ (googlenet)
GoogLeNet [Szegedy et al.,2014]
OutputsFilter
(Expanded)
Inputs
192
3136 * batch size
576
576

NVIDIA TESLA GPUによる
機械学習の革命
GOOGLE BRAIN APPLICATION – DEEP LEARNING
TESLA導入前 TESLA導入後
コスト $5,000K $200K
サーバー数 1,000 サーバー 16 Tesla サーバー
消費電力 600 KW 4 KW
性能 1x 6x

学習と推論プラットフォーム
ワークステーションサーバー
NVIDIA Tesla NVIDIA TEGRA
学習
推論
NVIDIA Tesla/DGX-1
オンラインオフライン
X

TESLA M40
ディープラーニングに向けた
最速アクセラレータ
0 1 2 3 4 5
GPU Server with
4x TESLA M40
Dual CPU Server
学習時間を13倍高速化
Number of Days
CUDA コア数 3072
ピーク単精度性能 7 TFLOPS
GDDR5 メモリ 12 GB/24 GB
メモリ帯域 288 GB/s
消費電力 250W
Reduce Training Time from 5 Days to less than 10 Hours
Note: Caffe benchmark with AlexNet, training 1.3M images with 90 epochs
CPU server uses 2x Xeon E5-2699v3 CPU, 128GB System Memory, Ubuntu 14.04
シングルGPUで
最高の単精度演算性能

32
TESLA M4
最高のスループットを持つ
ハイパースケール
アクセラレータ
CUDA コア数 1024
ピーク単精度性能 2.2 TFLOPS
GDDR5 メモリ 4 GB
メモリ帯域 88 GB/s
形状 PCIe Low Profile
消費電力 50 – 75 W
Video
Processing
4x
Image
Processing
5x
Video
Transcode
2x
Machine
Learning
Inference
2x
H.264 & H.265, SD & HD
Stabilization and
Enhancements
Resize, Filter, Search,
Auto-Enhance
Preliminary specifications. Subject to change.
推論用途に最適

33
TEGRA JETSON TX1
モジュール型スーパーコンピューター
主なスペック
GPU 1 TFLOP/s 256コア Maxwell
CPU 64ビット ARM A57 CPU
メモリ 4 GB LPDDR4 | 25.6 GB/s
ストレージ 16 GB eMMC
Wifi/BT 802.11 2x2 ac / BT Ready
ネットワーク 1 Gigabit Ethernet
サイズ 50mm x 87mm
インターフェース 400ピンボード間接続コネクタ
消費電力最大10W
Under 10 W for typical use cases

NVIDIA GPU スケーラブルアーキテクチャ
モバイルからスーパーコンピュータまで
Tesla
In Super Computers
Quadro
In Work Stations
GeForce
In PCs
Mobile
GPU
In Tegra
Tegra

NVIDIA GeForce
NVIDIA Jetson
NVIDIA Tesla
NVIDIA DRIVE PX
deep learning EVERYWHERE

自動運転に求められること
LOCALIZEMAP SEE DRIVE

DRIVE PX AUTO-PILOT
CAR COMPUTER
NVIDIA GPU DEEP LEARNING
SUPERCOMPUTER
Trained
Neural Net Model
Classified Object
!
ONE-ARCHITECTURE ENABLES END-TO-END SOLUTION
Time-consuming Training on Server & Real-Time Recognition on Embedded System
Camera Inputs

2012 20142008 2010 2016 2018
48
36
12
0
24
60
72
Tesla
Fermi
Kepler
Maxwell
Volta
GPU ロードマップ
SGEMM/W
Pascal

倍精度 5.3TF | 単精度 10.6TF | 半精度 21.2TF
TESLA P100
ハイパースケールデータセンターのための
世界で最も先進的な GPU

Tesla P100 の先進テクノロジー
16nm FinFETPascal アーキテクチャ HBM2 積層メモリ NVLink システム
インターコネクト

NVIDIA CONFIDENTIAL. DO NOT DISTRIBUTE.
NVIDIA DGX-1
世界初ディープラーニングスーパーコンピューター
ディープラーニング向けに設計
170 TF FP16
8個 Tesla P100 ハイブリッド?キューブメッシュ
主要なAIフレームワークを加速

IEEE ITSS Nagoya Chapter NVIDIA

NVIDIA Deep Learning プラットフォーム
COMPUTER VISION SPEECH AND AUDIO BEHAVIOR
Object Detection Voice Recognition Translation
Recommendation
Engines
Sentiment Analysis
DEEP LEARNING
cuDNN
MATH LIBRARIES
cuBLAS cuSPARSE
MULTI-GPU
NCCL
cuFFT
Mocha.jl
Image Classification
DEEP LEARNING
SDK
FRAMEWORKS
APPLICATIONS
GPU PLATFORM
CLOUD GPU
Tesla
P100
Tesla
K80/M40/M4
Jetson TX1
SERVER
DGX-1
GIE
DRIVEPX2

ディープラーニングの最新事例

バルセロナ自治大学/仮想世界を用いたセグメンテーション

DEEP LEARNING INSIGHT
従来のアルゴリズムディープラーニング
0%
20%
40%
60%
80%
100%
overall passenger
channel
indoor public area sunny day rainny day winter summer
Pedestrian detection Recall rate
Traditional Deep learning
70
75
80
85
90
95
100
vehicle color brand model sun blade safe belt phone calling
Vehicle feature accuracy increased by Deep Learning
traditional algorithm deep learning
監視カメラ

Princeton University / 3D Object Recognition

狈痴滨顿滨础/ジェスチャー认识

表情による感情認識
?
http://www.affectiva.com/ http://www.emotient.com/

ディープラーニング＋強化学習（行動を学習）
MONOist より
8時間の学習で90%の取得率達成
（熟練者のチューニングに匹敵）
DEEP LEARNING 顿础驰2016讲演资料

Intelligent Voice/CNNを用いた方言分類
NIST LRE Competition
6言語、20方言
アラビア語(エジプト、イラク、レバノン、
マグレビ、標準語)
中国語(広東、北京、上海、台湾)
英語(英国、米国、インド)
フランス語(西アフリカ、ハイチ)
リベリア語（カリブスペイン、ヨーロッパスペイン
ラテンアメリカスペイン、ブラジルポルトガル)
スラブ語(ポーランド、ロシア)
500時間以上のスピーチデータ

スタンフォード大学/Deep Compression

狠狠撸

IEEE ITSS Nagoya Chapter NVIDIA

Recommended

More Related Content

What's hot (20)

Viewers also liked (20)

Similar to IEEE ITSS Nagoya Chapter NVIDIA (20)

IEEE ITSS Nagoya Chapter NVIDIA