狠狠撸

狠狠撸Share a Scribd company logo
OpenHyperScale勉強会 #4
@Fujitsu
いつもの
ポリシー
? GPU as a Serviceを実現する技術を見つける
? みんなで勉強しましょう
– 発表の形式は不問
– これがしたい/している/わからないでもOK
? 分からないこと、気になることはどんどん、質問
これまで
? 2016.05.26 #1 @NVIDIA Japan
? 2016.06.30 #2 @Fujitsu
? 2016.07.28 #3 @NVIDIA Japan
? 2016.09.02 #4 @Fujitsu <- イマココ
アジェンダ
? 社内でDeep Learning布教活動
? DGX-1開封の儀, DIGITS4プレビュー
? Apache 惭别蝉辞蝉で学习タスクの実行
? Apache SparkとAmazon DSSTNE事例に見る
Deep Learningジョブ管理アーキテクチャのご
紹介
Apache Mesosで
学習タスクの実行
大野 祐理
Deep Learningの用途
パラメータ探索
パラメータ探索フェーズ (長期実行タスク; DIGITS, Jupyter)
指標の確認/デバッグ
学習の実行
タスクの投入
バッチ実行フェーズ (One-offタスク)
指標の確認
学習の実行
v1.0.0 2016/7/27リリース
Apache Mesos仕組み
Ref) http://mesos.apache.org/documentation/latest/architecture/
Marathon Chronos
# ../configure –-enable-nvidia-gpu-support → オプションがない!
# mesos-agent –isolation=“gpu/nvidia” → GPUが認識されない!
Ref) http://schd.ws/hosted_files/mesosconna2016/b9/GPU%20Support%20in%20Mesos.pdf
問題1 GPUが認識しない
# mesos-agent --master=(Mesos-master):5050 --work_dir=/var/lib/mesos/slaves
--isolation=cgroups/devices,gpu/nvidia
問題1 GPUが認識しない
Marathonはv1.3.0-RC1でマージ済み。
Chronosは...しばらくメンテナンスされていない模様。 Metronomeはどうか?
問題2 FrameworkでGPUが指定できない
颁笔鲍ですが、デモ
Dockerコンテナで学習
学習実行
スクリプト
ネットワーク
定義
データ
取得
スクリプト
学習実行
スクリプト
ネットワーク
定義
データ
取得
スクリプト
volume
をマウント
コンテナ
実行
ホスト
なぜDocker?
× 複数台のサーバを用意するため、メンテナン
スが容易でない
× 起動がコンテナに比べ遅い
× タスクの振り分け先がVM毎になるので、集
中する
○ 環境の組み合わせの用意が比較的簡単で
ある
○ サーバの台数が少なくて済む(高密度に集
約可能)
○ 起動がVMに比べ早い
cuda8.0
Caffe
cuda7.5
Chainer
cuda8.0
Chaier
cuda7.5
Caffe
Ubunt
14.04
Cuda
7.5
Cuda
8.0
Caffe Chainer Caffe
コンテナを起動
題材
? MNIST(エムニスト)と呼ばれる手書き文字のデータセット
? 機械学習分野の”Hello World”に当たる認識問題
? Yann LeCunによってデータセットが公開されている(http://yann.lecun.com/exdb/mnist/)
ネットワーク
? 畳込みニューラルネットワーク(CNN)
利用したDeep Learningフレームワーク
? Caffe
? Tensorflow
? Chainer
デモ1
題材
? Jupyter Notebook環境を立てる
? Caffe, Tensorflow(Keras), Chainerが利用可能
デモ2

More Related Content

惭别蝉辞蝉で学习タスクの実行