狠狠撸

狠狠撸Share a Scribd company logo
【LTセッション】推論をエッジで?いえ、PaaSです。 paasで推論を運用するとこんなに楽チン。_DLLAB推論ナイト
问题
问题
六本木
目黒
赤坂
品川
箱崎有楽町
问题
六本木
目黒
赤坂
品川
箱崎有楽町
品川 推奨パターン
品川 推奨パターン
GB単位の コンテナイメージ
Edgeでイメージ pull出来るかな。。。
通信出来るなら、
クラウドで推論もいいじゃない
!!
通信出来るなら、
クラウドで推論もいいじゃない
!!
( )
使用上の注意
? 推論のたびに通信が発生するので、通信コストが発生する場合
があります。
? 通信状況にリアルタイム性にかけるため、自動運転などにはご
利用できません。
なぜ私はナウくて素敵な
Kubernetesじゃなくて、
PaaSを使うのか
得上竜一 (とくがみりゅういち)
Microsoft MVP for AI
よく見るPaaS vs Container の図
クラウドでの実际
宿題! (今日のブログに書くこと)
Web Apps(PaaS)とAKS(k8s環境)での
10req/sec
100req/sec
1000req/sec
10000req/sec
コスト比較!
【LTセッション】推論をエッジで?いえ、PaaSです。 paasで推論を運用するとこんなに楽チン。_DLLAB推論ナイト
笔补补厂でどうやって动かす?
C#, Python ,, etc
Python
Java, go, C++
Menoh
tensorflowを使ったモデルのLoadとPredict
byte[] graphDef =
IOUtils.toByteArray(
this.getClass()
.getClassLoader()
.getResourceAsStream(modelPbName));
g = new Graph();
g.importGraphDef(graphDef);
Iterator<Operation> operations = g.operations();
this.s = new Session(g);
FloatBuffer fb = FloatBuffer.wrap(vector(title, maxLength));
Tensor<Float> inputTensor = Tensor.create(new long[] { 1, maxLength }, fb);
List<Tensor<?>> results = this.s.runner().feed(inputName, inputTensor)
.fetch(outputName).run();
いつもの飞补谤を迟辞尘肠补迟にぽーい
10層 8,660,354param
テキストを入れると
年齢とか性別を
1台あたり450req/secは軽い
Tomcat
Latencyが 1桁ms
言語別レイテンシ
0
2
4
6
100 rps 500 rps 1000 rps 2000 rps
RPSとレイテンシ(Java)
S1 S2 S3
0
500
1000
1500
100 rps 500 rps 1000 rps 2000 rps
RPSとレイテンシ(Python)
S1 S2 S3
(グラフはイメージです。)
(グラフはイメージです。)
宿題! (今日のブログに書くこと) 2
PythonとC#(or Java)での パフォーマンス比較
10req/sec
100req/sec
1000req/sec
でのレイテンシ比較!
JITコンパイラの最適化
DeepLearningはGPUで計算出来るくらいの
単純な計算の超大量繰り返し
JITコンパイラの得意分野
闯滨罢な言语
闯滨罢コンパイラの最适化の恩恵を最大化
(再)宿題! (今日のブログに書くこと)
1. Web Apps(PaaS)とAKS(k8s環境)でのコスト比較!
2. PythonとC#(or Java)でのレイテンシ比較!

More Related Content

【LTセッション】推論をエッジで?いえ、PaaSです。 paasで推論を運用するとこんなに楽チン。_DLLAB推論ナイト