狠狠撸

狠狠撸Share a Scribd company logo
Abstracts of FPGA2017 papers
(暫定版)
読んだ人: みよしたけふみ
読んだ日: 6th March, 2017
Can FPGAs Beat GPUs in Accelerating Next-Generation Deep Neural
Networks?
Intel 14nm Stratix10 FPGAを使ってDNNアクセラレータ作った
GEMMオペレーションを評価.Titan X Pascal GPUと比べて
pruendで10%
Int6で50%
Binarized DNNで5.4x
Ternary ResNetでTitan X Pascal GPUの
60%の性能
2.3xの性能/電力
Accelerating Binarized Convolutional Neural Networks with Software-
Programmable FPGAs
C++からの合成でBNNやってみた
SDSoC 2016.1
Zynq 7Z020
44.2 GOPS/W
Improving the Performance of OpenCL-based FPGA Accelerator for
Convolutional Neural Network
CNN classifier kernelのボトルネック部分を解析
オンチップメモリのバンド幅に着目
OpenCLで実装
VGGモデルベースのCNNをArria10で実装
Frequency Domain Acceleration of Convolutional Neural Networks on
CPU-FPGA Shared Memory System?
畳み込み層の計算を減らすためにFFTとOverlap-and-Addを利用
共有メモリのデータレイアウトを工夫
VGG16, AlexNet, GoogLeNetを123.48GFLOPS, 83.00GFLOPS, 96.60GFLOPS
Intel Quick-Assist QPI FPGA Platformを使って評価
Optimizing Loop Operation and Dataflow in FPGA Acceleration of Deep
Convolutional Neural Networks
CNNの畳み込み層では3次元MACが4レベルのループになる
CNNのメモリアクセスなどの実対象を解析,最適化する必要がある
メモリアクセスとメモリ移動を最小化,リソース使用量と性能を最大化
Arria10GX1150に実装
VGG-16 CNNで645.25GOPS,47.97msレイテンシを達成
State-of-the-artの3.2x
An OpenCLTM Deep Learning Accelerator on Arria 10
OpenCL使ってデータ再利用と外部メモリバンド幅最小化を実現
Intel FPGA SDK for OpenCL
Deep Learning Accelerator(DLA)
AlexNetCNNベンチマークでArria10使って1020img/s,23img/s/W
-> 1382GFLOPSに相当(従来FPGAの8.4xのGFLOPS,5.8xの効率化)
23 img/s/WはnVidiaのTitanX GPUとcompetitive
FINN: A Framework for Fast, Scalable Binarized Neural Network
Inference
? FINN: 柔軟なヘテロジニアスストリーミングアーキテクチャを使って速く柔軟な
FPGAアクセラレータを構築するフレームワーク
? ZC706でトータル25Wのシステム
? MNISTで12.3M画像/sの分類.レイテンシ0.31us,精度95.8%
? CIFAR-10とSVHNの21906画像/sの分類.レイテンシ283us,精度はそれぞれ
801.%,94.9%
ESE: Efficient Speech Recognition Engine with Sparse LSTM on FPGA
? Load-balance-aware pruning methodでLSTMモデルのサイズを1/20に
? 複数のPEに,圧縮モデルをエンコードと分割するスケジューラ
? Efficient Speech Recognition Engine(ESE)と命名
? XCKU060に実装.200MHzで動作.282GOPS.41W
? Core i7 5930kと比べて43x高速,電力効率40x
? Pascal Titan X GPUと比べて3x高速,電力効率11.5x
Quality-Time Tradeoffs in Component-Specific Mapping:
How to Train Your Dynamically Reconfigurable Array of Gates with Outrageous Network-
delays
? Component-specific適用
? A prioriなデバイスの特徴とカスタマイズなしでFPGA毎のマッピングをする
? 48-77%のディレイ,57%のエネルギー効率を20秒未満のマッピング時間で
Synchronization Constraints for Interconnect Synthesis
インタコネクト合成.データ転送のサイクルレベルの同期を自動的に.
FIFOベースより43%少ない面積使用量になる
Corolla: GPU-Accelerated FPGA Routing Based on Subgraph Dynamic
Expansion
A GPU-accelerated FPGA routing method
GPU向けのFPGA内の最短パスアルゴリズムの適用を可能にする
FPGAルーティングのカーネルはsingole-source shortest path(SSSP)ソルバーで
ある
Don’t Forget the Memory: Automatic Block RAM Modelling,
Optimization, and Architecture Exploration
BlockRAMを自動的に作る話
SRAMとMTJ技術の両方を使用
面積,電力を最適化
Automatic Construction of Program-Optimized FPGA Memory Networks
メモリレイテンシは設計時の重要ポイント
メモリネットワークの最適化が性能向上のカギ
フィードバックドリブンのネットワークコンパイラを設計した
45%の設計ゲインを達成
要はLEAPの話
NAND-NOR: A Compact, Fast, and Delay Balanced FPGA Logic Element
And-Inverter Cone(AIC)はLUTに対する代替として提案された
性能とリソースユーティリゼーションを向上
Delay discrepancy problemがある
設計手法が最適かされていない
→もっと最適なNAND-NORとdelay-balancedなdual-phasedなマルチプレクサなアー
キテクチャを提案するよ
120-core microAptiv MIPS Overlay for the Terasic DE5-NET FPGA board
120-core 94MHzのMIPSプロセッサを作った
軽量なメッセージパッシング機構で接続される
Stratix V GX (5SGXEA7N2F45C2)に実装
A Parallelized Iterative Improvement Approach to Area Optimization for
LUT-Based Technology Mapping
ロジックマッピングとデバイスマッピングにはギャップがある
PIMapを提案
面積を最小化すべくロジック変換とテクノロジーマッピングを反復的に行う
EPFLベンチに対して最大14%,平均で7%面積削減を達成
A Parallel Bandit-Based Approach for Autotuning FPGA Compilation
合成ツールオプションの自動チューニング
Multi-armed bandit(MAB)でオプションをチューニング
Hardware Synthesis of Weakly Consistent C Concurrency
Cからの高位合成でLock-freeアルゴリズム
LegUpにsequentially consistent(SC)とweakly consistent(weak) atmicsを導入
循環バッファの実装で,ロックありの場合と比べて2.5x高速化
Weak atomicsはさらに1.5xスピードアップ
A New Approach to Automatic Memory Banking using Trace-Based
Address Mining
TraceBankingを提案
Trace-drivenなアドレス最小化アルゴリズム
顔検出アルゴリズムに対してarea-efficientなメモリ分割を実現できた
コンパイルタイムの静的な最適化ではな
アクセスパタンを明示的に指定する必要がない
Dynamic Hazard Resolution for Pipelining Irregular Loops in High-Level
Synthesis
? HLSのパイプライニングは,規則的でスタティックなメモリアクセスパタンにはむい
ている -> infrequent data-dependent structuralには有効ではない
? イレギュラなループに対する高スループットのパイプライン化を実現する
? コンパイル時にハザードを解決したアグレッシブなパイプラインを生成
? Hazard Resolution Unit(HRU)を導入.D-HRU(data)とS-HUR(structure)
Accelerating Face Detection on Programmable SoC Using C-Based
Synthesis
? HLSは進化してるけど現実的なベンチマークが不足している
? Viola Jonesアルゴリズムベースの顔検出アクセラレータのケーススタディ
? ソフトウェアベースのデザインからHLS特化データ構造と最適化を使った合成可能な
実装への移植でわかったことをシェア
? このデザインは30FPSで,従来のRTL設計とcomparableである
Packet Matching on FPGAs Using HMC Memory: Towards One Million
Rules
? Hybrid Memory Cube(HMC)を使ったFPGAによるパケット分類
? プリフェッチでHMCアクセスレイテンシを隠蔽しメモリからマッチングエンジンにル
ールを転送
? Kintex Ultrascale 060に実装.160パケットを並列に処理.10Gbpsラインレートで
約1500ルールを,16Mbpsラインレートで1Mルールを処理
Boosting the Performance of FPGA-based Graph Processor using Hybrid
Memory Cube: A Case for Breadth First Search
? 巨大な実世界グラフを扱うのは難しい
? 単にフットプリントの問題だけでなくて,プアな局所性,アクセスレイテンシのため
? HMC使ってみた
? HMCアクセスレイテンシとBFS(幅優先探索)性能に対する
定量的な評価のための解析的な性能モデルを開発
? 2-level bitmap scheme
? MicronのAC-510開発キットで評価.
? GRAPH500ベンチマークで(スケール25/ファクタ16)で評価
? 166M edge traverced/s(MTEPS)を達成
ForeGraph: Exploring Large-scale Graph Processing on Multi-FPGA
Architecture
FPGAのオンチップメモリはランダムデータアクセスに高いスループット
単一のFPGAのオンチップメモリには制約がある
複数FPGAを使った大規模グラフ処理エンジンを提案
Xilinx Virtex UltraScale XVCU190(VCU110ボード)を使用
YT,WK,LJ,TW,YHグラフに対してBFS,PR,WCCを処理
TW(41.7M Vertecies, 1.47M Edge)は4FPGAで処理
State-of-the Art(PowerGraph)に対して5.04x高速化を達成
先行FPGAに対して平均スループットで2.03倍を達成
FPGA-Accelerated Transactional Execution of Graph Workloads
? 巨大グラフへのアクセスではメモリコンフリクトが起きる
? スケーラブルなコンフリクト検出を示す
? Intel Haswelとくらべて2倍の性能向上,
22倍のエネルギー効率
? FPGA Research Infrastructure Cloud[42]を利用
? http://www.openfabric.org
Enabling Flexible Network FPGA Clusters in a Heterogeneous Cloud
Data Center
? ヘテロジニアスクラウドデータセンタでnetwork FPGAクラスタを作るフレームワー
ク
? FPGAカーネルがどうつながるかの論理的なカーネル定義でFPGAクラスタが作られる
? OpenStackでマネジメントされる
? GbEでつながっている
Energy Efficient Scientific Computing on FPGAs using OpenCL
? Partial differential equations(PDE; 偏微分方程式) の効率的な実装が必要
? FPGAのデータ並列性でPDEソルバを
? HDLは難しいのでOpenCLで→でも難しい
? OpenCLを使ったPDEソルバのための一般的で最適化の特価した包括的なセットを提案
Secure Function Evaluation Using an FPGA Overlay Architecture
SFE向けのハードウェアアクセラレータ
一般的なリコンフィギャラブルハードウェア向きの粗粒度なFPGAオーバーレイアーキテクチャ
FPGA Acceleration for Computational Glass-Free Displays
FPGAアクセラレーションをつかったeyeglasses-freeディスプレイ
Sparse matrix-vector multiplication
L-BFGS iterative optimization algorithm
glass-freeディスプレイアプリケーションで12.78xの高速化
Hardware Acceleration of the Pair-HMM Algorithm for DNA Variant
Calling
Pair HMM forwardアルゴリズムのFPGAでの高速化
リング構造のPEでILPとデータ並列性を考慮して様々な構成をとる
C++ベースのCPU実行とくらべて487x高速,ハードウェア実装と比べて1.56x高速

More Related Content

What's hot (20)

Reconf_201409
Reconf_201409Reconf_201409
Reconf_201409
Takefumi MIYOSHI
?
オープンソースコンパイラ狈狈驳别苍でつくるエッジ?ディープラーニングシステム
オープンソースコンパイラ狈狈驳别苍でつくるエッジ?ディープラーニングシステムオープンソースコンパイラ狈狈驳别苍でつくるエッジ?ディープラーニングシステム
オープンソースコンパイラ狈狈驳别苍でつくるエッジ?ディープラーニングシステム
Shinya Takamaeda-Y
?
PyCoRAM (高位合成友の会@ドワンゴ, 2015年1月16日)
PyCoRAM (高位合成友の会@ドワンゴ, 2015年1月16日)PyCoRAM (高位合成友の会@ドワンゴ, 2015年1月16日)
PyCoRAM (高位合成友の会@ドワンゴ, 2015年1月16日)
Shinya Takamaeda-Y
?
なにわ罢别肠丑20160827
なにわ罢别肠丑20160827なにわ罢别肠丑20160827
なにわ罢别肠丑20160827
Natsutani Minoru
?
高速シリアル通信を支える技术
高速シリアル通信を支える技术高速シリアル通信を支える技术
高速シリアル通信を支える技术
Natsutani Minoru
?
Reconf 201506
Reconf 201506Reconf 201506
Reconf 201506
Takefumi MIYOSHI
?
Verilog-HDL Tutorial (1)
Verilog-HDL Tutorial (1)Verilog-HDL Tutorial (1)
Verilog-HDL Tutorial (1)
Hiroki Nakahara
?
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)
Shinya Takamaeda-Y
?
FPGAX6_hayashi
FPGAX6_hayashiFPGAX6_hayashi
FPGAX6_hayashi
愛美 林
?
研究者のための Python による FPGA 入門
研究者のための Python による FPGA 入門研究者のための Python による FPGA 入門
研究者のための Python による FPGA 入門
ryos36
?
Synthesijer.Scala (PROSYM 2015)
Synthesijer.Scala (PROSYM 2015)Synthesijer.Scala (PROSYM 2015)
Synthesijer.Scala (PROSYM 2015)
Takefumi MIYOSHI
?
贵笔骋础って、何?
贵笔骋础って、何?贵笔骋础って、何?
贵笔骋础って、何?
Toyohiko Komatsu
?
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
Hiroki Nakahara
?
笔测颁辞搁础惭を用いたグラフ処理贵笔骋础アクセラレータ
笔测颁辞搁础惭を用いたグラフ処理贵笔骋础アクセラレータ笔测颁辞搁础惭を用いたグラフ処理贵笔骋础アクセラレータ
笔测颁辞搁础惭を用いたグラフ処理贵笔骋础アクセラレータ
Shinya Takamaeda-Y
?
笔测迟丑辞苍による高位设计フレームワーク笔测颁辞搁础惭で贵笔骋础システムを开発してみよう
笔测迟丑辞苍による高位设计フレームワーク笔测颁辞搁础惭で贵笔骋础システムを开発してみよう笔测迟丑辞苍による高位设计フレームワーク笔测颁辞搁础惭で贵笔骋础システムを开発してみよう
笔测迟丑辞苍による高位设计フレームワーク笔测颁辞搁础惭で贵笔骋础システムを开発してみよう
Shinya Takamaeda-Y
?
増え続ける情报に対応するための贵笔骋础基础知识
増え続ける情报に対応するための贵笔骋础基础知识増え続ける情报に対応するための贵笔骋础基础知识
増え続ける情报に対応するための贵笔骋础基础知识
なおき きしだ
?
FPGA
FPGAFPGA
FPGA
firewood
?
メモリ抽象化フレームワーク笔测颁辞搁础惭を用いたソフトプロセッサ混载贵笔骋础アクセラレータの开発
メモリ抽象化フレームワーク笔测颁辞搁础惭を用いたソフトプロセッサ混载贵笔骋础アクセラレータの开発メモリ抽象化フレームワーク笔测颁辞搁础惭を用いたソフトプロセッサ混载贵笔骋础アクセラレータの开発
メモリ抽象化フレームワーク笔测颁辞搁础惭を用いたソフトプロセッサ混载贵笔骋础アクセラレータの开発
Shinya Takamaeda-Y
?
オープンソースコンパイラ狈狈驳别苍でつくるエッジ?ディープラーニングシステム
オープンソースコンパイラ狈狈驳别苍でつくるエッジ?ディープラーニングシステムオープンソースコンパイラ狈狈驳别苍でつくるエッジ?ディープラーニングシステム
オープンソースコンパイラ狈狈驳别苍でつくるエッジ?ディープラーニングシステム
Shinya Takamaeda-Y
?
PyCoRAM (高位合成友の会@ドワンゴ, 2015年1月16日)
PyCoRAM (高位合成友の会@ドワンゴ, 2015年1月16日)PyCoRAM (高位合成友の会@ドワンゴ, 2015年1月16日)
PyCoRAM (高位合成友の会@ドワンゴ, 2015年1月16日)
Shinya Takamaeda-Y
?
なにわ罢别肠丑20160827
なにわ罢别肠丑20160827なにわ罢别肠丑20160827
なにわ罢别肠丑20160827
Natsutani Minoru
?
高速シリアル通信を支える技术
高速シリアル通信を支える技术高速シリアル通信を支える技术
高速シリアル通信を支える技术
Natsutani Minoru
?
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)
Shinya Takamaeda-Y
?
研究者のための Python による FPGA 入門
研究者のための Python による FPGA 入門研究者のための Python による FPGA 入門
研究者のための Python による FPGA 入門
ryos36
?
Synthesijer.Scala (PROSYM 2015)
Synthesijer.Scala (PROSYM 2015)Synthesijer.Scala (PROSYM 2015)
Synthesijer.Scala (PROSYM 2015)
Takefumi MIYOSHI
?
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
Hiroki Nakahara
?
笔测颁辞搁础惭を用いたグラフ処理贵笔骋础アクセラレータ
笔测颁辞搁础惭を用いたグラフ処理贵笔骋础アクセラレータ笔测颁辞搁础惭を用いたグラフ処理贵笔骋础アクセラレータ
笔测颁辞搁础惭を用いたグラフ処理贵笔骋础アクセラレータ
Shinya Takamaeda-Y
?
笔测迟丑辞苍による高位设计フレームワーク笔测颁辞搁础惭で贵笔骋础システムを开発してみよう
笔测迟丑辞苍による高位设计フレームワーク笔测颁辞搁础惭で贵笔骋础システムを开発してみよう笔测迟丑辞苍による高位设计フレームワーク笔测颁辞搁础惭で贵笔骋础システムを开発してみよう
笔测迟丑辞苍による高位设计フレームワーク笔测颁辞搁础惭で贵笔骋础システムを开発してみよう
Shinya Takamaeda-Y
?
増え続ける情报に対応するための贵笔骋础基础知识
増え続ける情报に対応するための贵笔骋础基础知识増え続ける情报に対応するための贵笔骋础基础知识
増え続ける情报に対応するための贵笔骋础基础知识
なおき きしだ
?
メモリ抽象化フレームワーク笔测颁辞搁础惭を用いたソフトプロセッサ混载贵笔骋础アクセラレータの开発
メモリ抽象化フレームワーク笔测颁辞搁础惭を用いたソフトプロセッサ混载贵笔骋础アクセラレータの开発メモリ抽象化フレームワーク笔测颁辞搁础惭を用いたソフトプロセッサ混载贵笔骋础アクセラレータの开発
メモリ抽象化フレームワーク笔测颁辞搁础惭を用いたソフトプロセッサ混载贵笔骋础アクセラレータの开発
Shinya Takamaeda-Y
?

Similar to Abstracts of FPGA2017 papers (Temporary Version) (20)

[DL Hacks]FPGA入門
[DL Hacks]FPGA入門[DL Hacks]FPGA入門
[DL Hacks]FPGA入門
Deep Learning JP
?
仮想贵笔骋础クラウド
仮想贵笔骋础クラウド仮想贵笔骋础クラウド
仮想贵笔骋础クラウド
Eric Fukuda
?
20170421 tensor flowusergroup
20170421 tensor flowusergroup20170421 tensor flowusergroup
20170421 tensor flowusergroup
ManaMurakami1
?
High speed-pc-router 201505
High speed-pc-router 201505High speed-pc-router 201505
High speed-pc-router 201505
ykuga
?
ACRi_webinar_20220118_miyo
ACRi_webinar_20220118_miyoACRi_webinar_20220118_miyo
ACRi_webinar_20220118_miyo
Takefumi MIYOSHI
?
骋笔鲍ディープラーニング最新情报
骋笔鲍ディープラーニング最新情报骋笔鲍ディープラーニング最新情报
骋笔鲍ディープラーニング最新情报
ReNom User Group
?
【de:code 2020】 AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ
【de:code 2020】 AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ【de:code 2020】 AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ
【de:code 2020】 AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ
日本マイクロソフト株式会社
?
A100 GPU 搭載! P4d インスタンス 使いこなしのコツ
A100 GPU 搭載! P4d インスタンス使いこなしのコツA100 GPU 搭載! P4d インスタンス使いこなしのコツ
A100 GPU 搭載! P4d インスタンス 使いこなしのコツ
Kuninobu SaSaki
?
データ爆発时代のネットワークインフラ
データ爆発时代のネットワークインフラデータ爆発时代のネットワークインフラ
データ爆発时代のネットワークインフラ
NVIDIA Japan
?
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1
NVIDIA Japan
?
NVIDIA deep learning最新情報in沖縄
NVIDIA deep learning最新情報in沖縄NVIDIA deep learning最新情報in沖縄
NVIDIA deep learning最新情報in沖縄
Tak Izaki
?
インテルFPGAのDeep Learning Acceleration SuiteとマイクロソフトのBrainwaveをHW視点から比較してみる MS編
インテルFPGAのDeep Learning Acceleration SuiteとマイクロソフトのBrainwaveをHW視点から比較してみる MS編インテルFPGAのDeep Learning Acceleration SuiteとマイクロソフトのBrainwaveをHW視点から比較してみる MS編
インテルFPGAのDeep Learning Acceleration SuiteとマイクロソフトのBrainwaveをHW視点から比較してみる MS編
Deep Learning Lab(ディープラーニング?ラボ)
?
機械学習とこれを支える並列計算: ディープラーニング?スーパーコンピューターの応用について
機械学習とこれを支える並列計算: ディープラーニング?スーパーコンピューターの応用について機械学習とこれを支える並列計算: ディープラーニング?スーパーコンピューターの応用について
機械学習とこれを支える並列計算: ディープラーニング?スーパーコンピューターの応用について
ハイシンク創研 / Laboratory of Hi-Think Corporation
?
NVIDIA Deep Learning SDK を利用した画像認識
NVIDIA Deep Learning SDK を利用した画像認識NVIDIA Deep Learning SDK を利用した画像認識
NVIDIA Deep Learning SDK を利用した画像認識
NVIDIA Japan
?
HPC 的に H100 は魅力的な GPU なのか?
HPC 的に H100 は魅力的な GPU なのか?HPC 的に H100 は魅力的な GPU なのか?
HPC 的に H100 は魅力的な GPU なのか?
NVIDIA Japan
?
骋笔鲍-贵笔骋础协调プログラミングを実现するコンパイラの开発
骋笔鲍-贵笔骋础协调プログラミングを実现するコンパイラの开発骋笔鲍-贵笔骋础协调プログラミングを実现するコンパイラの开発
骋笔鲍-贵笔骋础协调プログラミングを実现するコンパイラの开発
Ryuuta Tsunashima
?
FPGAを用いたEdge AIの現状
FPGAを用いたEdge AIの現状FPGAを用いたEdge AIの現状
FPGAを用いたEdge AIの現状
Yukitaka Takemura
?
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
Hiroki Nakahara
?
(JP) GPGPUがPostgreSQLを加速する
(JP) GPGPUがPostgreSQLを加速する(JP) GPGPUがPostgreSQLを加速する
(JP) GPGPUがPostgreSQLを加速する
Kohei KaiGai
?
[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法
[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法
[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法
Deep Learning Lab(ディープラーニング?ラボ)
?
仮想贵笔骋础クラウド
仮想贵笔骋础クラウド仮想贵笔骋础クラウド
仮想贵笔骋础クラウド
Eric Fukuda
?
20170421 tensor flowusergroup
20170421 tensor flowusergroup20170421 tensor flowusergroup
20170421 tensor flowusergroup
ManaMurakami1
?
High speed-pc-router 201505
High speed-pc-router 201505High speed-pc-router 201505
High speed-pc-router 201505
ykuga
?
骋笔鲍ディープラーニング最新情报
骋笔鲍ディープラーニング最新情报骋笔鲍ディープラーニング最新情报
骋笔鲍ディープラーニング最新情报
ReNom User Group
?
【de:code 2020】 AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ
【de:code 2020】 AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ【de:code 2020】 AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ
【de:code 2020】 AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ
日本マイクロソフト株式会社
?
A100 GPU 搭載! P4d インスタンス 使いこなしのコツ
A100 GPU 搭載! P4d インスタンス使いこなしのコツA100 GPU 搭載! P4d インスタンス使いこなしのコツ
A100 GPU 搭載! P4d インスタンス 使いこなしのコツ
Kuninobu SaSaki
?
データ爆発时代のネットワークインフラ
データ爆発时代のネットワークインフラデータ爆発时代のネットワークインフラ
データ爆発时代のネットワークインフラ
NVIDIA Japan
?
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1
NVIDIA Japan
?
NVIDIA deep learning最新情報in沖縄
NVIDIA deep learning最新情報in沖縄NVIDIA deep learning最新情報in沖縄
NVIDIA deep learning最新情報in沖縄
Tak Izaki
?
インテルFPGAのDeep Learning Acceleration SuiteとマイクロソフトのBrainwaveをHW視点から比較してみる MS編
インテルFPGAのDeep Learning Acceleration SuiteとマイクロソフトのBrainwaveをHW視点から比較してみる MS編インテルFPGAのDeep Learning Acceleration SuiteとマイクロソフトのBrainwaveをHW視点から比較してみる MS編
インテルFPGAのDeep Learning Acceleration SuiteとマイクロソフトのBrainwaveをHW視点から比較してみる MS編
Deep Learning Lab(ディープラーニング?ラボ)
?
機械学習とこれを支える並列計算: ディープラーニング?スーパーコンピューターの応用について
機械学習とこれを支える並列計算: ディープラーニング?スーパーコンピューターの応用について機械学習とこれを支える並列計算: ディープラーニング?スーパーコンピューターの応用について
機械学習とこれを支える並列計算: ディープラーニング?スーパーコンピューターの応用について
ハイシンク創研 / Laboratory of Hi-Think Corporation
?
NVIDIA Deep Learning SDK を利用した画像認識
NVIDIA Deep Learning SDK を利用した画像認識NVIDIA Deep Learning SDK を利用した画像認識
NVIDIA Deep Learning SDK を利用した画像認識
NVIDIA Japan
?
HPC 的に H100 は魅力的な GPU なのか?
HPC 的に H100 は魅力的な GPU なのか?HPC 的に H100 は魅力的な GPU なのか?
HPC 的に H100 は魅力的な GPU なのか?
NVIDIA Japan
?
骋笔鲍-贵笔骋础协调プログラミングを実现するコンパイラの开発
骋笔鲍-贵笔骋础协调プログラミングを実现するコンパイラの开発骋笔鲍-贵笔骋础协调プログラミングを実现するコンパイラの开発
骋笔鲍-贵笔骋础协调プログラミングを実现するコンパイラの开発
Ryuuta Tsunashima
?
FPGAを用いたEdge AIの現状
FPGAを用いたEdge AIの現状FPGAを用いたEdge AIの現状
FPGAを用いたEdge AIの現状
Yukitaka Takemura
?
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
Hiroki Nakahara
?
(JP) GPGPUがPostgreSQLを加速する
(JP) GPGPUがPostgreSQLを加速する(JP) GPGPUがPostgreSQLを加速する
(JP) GPGPUがPostgreSQLを加速する
Kohei KaiGai
?
[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法
[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法
[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法
Deep Learning Lab(ディープラーニング?ラボ)
?

More from Takefumi MIYOSHI (20)

DAS_202109
DAS_202109DAS_202109
DAS_202109
Takefumi MIYOSHI
?
ACRiルーム1年間の活動と 新たな取り組み
ACRiルーム1年間の活動と 新たな取り組みACRiルーム1年間の活動と 新たな取り組み
ACRiルーム1年間の活動と 新たな取り組み
Takefumi MIYOSHI
?
RISC-V introduction for SIG SDR in CQ 2019.07.29
RISC-V introduction for SIG SDR in CQ 2019.07.29RISC-V introduction for SIG SDR in CQ 2019.07.29
RISC-V introduction for SIG SDR in CQ 2019.07.29
Takefumi MIYOSHI
?
Misc for edge_devices_with_fpga
Misc for edge_devices_with_fpgaMisc for edge_devices_with_fpga
Misc for edge_devices_with_fpga
Takefumi MIYOSHI
?
Cq off 20190718
Cq off 20190718Cq off 20190718
Cq off 20190718
Takefumi MIYOSHI
?
Synthesijer - HLS frineds 20190511
Synthesijer - HLS frineds 20190511Synthesijer - HLS frineds 20190511
Synthesijer - HLS frineds 20190511
Takefumi MIYOSHI
?
Reconf 201901
Reconf 201901Reconf 201901
Reconf 201901
Takefumi MIYOSHI
?
Hls friends 201803.key
Hls friends 201803.keyHls friends 201803.key
Hls friends 201803.key
Takefumi MIYOSHI
?
Hls friends 20161122.key
Hls friends 20161122.keyHls friends 20161122.key
Hls friends 20161122.key
Takefumi MIYOSHI
?
狠狠撸
狠狠撸狠狠撸
狠狠撸
Takefumi MIYOSHI
?
Synthesijer and Synthesijer.Scala in HLS-friends 201512
Synthesijer and Synthesijer.Scala in HLS-friends 201512Synthesijer and Synthesijer.Scala in HLS-friends 201512
Synthesijer and Synthesijer.Scala in HLS-friends 201512
Takefumi MIYOSHI
?
Das 2015
Das 2015Das 2015
Das 2015
Takefumi MIYOSHI
?
Microblaze loader
Microblaze loaderMicroblaze loader
Microblaze loader
Takefumi MIYOSHI
?
Synthesijer jjug 201504_01
Synthesijer jjug 201504_01Synthesijer jjug 201504_01
Synthesijer jjug 201504_01
Takefumi MIYOSHI
?
Synthesijer zynq qs_20150316
Synthesijer zynq qs_20150316Synthesijer zynq qs_20150316
Synthesijer zynq qs_20150316
Takefumi MIYOSHI
?
Synthesijer fpgax 20150201
Synthesijer fpgax 20150201Synthesijer fpgax 20150201
Synthesijer fpgax 20150201
Takefumi MIYOSHI
?
Synthesijer hls 20150116
Synthesijer hls 20150116Synthesijer hls 20150116
Synthesijer hls 20150116
Takefumi MIYOSHI
?

Abstracts of FPGA2017 papers (Temporary Version)

  • 1. Abstracts of FPGA2017 papers (暫定版) 読んだ人: みよしたけふみ 読んだ日: 6th March, 2017
  • 2. Can FPGAs Beat GPUs in Accelerating Next-Generation Deep Neural Networks? Intel 14nm Stratix10 FPGAを使ってDNNアクセラレータ作った GEMMオペレーションを評価.Titan X Pascal GPUと比べて pruendで10% Int6で50% Binarized DNNで5.4x Ternary ResNetでTitan X Pascal GPUの 60%の性能 2.3xの性能/電力
  • 3. Accelerating Binarized Convolutional Neural Networks with Software- Programmable FPGAs C++からの合成でBNNやってみた SDSoC 2016.1 Zynq 7Z020 44.2 GOPS/W
  • 4. Improving the Performance of OpenCL-based FPGA Accelerator for Convolutional Neural Network CNN classifier kernelのボトルネック部分を解析 オンチップメモリのバンド幅に着目 OpenCLで実装 VGGモデルベースのCNNをArria10で実装
  • 5. Frequency Domain Acceleration of Convolutional Neural Networks on CPU-FPGA Shared Memory System? 畳み込み層の計算を減らすためにFFTとOverlap-and-Addを利用 共有メモリのデータレイアウトを工夫 VGG16, AlexNet, GoogLeNetを123.48GFLOPS, 83.00GFLOPS, 96.60GFLOPS Intel Quick-Assist QPI FPGA Platformを使って評価
  • 6. Optimizing Loop Operation and Dataflow in FPGA Acceleration of Deep Convolutional Neural Networks CNNの畳み込み層では3次元MACが4レベルのループになる CNNのメモリアクセスなどの実対象を解析,最適化する必要がある メモリアクセスとメモリ移動を最小化,リソース使用量と性能を最大化 Arria10GX1150に実装 VGG-16 CNNで645.25GOPS,47.97msレイテンシを達成 State-of-the-artの3.2x
  • 7. An OpenCLTM Deep Learning Accelerator on Arria 10 OpenCL使ってデータ再利用と外部メモリバンド幅最小化を実現 Intel FPGA SDK for OpenCL Deep Learning Accelerator(DLA) AlexNetCNNベンチマークでArria10使って1020img/s,23img/s/W -> 1382GFLOPSに相当(従来FPGAの8.4xのGFLOPS,5.8xの効率化) 23 img/s/WはnVidiaのTitanX GPUとcompetitive
  • 8. FINN: A Framework for Fast, Scalable Binarized Neural Network Inference ? FINN: 柔軟なヘテロジニアスストリーミングアーキテクチャを使って速く柔軟な FPGAアクセラレータを構築するフレームワーク ? ZC706でトータル25Wのシステム ? MNISTで12.3M画像/sの分類.レイテンシ0.31us,精度95.8% ? CIFAR-10とSVHNの21906画像/sの分類.レイテンシ283us,精度はそれぞれ 801.%,94.9%
  • 9. ESE: Efficient Speech Recognition Engine with Sparse LSTM on FPGA ? Load-balance-aware pruning methodでLSTMモデルのサイズを1/20に ? 複数のPEに,圧縮モデルをエンコードと分割するスケジューラ ? Efficient Speech Recognition Engine(ESE)と命名 ? XCKU060に実装.200MHzで動作.282GOPS.41W ? Core i7 5930kと比べて43x高速,電力効率40x ? Pascal Titan X GPUと比べて3x高速,電力効率11.5x
  • 10. Quality-Time Tradeoffs in Component-Specific Mapping: How to Train Your Dynamically Reconfigurable Array of Gates with Outrageous Network- delays ? Component-specific適用 ? A prioriなデバイスの特徴とカスタマイズなしでFPGA毎のマッピングをする ? 48-77%のディレイ,57%のエネルギー効率を20秒未満のマッピング時間で
  • 11. Synchronization Constraints for Interconnect Synthesis インタコネクト合成.データ転送のサイクルレベルの同期を自動的に. FIFOベースより43%少ない面積使用量になる
  • 12. Corolla: GPU-Accelerated FPGA Routing Based on Subgraph Dynamic Expansion A GPU-accelerated FPGA routing method GPU向けのFPGA内の最短パスアルゴリズムの適用を可能にする FPGAルーティングのカーネルはsingole-source shortest path(SSSP)ソルバーで ある
  • 13. Don’t Forget the Memory: Automatic Block RAM Modelling, Optimization, and Architecture Exploration BlockRAMを自動的に作る話 SRAMとMTJ技術の両方を使用 面積,電力を最適化
  • 14. Automatic Construction of Program-Optimized FPGA Memory Networks メモリレイテンシは設計時の重要ポイント メモリネットワークの最適化が性能向上のカギ フィードバックドリブンのネットワークコンパイラを設計した 45%の設計ゲインを達成 要はLEAPの話
  • 15. NAND-NOR: A Compact, Fast, and Delay Balanced FPGA Logic Element And-Inverter Cone(AIC)はLUTに対する代替として提案された 性能とリソースユーティリゼーションを向上 Delay discrepancy problemがある 設計手法が最適かされていない →もっと最適なNAND-NORとdelay-balancedなdual-phasedなマルチプレクサなアー キテクチャを提案するよ
  • 16. 120-core microAptiv MIPS Overlay for the Terasic DE5-NET FPGA board 120-core 94MHzのMIPSプロセッサを作った 軽量なメッセージパッシング機構で接続される Stratix V GX (5SGXEA7N2F45C2)に実装
  • 17. A Parallelized Iterative Improvement Approach to Area Optimization for LUT-Based Technology Mapping ロジックマッピングとデバイスマッピングにはギャップがある PIMapを提案 面積を最小化すべくロジック変換とテクノロジーマッピングを反復的に行う EPFLベンチに対して最大14%,平均で7%面積削減を達成
  • 18. A Parallel Bandit-Based Approach for Autotuning FPGA Compilation 合成ツールオプションの自動チューニング Multi-armed bandit(MAB)でオプションをチューニング
  • 19. Hardware Synthesis of Weakly Consistent C Concurrency Cからの高位合成でLock-freeアルゴリズム LegUpにsequentially consistent(SC)とweakly consistent(weak) atmicsを導入 循環バッファの実装で,ロックありの場合と比べて2.5x高速化 Weak atomicsはさらに1.5xスピードアップ
  • 20. A New Approach to Automatic Memory Banking using Trace-Based Address Mining TraceBankingを提案 Trace-drivenなアドレス最小化アルゴリズム 顔検出アルゴリズムに対してarea-efficientなメモリ分割を実現できた コンパイルタイムの静的な最適化ではな アクセスパタンを明示的に指定する必要がない
  • 21. Dynamic Hazard Resolution for Pipelining Irregular Loops in High-Level Synthesis ? HLSのパイプライニングは,規則的でスタティックなメモリアクセスパタンにはむい ている -> infrequent data-dependent structuralには有効ではない ? イレギュラなループに対する高スループットのパイプライン化を実現する ? コンパイル時にハザードを解決したアグレッシブなパイプラインを生成 ? Hazard Resolution Unit(HRU)を導入.D-HRU(data)とS-HUR(structure)
  • 22. Accelerating Face Detection on Programmable SoC Using C-Based Synthesis ? HLSは進化してるけど現実的なベンチマークが不足している ? Viola Jonesアルゴリズムベースの顔検出アクセラレータのケーススタディ ? ソフトウェアベースのデザインからHLS特化データ構造と最適化を使った合成可能な 実装への移植でわかったことをシェア ? このデザインは30FPSで,従来のRTL設計とcomparableである
  • 23. Packet Matching on FPGAs Using HMC Memory: Towards One Million Rules ? Hybrid Memory Cube(HMC)を使ったFPGAによるパケット分類 ? プリフェッチでHMCアクセスレイテンシを隠蔽しメモリからマッチングエンジンにル ールを転送 ? Kintex Ultrascale 060に実装.160パケットを並列に処理.10Gbpsラインレートで 約1500ルールを,16Mbpsラインレートで1Mルールを処理
  • 24. Boosting the Performance of FPGA-based Graph Processor using Hybrid Memory Cube: A Case for Breadth First Search ? 巨大な実世界グラフを扱うのは難しい ? 単にフットプリントの問題だけでなくて,プアな局所性,アクセスレイテンシのため ? HMC使ってみた ? HMCアクセスレイテンシとBFS(幅優先探索)性能に対する 定量的な評価のための解析的な性能モデルを開発 ? 2-level bitmap scheme ? MicronのAC-510開発キットで評価. ? GRAPH500ベンチマークで(スケール25/ファクタ16)で評価 ? 166M edge traverced/s(MTEPS)を達成
  • 25. ForeGraph: Exploring Large-scale Graph Processing on Multi-FPGA Architecture FPGAのオンチップメモリはランダムデータアクセスに高いスループット 単一のFPGAのオンチップメモリには制約がある 複数FPGAを使った大規模グラフ処理エンジンを提案 Xilinx Virtex UltraScale XVCU190(VCU110ボード)を使用 YT,WK,LJ,TW,YHグラフに対してBFS,PR,WCCを処理 TW(41.7M Vertecies, 1.47M Edge)は4FPGAで処理 State-of-the Art(PowerGraph)に対して5.04x高速化を達成 先行FPGAに対して平均スループットで2.03倍を達成
  • 26. FPGA-Accelerated Transactional Execution of Graph Workloads ? 巨大グラフへのアクセスではメモリコンフリクトが起きる ? スケーラブルなコンフリクト検出を示す ? Intel Haswelとくらべて2倍の性能向上, 22倍のエネルギー効率 ? FPGA Research Infrastructure Cloud[42]を利用 ? http://www.openfabric.org
  • 27. Enabling Flexible Network FPGA Clusters in a Heterogeneous Cloud Data Center ? ヘテロジニアスクラウドデータセンタでnetwork FPGAクラスタを作るフレームワー ク ? FPGAカーネルがどうつながるかの論理的なカーネル定義でFPGAクラスタが作られる ? OpenStackでマネジメントされる ? GbEでつながっている
  • 28. Energy Efficient Scientific Computing on FPGAs using OpenCL ? Partial differential equations(PDE; 偏微分方程式) の効率的な実装が必要 ? FPGAのデータ並列性でPDEソルバを ? HDLは難しいのでOpenCLで→でも難しい ? OpenCLを使ったPDEソルバのための一般的で最適化の特価した包括的なセットを提案
  • 29. Secure Function Evaluation Using an FPGA Overlay Architecture SFE向けのハードウェアアクセラレータ 一般的なリコンフィギャラブルハードウェア向きの粗粒度なFPGAオーバーレイアーキテクチャ
  • 30. FPGA Acceleration for Computational Glass-Free Displays FPGAアクセラレーションをつかったeyeglasses-freeディスプレイ Sparse matrix-vector multiplication L-BFGS iterative optimization algorithm glass-freeディスプレイアプリケーションで12.78xの高速化
  • 31. Hardware Acceleration of the Pair-HMM Algorithm for DNA Variant Calling Pair HMM forwardアルゴリズムのFPGAでの高速化 リング構造のPEでILPとデータ並列性を考慮して様々な構成をとる C++ベースのCPU実行とくらべて487x高速,ハードウェア実装と比べて1.56x高速