狠狠撸

狠狠撸Share a Scribd company logo
USB3.0接続の高速でポータブルな
FPGAアクセラレータ
2015/02/16 平成26年度卒業研究発表会 @S422
B2: 計算機システム?集積回路(10:55-11:09) 発表7分 + 質疑応答7分
東京工業大学 工学部 情報工学科
吉瀬研究室
11_03601 臼井 琢真
?FPGAアクセラレータ
?特定の処理を低消費電力かつ高速に実行可能
?科学技術計算やデータベース処理など
?IntelやdwangoがFPGAエンジニアを募集
?目的: 高速かつポータブルなFPGAアクセラレータ
?持ち運べる,様々な環境で使える
?ホストPCとのデータ送受信のためのインターフェースが重要
?対象アプリ: 32bit要素のソーティング
背景と目的
1
FPGAとの接続インターフェース比較
?USB3.0はUART, USB2.0よりは圧倒的に速い
?PCI Expressや10Gbps Ethernetよりは遅い
?しかし接続が非常に容易で,様々な環境で使える
2
接続方法 USB3.0 USB2.0 UART PCI Express Ethernet
最高速度(理論値) 5Gbps 480Mbps 数Mbps 8GB/s@2.0 x8
1GB/s@2.0 x1
1Gbps@GbE
10Gbps@XGbE
内蔵/外付 外付 外付 外付 内蔵 外付
最新PCでの普及率 ○ ○ × △ ×(XGbE)
ホットスワップ ○ ○ × ○ ○
バスパワー 900mA,5V 500mA,5V × 25/75W@x16 ×
提案するFPGAアクセラレータ
3
持ち運べる
様々な環境で
使える USB3.0
Merge Sorter Tree
?複数のソート済みデータ列を1つにマージするデータパス
?図は 4-way Merge Sorter Tree
?ソート対象のデータ列が入力数より多い場合は複数回通す必要
4
参考: A high performance sorting architecture exploiting run-time reconfiguration on fpgas for large problem sorting.
(Dirk Koch and Jim Torresen, FPGA ’11,)
>
>
> > Comparator
Short FIFO
入力レーン
=
way
System Architecture
5
32bit
64bit,
2要素ずつ
ソート
64bit
実装?評価
?実装
?8-way Merge Sorter Tree を実装
?ハードウェア記述言語: Verilog HDL
?論理合成: Xilinx ISE 14.7
?H/W使用量: Block RAMは20%, Sliceは19% (8-way実装時)
?FPGA: Xilinx Artix-7 XC7A100T @ 100MHz
?DRAM: DDR3 256MB @ 400MHz
?評価
?32bitのint型整数32M個のソーティングの実行時間を計測
◇USB3.0を介してFPGAアクセラレータにデータを送信,結果を受信
◇ホストPCでのマージソートと比較
?ポータビリティ評価のため,4つの評価環境を用意
◇USB3.0環境,USB2.0環境
◇デスクトップPCとラップトップPC
6
4種類の評価環境 – Computer A
7
Core i7-3770K
@3.50GHz
16GB DDR3 Memory
Supports USB3.0
High
Performance!
4種類の評価環境 – Computer B
8
Supports USB3.0
Core i3-4010U
@1.70GHz
4GB DDR3 Memory
Portable!
4種類の評価環境 – Computer C
9
Only supports USB2.0
Core i7-870
@2.93GHz
4GB DDR3 Memory
4種類の評価環境 – Computer D
10
Core Duo T2400
@1.83GHz
1GB DDR2 Memory
Only supports USB2.0
評価―int型32M個のソーティング
11
0
2
4
6
8
10
12
CPU FPGA
8-way
CPU FPGA
8-way
CPU FPGA
8-way
CPU FPGA
8-way
Computer A Computer B Computer C Computer D
ElapsedTime[s]
Data Transfer
Sorting only
USB3.0
USB2.0
0
2
4
6
8
10
12
CPU FPGA
8-way
CPU FPGA
8-way
CPU FPGA
8-way
CPU FPGA
8-way
Computer A Computer B Computer C Computer D
ElapsedTime[s]
Data Transfer
Sorting only
USB3.0
USB2.0
分析
12
性能向上不可能
通信時間 > CPUにおけるソーティング時間
0
2
4
6
8
10
12
CPU FPGA
8-way
CPU FPGA
8-way
CPU FPGA
8-way
CPU FPGA
8-way
Computer A Computer B Computer C Computer D
ElapsedTime[s]
Data Transfer
Sorting only
USB3.0
USB2.0
分析
13
通信時間
大幅減
USB3.0で
性能向上
評価 @USB3.0環境
14
4.30 3.27 8.75 3.28
0
2
4
6
8
10
CPU FPGA
8-way
CPU FPGA
8-way
Computer A Computer B
ElapsedTime[s] 2.66x
Faster
1.31x
Faster
?Merge Sorter Treeを32-wayに拡張しComputer AのCPU比
1.93倍の高速化達成
様々な環境で
使える
まとめ?今後の課題
?まとめ
?USB3.0接続の高速でポータブルなFPGAアクセラレータを提案
?対象アプリ: ソーティング
?USB2.0環境では提案するFPGAアクセラレータを用いても性能が向上しない
?USB3.0環境では性能が向上
◇ラップトップPC比2.66倍
◇デスクトップPC比1.31倍→Tree拡張時1.93倍
?今後の課題
?Merge Sorter Treeを更に拡張
?他のアプリケーションの高速化
◇グラフ処理,画像処理,データ圧縮etc…
15
発表履歴?予定
?電子情報通信学会研究会(RECONF) 発表 (2015/01/30)
?「USB3.0接続の手軽で高速なFPGAアクセラレータ」
?臼井 琢真,小林 諒平,吉瀬 謙二
?情報処理学会 第77回 全国大会 発表予定 (2015/03/18)
?「手軽な外付けFPGAアクセラレータによるソーティングの高速化」
?臼井 琢真,吉瀬 謙二
?ARC 2015 POSTER SESSION (2015/04/15-17)
?“A Challenge of Portable and High-speed FPGA Accelerator”
?Takuma USUI, Ryohei KOBAYASHI, Kenji KISE
16

More Related Content

Bthesis - A High-speed and Portable FPGA Accelerator