端端舝

Parquet 反市仿丞瓜卅及井ˋ
Yohei Azekatsu
Twitter: @yoheia
Dec, 2019

失斥尼件母
? 云�允月仇午
? 弁奶朮
? 市仿丞瓜白巧奈穴永玄 Parquet 午反
? Presto 反 Parquet 毛升及方丹卞掂戈井
? Presto on EMR 匹𨈘偩仄化心凶
? 引午戶
? Appendix

云�允月仇午
? Athena 支 Presto on EMR 匹 Parquet 卞弁巨伉允月午﹜斛猁卅市仿丞及
犯奈正分仃毛掂氏匹中月井捼屯化心凶﹝
? 𨈘偩忒�反皮伕弘匹鼠嶱仄化中引允﹝
? https://yohei-a.hatenablog.jp/entry/20191208/1575766148
堤萎: https://prestodb.io/overview.html
/julienledem/strata-ny-2017-parquet-arrow-roadmap/13

升及弁巨伉互珨楓厒中匹仄斤丹ˋ
? Athena 支 Presto 匹眕狟及弁巨伉毛灍俴允月午﹜升木互珨楓厒中匹仄斤丹ˋ
? 犯奈正反 S3支 HDFS 卞丐月 parquet 白央奶伙﹝
1. select count(*) from amazon_reviews_parquet;
2. select count(product_title) from amazon_reviews_parquet;
3. select count(review_body) from amazon_reviews_parquet;
妏蚚仄凶犯奈正: https://registry.opendata.aws/amazon-reviews/

湘尹ㄗAthenaㄘ
# 弁巨伉灍俴媆嶲旦平乓件扔奶朮
1 select count(*) from amazon_reviews_parquet 6.28鏃 0B
2 select count(product_title) from amazon_reviews_parquet 13.77鏃 5.27GB
3 select count(review_body) from amazon_reviews_parquet 30.39鏃 34GB
? count(*) 互郔手旦平乓件扔奶朮互苤今仁厒中﹝
? 市仿丞墿互郔手墿中 review_body 互郔手旦平乓件扔奶朮互湮五仁綈中﹝
AWS穴生斥丟件玄戊件末奈伙及Athena及薩窃正皮

湘尹ㄗPresto on EMRㄘ
# 弁巨伉灍俴媆嶲旦平乓件扔奶朮
1 select count(*) from amazon_reviews_parquet 8鏃 0B
2 select count(product_title) from amazon_reviews_parquet 9鏃 5.27GB
3 select count(review_body) from amazon_reviews_parquet 17鏃 34GB
? �弇午旦平乓件扔奶朮反 Athena 午肮元﹝

市仿丞瓜白巧奈穴永玄 Parquet 午反

市仿丞瓜ㄗ蹈硌砃ㄘ午反ˋ
堤萎: https://speakerdeck.com/chie8842/karamunahuomatutofalsekihon-2?slide=9

蹈硌砃白巧奈穴永玄

Parquet

Parquet 及白央奶伙白巧奈穴永玄

Parquet 及丟正犯奈正
Footer 匹 Row group 黱及俴杅毛
厥勻化中月及匹 select count(*) 反
Footer 分仃仄井掂引卅仁化𦤦戈﹝

白央奶伙及笢井日斛猁卅犯奈正及心掂戈仇午互匹五月
堤萎: /julienledem/strata-ny-2017-parquet-arrow-roadmap/13
幻氏午ˋ

Presto 反 Parquet 毛升及方丹卞掂戈井

Presto 及失奈平氾弁民乓
堤萎: https://prestodb.io/overview.html

Original open source Parquet reader
堤萎: https://eng.uber.com/presto/
? 左伉斥瓜伙及 OSS 及 Presto 及 Parquet reader 反�市仿丞毛掂氏匹中凶﹝

Uber＊s new Parquet reader
? Uber 及 new Parquet reader 反斛猁卅市仿丞分仃掂戈ㄗColumnar readsㄘ﹝

New reader demonstrated 2-10X speedup
? Uber 及 new Parquet reader 反斛猁卅市仿丞分仃掂戈井日﹝
Figure 10: Our new reader demonstrated 2-
10X speedup for Uber＊s benchmark SQL
queries.

Presto 卞 new Parquet reader 互⻌勻化中月
堤萎: https://prestodb.io/docs/current/release/release-0.138.html
? Release 0.138 井日 Presto 卞手⻌勻化中月

Presto 及末奈旦戊奈玉
堤萎: https://prestodb.io/docs/current/release/release-0.138.html
? Release 0.137
? https://github.com/prestodb/presto/releases/tag/0.137
? https://github.com/prestodb/presto/tree/73d6484905b0813d0e20ea71478136547913764a/presto-
hive/src/main/java/com/facebook/presto/hive/parquet/reader
? Release 0.138ㄗNew Hive Parquet Reader 互⻌勻凶ㄘ
? https://github.com/prestodb/presto/releases/tag/0.138
? https://github.com/prestodb/presto/tree/10b581a53608c7657385cc7d49b8e699ee38ddb0/presto-
hive/src/main/java/com/facebook/presto/hive/parquet/reader

Presto on EMR 匹𨈘偩仄化心凶

弁巨伉毛灍俴仄化心月
presto:parquet> select count(review_body) from amazon_reviews_parquet;
_col0
-----------
160789772
(1 row)
Query 20191214_131823_00001_7rzxe, FINISHED, 1 node
Splits: 1,137 total, 1,137 done (100.00%)
0:19 [161M rows, 34GB] [8.43M rows/s, 1.78GB/s]
presto:parquet> select count(*) from amazon_reviews_parquet;
_col0
-----------
160796570
(1 row)
Query 20191214_132223_00002_7rzxe, FINISHED, 1 node
Splits: 1,136 total, 1,136 done (100.00%)
0:07 [161M rows, 0B] [21.5M rows/s, 0B/s]

Presto Web UI
http://master-public-dns-name:8889/
> select count(review_body) from ＃ > select count(*) from ＃
34GB 0B

戊奈伙旦正永弁毛獗月午

Flame Graph: select count(review_body) ＃
HDFS 及 sun.nio.ch.FileChannelImpl:::transferTo
井日 sendfile 扑旦氾丞戊奈伙互網壬木化中月
旦
正
永
弁
及
旮
今
憝杅靡匹酘井日衵卞末奈玄ㄗ失伙白央矛永玄�ㄘ
珨楓奻互旦正永弁互郔手旮仁﹜筵盟互
墿中幻升墿媆嶲CPU毛妏勻化中月

Flame Graph: select count(review_body) ＃
交
奈
扒
奈
諾
嶲
市
奈
生
伙
諾
嶲
sendfile 扑旦氾丞戊奈伙
白央奶伙扑旦氾丞ㄗXFSㄘ
井日白奴伙毛掂氏匹
末弗永玄卞犯奈正毛
冞勻化中月

Flame Graph: select count(*) ＃
旦
正
永
弁
及
旮
今
? 歹曰午睡手仄化中卅中

Perf + Flame graph 匹戊奈伙旦正永弁毛褫�趙
$ sudo vi /etc/hadoop/conf/hadoop-env.sh
export HADOOP_OPTS=-XX:+PreserveFramePointer
$ sudo stop hadoop-hdfs-datanode
$ sudo start hadoop-hdfs-datanode
$ ps -fU hdfs,presto
UID PID PPID C STIME TTY TIME CMD
hdfs 10399 1 0 Dec07 ? 00:02:40 /usr/lib/jvm/java-openjdk/bin/java -Dproc_namenode -Xmx26419m -server -
XX:OnOutOfMemoryError=
hdfs 26883 1 5 07:30 ? 00:02:04 /usr/lib/jvm/java-openjdk/bin/java -Dproc_datanode -Xmx4096m -
XX:+PreserveFramePointer -serve
presto 29762 1 87 07:37 ? 00:28:04 java -cp /usr/lib/presto/lib/* -verbose:class -server -Xmx214026810294 -
XX:+UseG1GC -XX:G1Hea
$ sudo su -
# cd /home/hadoop/perf-map-agent/bin
# export FLAMEGRAPH_DIR=/home/hadoop/FlameGraph/
# export PERF_RECORD_SECONDS=15
# ./perf-java-flames 26883 & ./perf-java-flames 29762
? Perf + Flame graph 匹交奈扒諾嶲井日市奈生伙諾嶲引匹及白伙旦正永弁匹及
戊奈伙旦正永弁毛褫�趙
JIT匹生奶氾奴皮穴扑件韜鍔卞戊件由奶伙今木凶
戊奈玉及戊奈伙旦正永弁毛龰腕允月凶戶

HDFS 及 datanode 井日及犯奈正�冞
堤萎: https://issues.apache.org/jira/browse/HDFS-281

java.nio.channels.FileChannel.transferTo
堤萎: https://docs.oracle.com/javase/8/docs/api/java/nio/channels/FileChannel.html

sendfile(2) 扑旦氾丞戊奈伙
堤萎: http://man7.org/linux/man-pages/man2/sendfile.2.html

strace 匹 HDFS 及扑旦氾丞戊奈伙玄伊奈旦毛午月午
$ sudo strace -fe sendfile -s 200 -p 10858
3434 sendfile(1003, 993, [68038656], 65536) = 65536
3546 sendfile(984, 1042, [16862208], 65536) = 65536
3438 sendfile(979, 1007, [86496768], 65536) = 65536
3422 sendfile(971, 1032, [101465600], 65536 <unfinished ...>
? select count(review_body) from ＃
sendfile 扑旦氾丞戊奈伙匹
64Kbyte(65536 byte) �g弇匹掂氏匹中月﹝
$ sudo strace -fe sendfile -s 200 -p 10858
14928 sendfile(1057, 1112, [72695808], 275) = 275
14953 sendfile(1060, 1128, [47949312], 69) = 69
14954 sendfile(1041, 1112, [100519424], 489) = 489
14955 sendfile(1116, 1119, [94451200], 178) = 178
? select count(*) from ＃ sendfile 扑旦氾丞戊奈伙匹掂氏匹中月IO扔
奶朮反田仿田仿﹝

扑旦氾丞戊奈伙伊奶乩奈匹及IO扔奶朮午IO講
? strace 匹 sendfile(2) 及扑旦氾丞戊奈伙玄伊奈旦毛龰腕仄﹜褫�趙允月午﹜
IO扔奶朮午IO講卞船互丐月﹝
0
50,000
100,000
150,000
200,000
250,000
300,000
350,000
400,000
450,000
500,000
65536 165 177 279 24576 382 288 240 513 505
隙杅
IO扔奶朮
0
5
10
15
20
25
165 279 177 382 288 240 513 505 29861 29689
隙杅 IO扔奶朮
$ perl -lane '$F[1]=~/^sendfile/ and ($s)=$F[4]=~/^(d+)/ and print $s'
strace_hdfs_review_body.log|sort|uniq -c|sort -r|head -10

iostat
$ iostat -dx 5
Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-sz avgqu-sz await svctm %util
nvme1n1 0.00 0.00 8925.20 1.20 2254386.00 11.80 252.55 11.22 1.26 0.05 43.36
nvme2n1 0.00 0.00 8514.00 0.00 2150556.80 0.00 252.59 40.52 4.58 0.09 79.44
nvme0n1 0.00 0.80 375.80 0.40 7163.20 9.60 19.07 0.10 0.47 0.02 0.64
nvme1n1 0.00 0.40 8537.80 7.80 2178339.20 104.00 254.92 5.77 0.70 0.05 46.72
nvme2n1 0.00 0.00 8429.00 0.00 2150496.00 0.00 255.13 40.49 4.69 0.10 80.72
nvme0n1 0.00 0.00 369.00 0.00 8228.80 0.00 22.30 0.05 0.46 0.03 1.12
$ iostat -dx 5
nvme1n1 0.00 0.00 127.20 1.00 7857.60 10.00 61.37 0.01 0.11 0.02 0.32
nvme2n1 0.00 0.00 119.40 0.00 7524.80 0.00 63.02 0.01 0.14 0.03 0.40
nvme0n1 0.00 0.00 6.80 0.20 56.00 1.60 8.23 0.00 0.11 0.00 0.00
nvme1n1 0.00 0.00 41.60 8.60 2774.40 105.60 57.37 0.01 0.27 0.06 0.32
nvme2n1 0.00 0.00 43.20 0.00 2947.20 0.00 68.22 0.01 0.17 0.06 0.24
nvme0n1 0.00 0.80 0.00 0.40 0.00 9.60 24.00 0.00 0.00 0.00 0.00
> select count(review_body) from ＃
> select count(*) from ＃

CloudWatch丟玄伉弁旦: IOPS
? ※select count(review_body) from ＃§ 灍俴媆反廣 5,7000 IOPS
57,000 IOPS

CloudWatch丟玄伉弁旦: IO旦伙奈皿永玄
? ※select count(review_body) from ＃§ 灍俴媆反廣7.4GB/s
? ⅸ歙IO扔奶朮反廣140KB
7.4GB

市奈生伙皮伕永弁伊奶乩奈匹及IO扔奶朮午IO講
? blktrace 匹市奈生伙及皮伕永弁伊奶乩奈匹玄伊奈旦仄化褫�趙允月午﹜IO扔
奶朮午IO講卞船互丐月﹝

引午戶
? Athena 支 Presto on EMRㄗRelease 0.138 眕蔥ㄘ匹 parquet 卞弁巨伉允
月午﹜斛猁卅市仿丞及心犯奴旦弁支旦玄伊奈斥井日掂氏匹中月﹝
presto
hdfs
1.snappy.parquet 2.snappy.parquet 3.snappy.parquet
HDFS
xfs
blk_... blk_... blk_... blk_... blk_... blk_... blk_... blk_... blk_...
Block Device(/dev/sd*)
Parquet
Row group
Column chunk

Appendix.1 𨈘偩卞妏勻凶 EMR
? emr-5.28.0
? Hadoop 犯奴旦玄伉申亙奈扑亦件: Amazon 2.8.5
? 失皿伉弗奈扑亦件: Hive 2.3.6, Pig 0.17.0, Hue 4.4.0, Presto 0.227,
Ganglia 3.7.2
? r5d.8xlarge﹜戊失?穴旦正奈用奈玉卅仄

Appendix.2 perf + Flame graph
$ sudo su -
# cd /home/hadoop/perf-map-agent/bin
# export FLAMEGRAPH_DIR=/home/hadoop/FlameGraph/
# export PERF_RECORD_SECONDS=15
# ./perf-java-flames 26883 & ./perf-java-flames 29762

Appnedix.3 俶夔煦昴汁奈伙及奶件旦玄奈伙
# EMR 穴旦正奈用奈玉卞伕弘奶件
$ ssh -i ~/mykeytokyo.pem hadoop@ec2-54-***-**-112.ap-northeast-1.compute.amazonaws.com
#跪意由永弗奈斥及奶件旦玄奈伙
$ sudo yum -y install htop sysstat dstat iotop ltrace strace perf blktrace gnuplot
# perf-map-agent 及奶件旦玄奈伙
$ sudo yum -y install cmake git
$ git clone --depth=1 https://github.com/jrudolph/perf-map-agent
$ cd perf-map-agent
$ cmake .
$ make
# FlameGraph 及奶件旦玄奈伙
$ git clone https://github.com/brendangregg/FlameGraph
$ chmod +x FlameGraph/*.pl
$ vi ~/.bashrc
$ export FLAMEGRAPH_DIR=~/FlameGraph
# sysdig 及奶件旦玄奈伙
$ sudo su -
# rpm --import https://s3.amazonaws.com/download.draios.com/DRAIOS-GPG-KEY.public
# curl -s -o /etc/yum.repos.d/draios.repo https://s3.amazonaws.com/download.draios.com/stable/rpm/draios.repo
# rpm -i https://mirror.us.leaseweb.net/epel/6/i386/epel-release-6-8.noarch.rpm
# yum -y install kernel-devel-$(uname -r)
# yum -y install sysdig

Appnedix.4 JVM 及左皿扑亦件毛偞隅
# JVM 及左皿扑亦件毛偞隅
$ sudo vi /etc/hadoop/conf/hadoop-env.sh
# Extra Java runtime options. Empty by default.
export HADOOP_OPTS=-XX:+PreserveFramePointer
# HDFS 及 Datanode 毛婬お�
$ sudo stop hadoop-hdfs-datanode
hadoop-hdfs-datanode stop/waiting
$ sudo status hadoop-hdfs-datanode
hadoop-hdfs-datanode stop/waiting
$ sudo start hadoop-hdfs-datanode
hadoop-hdfs-datanode start/running, process 27016
# Presto Server 毛婬お�
$ sudo initctl list|grep presto
presto-server start/running, process 17624
$ sudo stop presto-server
presto-server stop/waiting
$ sudo start presto-server
presto-server start/running, process 29763

Appendix.5 strace + perl 伐件仿奶瓜奈匹樓馱
$ sudo strace -fe sendfile -s 200 -o strace_hdfs_review_body.log -p 10858
$ head -3 strace_hdfs_review_body.log
3546 sendfile(984, 1042, [16796672], 65536∴ <unfinished ...>
3438 sendfile(979, 1007, [86431232], 65536 <unfinished ...>
3546<... sendfile resumed> ) = 65536
$ perl -lane '$F[1]=~/^sendfile/ and ($s)=$F[4]=~/^(d+)/ and print $s' strace_hdfs_review_body.log|sort|uniq -c|sort -r|head
-10
465521 65536
24 165
22 177
21 279
20 382
20 288
20 24576
19 240
18 513
17 505

Appendix.6 blktrace + btt + gnuplot
# blktrace -w 15 -d /dev/nvme1n1p2 -o nvme1n1p2 & blktrace -w 15 -d /dev/nvme2n1 -o nvme2n1 &
# ls nvme1n1p2.blktrace.*|while read LINE
do
btt -i ${LINE} -B ${LINE}.btt
done
# ls nvme2n1.blktrace.*|while read LINE
do
btt -i ${LINE} -B ${LINE}.btt
Done
# cat nvme1n1p2.blktrace.*.btt_*_c.dat > nvme1n1p2_btt_c_all_c.dat
# cat nvme2n1.blktrace.*.btt_*_c.dat > nvme2n1_btt_c_all_c.dat
# bno_plot.py nvme1n1p2_btt_c_all_c.dat ∴/usr/bin/bno_plot.py 及§os.system(＆/bin/rm -rf ＊ + tmpdir)§毛戊丟件玄失它玄
# bno_plot.py nvme2n1_btt_c_all_c.dat
# cd /tmp/tmpoSibdI
# vi plot.cmd
set terminal png ∴袚�
set output ＆nvme1n1p2_btt_c_all_c.png＊ ∴袚�
set title 'btt Generated Block Accesses'
set xlabel 'Time (secs)'
set ylabel 'Block Number'
set zlabel '# Blocks per IO'
set grid
splot 'nvme1n1p2_btt_c_all_c.dat'
set output ∴袚�
# gnuplot plot.cmds
# ls
nvme1n1p2_btt_c_all_c_ast.png nvme1n1p2_btt_c_all_c.dat plot.cmds

Appendix.7 統蕉ロ�
? Presto 匹 Parquet 卞弁巨伉允月午﹜統桽允月市仿丞及心掂氏匹中月仇午毛復庲仄凶
? 市仿丞瓜白巧奈穴永玄及五幻氏 ?犯奈正它尼失甩它旦毛盓尹月撮胍?
? https://engineer.retty.me/entry/columnar-storage-format
? Strata NY 2017 Parquet Arrow roadmap
? /julienledem/strata-ny-2017-parquet-arrow-roadmap
? Engineering Data Analytics with Presto and Apache Parquet at Uber
? https://eng.uber.com/presto/
? Even Faster: When Presto Meets Parquet @ Uber
? https://events.static.linuxfound.org/sites/events/files/slides/Presto.pdf
? blktrace 匹 block IO 及煦票毛褫�趙允月
? https://blog.etsukata.com/2013/12/blktrace-block-io.html
? Java Mixed-Mode Flame Graphs 匹 Java 及 CPU 生永弁毛白伙旦正永弁匹煦昴允月

端端舝

捩硃娶梁喝梗喧反市仿丞瓜卅及井ˋ

More Related Content

What's hot (20)

Similar to 捩硃娶梁喝梗喧反市仿丞瓜卅及井ˋ (20)

More from Yohei Azekatsu (11)

Recently uploaded (9)

捩硃娶梁喝梗喧反市仿丞瓜卅及井ˋ

Editor's Notes