際際滷

際際滷Share a Scribd company logo
Spark Streaming
を聞ってみた
Ver 1.0
twitterリアルタイムトレンドランキング
2016定5埖30晩
Copyright ? Skywill inc. All Rights Reserved.
Copyright ? Skywill inc. All Rights Reserved.
メンバ`B初
2
票表o
署ヨル
?I SE
?叨 リ`ダ
?javas10定
?macs1定
?バナナきらい
?I SE
?叨 メンバ`
?javas5定
?晩云s4定
?署袗晩の匚はWの晩
Copyright ? Skywill inc. All Rights Reserved.
朕議
3
Spark Streamingを聞喘して、
ウィンドウ鹿をやってみる。
Copyright ? Skywill inc. All Rights Reserved.
アジェンダ
4
1. Sparkって採
2. Spark Streamingとは?
3. g樹
4. g樹のまとめ
Copyright ? Skywill inc. All Rights Reserved.
アジェンダ
5
1. Sparkって採
2. Spark Streamingとは?
3. g樹
4. g樹のまとめ
Copyright ? Skywill inc. All Rights Reserved. 6
Sparkって採
?寄トデ`タの蛍柊I尖をオンメモリでgFする
クラスタ`コンピュ`ティングプラットフォ`ム。
?仝書瘁はHadoopのMapReduceよりも
Sparkが聞われるようになる々と冱われている。
Apache Spark
古勣
竃灸Apache Spark (https://ja.wikipedia.org/wiki/Apache_Spark)
Apache Spark? is a fast and general engine
for large-scale data processing.
竃灸Apache Spark (http://spark.apache.org)
7
Sparkって採
淵薀ぅ屮薀
?SQLクエリI尖 仝Spark SQL々
?ストリ`ムI尖 仝Spark Streaming々
?C亠僥I尖 仝MLib々
?グラフI尖 仝Graph X々
SparkとHadoopのロジスティック指「I尖堀業曳^
麻Y惚をメモリにキャッシュする。
そのため、愔瓦MapReduceと曳べて
Rり卦し麻が互堀
I尖堀業
Copyright ? Skywill inc. All Rights Reserved.
竃灸The Apache Software Foundation http://spark.apache.org
8
Sparkって採
冱Zサポ`ト
?Java
?Scala
?Python
?R
インスト`ル
?ダウンロ`ド圷
https://spark.apache.org/downloads.html
?macにApache Sparkをインスト`ル C Qiita
http://qiita.com/kanuma1984/items/51c283ba2dd0f02c6aaa
などを歌深にインスト`ル
Copyright ? Skywill inc. All Rights Reserved.
9
の蒙
1RDD (Resilient Distributed Dataset)
Rり卦し旋喘するデ`タをキャッシュ貧に隠隔しするため、
I尖が掲械に壼い。
2On-memoryの互堀I尖
メモリ貧でRDDの壅旋喘ができる。
3DSL
Mapper?Reducerの笋錣蠅ScalaのDSLを峰できるため、
より喘議な冱Zで旋喘できる。
4S隔隠便が否叟
ソ`スコ`ドをにける。
Sparkって採
Copyright ? Skywill inc. All Rights Reserved.
10
Sparkって採
デ`タ
函り竃し
RDD
デ`タ屁侘
デ`タ屁侘
デ`タ屁侘
デ`タ屁侘
デ`タ屁侘
RDD
z
z
z
MapI尖 竃薦I尖
<?xml version=^1.0 ̄>
<title>XXX APIYYY函誼Y惚</title>
<location>35.5,139.0</location>
...
</xml>
{
^text ̄: ̄XXX APIYYY函誼Y惚 ̄,
^longtitude ̄: ̄35.5,
^latitude ̄: ̄139.0 ̄,
...
}
{
^title ̄: ̄XXX APIYYY函誼Y惚 ̄,
^location ̄: ̄35.5, 139.0 ̄
...
}
JSONQ秘薦デ`タ デ`タ屁侘瘁
Copyright ? Skywill inc. All Rights Reserved.
Copyright ? Skywill inc. All Rights Reserved. 11
の蒙
Sparkって採
1蛍柊I尖フレ`ムワ`ク
Mapper?Reducerのスクリプトで蛍柊I尖がg廾辛嬬。
2來
芦なサ`バをノ`ドとしてやすことでgにスケ`ルできる。
3塚嬾墾來
I尖嶄に匯何のノ`ドが絞嬾してもすぐにeノ`ドへI尖を
尅り蛍けられる。
おまけ
12
SparkとHadoopの`い
Sparkって採
$ バッチI尖(1つの寄きなサイズファイルI尖)
〜 リアルタイムI尖(}方の弌さなサイズのファイルをI尖)
?デ`タの隔ち圭 ファイル(サイズの弌さいファイル)
寄楚デ`タをI尖が辛嬬。
iみきのオ`バヘッドがあり、リアルタイムI尖には鬚ない。
$ リアルタイムI尖(}方の弌さなサイズのファイルをI尖)
〜 バッチI尖(1つの寄きなサイズのファイルをI尖)
?デ`タの隔ち圭 メモリ
メモリにデ`タを隔つため、デ`タアクセスが壼い。
剃に寄楚デ`タはQいにくい。
Copyright ? Skywill inc. All Rights Reserved.
13
Sparkって採
ワ`ドカウント
を佩う
サンプルソ`ス
MapReduce
Spark
竃灸Clouderaエンジニアブログhttp://blog.cloudera.com/
MapI尖
ReduceI尖
MapI尖
ReduceI尖6佩
36佩
Copyright ? Skywill inc. All Rights Reserved.
14
Sparkって採
リアルタイム鹿
オンメモリ
互堀
蛍柊I尖
HadoopとB亊
Dstream
RDD
C亠僥
デ`タサイエンス
y蛍裂
Scala
R
Python
Java
GraphX
Spark SQL
ストリ`ミングI尖
Sparkとは
メモリ貧でリアルタイムレベルの互堀I尖ができる
喘議蛍柊I尖プラットフォ`ム
Copyright ? Skywill inc. All Rights Reserved.
Copyright ? Skywill inc. All Rights Reserved.
アジェンダ
15
1. Sparkって採
2. Spark Streamingとは?
3. g樹
4. g樹のまとめ
Copyright ? Skywill inc. All Rights Reserved.
Spark Streamingとは
16
?Sparkの淵薀ぅ屮薀蠅厘擦
?リアルタイムに送れている
ストリ`ムソ`スを玉いg侯でRり卦し、
バッチI尖する。
?iみ坤好僣`ク ストリ`ミング
竃灸The Apache Software Foundation http://spark.apache.org
Copyright ? Skywill inc. All Rights Reserved.
Spark Streamingとは
17
?Spark Streaming喘のRDDを
BAしてKべたもの
デ`タのやり函りはDstreamの
鞭け局しで佩う
喘Z
?reduceByKeyAndWindowを旋喘し、
岷除匯協rgの鹿を辛嬬にする
(庵襦扱屬瓦箸法岷除1rgの鹿を
するなど)
?デ`タ勣殆をeの侏のRDDに
Qする
?岷除のデ`タを函誼?鹿する
?キ`、離撻△RDDにQする
DStream
ウィンドウ鹿
v方flatMap
v方mapToPair
v方reduceByKeyAndWindow
Copyright ? Skywill inc. All Rights Reserved.
アジェンダ
18
1. Sparkって採
2. Spark Streamingとは?
3. g樹
4. g樹のまとめ
Copyright ? Skywill inc. All Rights Reserved.
g樹
19
こんなんつくってみる。
Twitterのハッシュタグから
Spark Streamingを聞喘した
リアルタイムトレンドランキングチャ`ト
Twitter
API
Spark
Streaming
Web鮫中
岷除60昼阿離肇譽鵐姫輅
Copyright ? Skywill inc. All Rights Reserved.
システム撹
20
デ`タの送れ
Twitter
API
Spark
Streaming
MySQL
Twitterストリ`ムからのメタデ`タ函誼
撻禰`タを盾裂し鹿
?ハッシュタグ
?盾裂gみワ`ド
?カウント
システム撹┘魯奪轡絅織娃ワ`ドカウント
⊥リクエスト ∂レスポンス
∠デ`タ鯉{
テキストマイニング
撻禰`タ盾裂
肝の2Nをkeyにreduce
?ハッシュタグ盾裂gみワ`ド
?ハッシュタグのみ
曠禰`タ鹿
クライアント Twitter
Twitterリアルタイム
トレンドランキングチャ`ト
アプリ
戰瓮織禰`タ函誼
Copyright ? Skywill inc. All Rights Reserved. 21
Map Reduce
ツイ`トデ`タ
⌒デ`タ函誼
鯉{デ`タ
?ハッシュタグ
?盾裂gみワ`ド
?カウント
Copyright ? Skywill inc. All Rights Reserved.
g樹
22
Twitterデ`タ函誼何蛍 その1
Twitter4jを聞喘して、
twitterからstreamデ`タを
DStreamへ
1ツイ`トごとに
twitter云猟を盾裂する
兆~に蛍ける
晩云Z侘B殆盾裂
ライブラリ
聞喘v方map
戰瓮織禰`タ函誼
撻禰`タ盾裂
撻禰`タ盾裂
☆$坪の桑催はP20歌孚
Copyright ? Skywill inc. All Rights Reserved.
g樹
23
Twitterデ`タ函誼何蛍 その2
兆~に蛍ける
兆~ごとにmapにして
DStreamへデ`タをめる
貧のDStreamから
キ`が揖じものをペアにし
DStreamへデ`タをめる
聞喘v方flatMap
聞喘v方mapToPair
曠禰`タ鹿
曠禰`タ鹿
Copyright ? Skywill inc. All Rights Reserved.
g樹
24
Twitterデ`タ函誼何蛍 その3
DStreamから
キ`が揖じものをペアにし
DStreamへデ`タをめる
岷除10昼阿法1蛍鹿で
キ`をカウントする。
MysqlにY惚をdelete insert
これらのI尖を
?ハッシュタグ
?ワ`ド
?ハッシュタグワ`ド
それぞれ佩う。
聞喘v方
reduceByKeyAndWindow
聞喘v方mapToPair
∠デ`タ鯉{
曠禰`タ鹿
Copyright ? Skywill inc. All Rights Reserved.
g樹
25
鮫中燕幣何蛍
SQLでデ`タ函誼
?ハッシュタグ?ワ`ド
?ハッシュタグワ`ド
ごとに鮫中燕幣
∂レスポンス
⊥リクエスト
⌒デ`タ函誼
60昼阿縫禰`タ函誼リクエスト
Copyright ? Skywill inc. All Rights Reserved.
g樹
26
Y惚
Copyright ? Skywill inc. All Rights Reserved.
アジェンダ
27
1. Sparkって採
2. Spark streamingとは?
3. g樹
4. g樹のまとめ
Copyright ? Skywill inc. All Rights Reserved.
g樹のまとめ
28
書指、g樹としてSpark Streamingを旋喘して、
Twitterのハッシュタグ、ワ`ドを
岷除10昼ごと1蛍でウィンドウ鹿をすることができた。
Spark Streamingを旋喘して、
ウィンドウ鹿をおこなうことができる。
Copyright ? Skywill inc. All Rights Reserved.
ふろく┘┘鵐献縫廣朕業からみたSpark
29
識貧N嶄
http://redmonk.com/dberkholz/2015/03/13/the-emergence-of-spark/
Copyright ? Skywill inc. All Rights Reserved.
ふろくHacker秤鵑らみたSpark
30
識貧N嶄
http://redmonk.com/dberkholz/2015/03/13/the-emergence-of-spark/
Copyright ? Skywill inc. All Rights Reserved.
ふろくGoogleトレンドからみたSpark
31
識貧N嶄
http://redmonk.com/dberkholz/2015/03/13/the-emergence-of-spark/
Copyright ? Skywill inc. All Rights Reserved.
ふろくHadoop vs SparkGoogleトレンド
32
win
Copyright ? Skywill inc. All Rights Reserved.
ふろくIn Gartner Magic Quadrant for Operational DBMS
33
Sparkの容卞
Copyright ? Skywill inc. All Rights Reserved.
ふろくIn Gartner Magic Quadrant for Operational DBMS
34
Sparkベ`ス
Copyright ? Skywill inc. All Rights Reserved.
ふろくIn Gartner Magic Quadrant for Operational DBMS
35
Sparkベ`ス
Copyright ? Skywill inc. All Rights Reserved.
ふろくIn Gartner Magic Quadrant for Operational DBMS
36

More Related Content

Spark Streamingを聞ってみた ~Twitterリアルタイムトレンドランキング~