狠狠撸

狠狠撸Share a Scribd company logo
世界?簡単なHadoopの話
株式会社イオシス
http://io-sys.co.jp/
     島崎浩一
つーかHadoopって何なの?
? 一言で???言えない!
? Hadoopには大きく分けてHDFSという
分散ファイルシステムという役割と、
MapReduceという処理エンジンがある
? HDFSは完全にインフラ的な話
? MapReduceは完全にアプリ的な話
                        更に???
つーかHadoopって何なの?
使いこなす為に統計学的な知識や
高度な処理要件が必要になる!
要件定義に、単に業務に詳しいだけ
ではなくデータサイエンティストが必要
つーかHadoopって何なの?
よって、構築に際し
インフラに詳しくて、Javaとかにも詳しくて、
アプリ開発経験があって、統計分析も出来て、
業務にも詳しい人が必要になる
つーかHadoopって何なの?
よって、構築に際し
インフラに詳しくて、Javaとかにも詳しくて、
アプリ開発経験があって、統計分析も出来て、
業務にも詳しい人が必要になる
   んな奴いるか!(俺以外に!嘘ゴメン)
これがHadoopやビッグデータの大変さ
HDFS
つーことで、一つ一つざっくりと説明してみる
HDFS(分散ファイルシステム)は RAID5
RAID5は一つのPCの中でHDDを複数使う
という仕組みだが、
HDFSは一つのHDFSの中で複数のPCを使う
という感じなだけ。
役割も大体一緒
MapReduce
処理の方式。Javaで実装するフレームワーク。
Mapという分類処理と、
ReduceというMapの結果に対する整理処理
合わせてMapReduceという集計処理
なだけ。
MapReduce
例えばリアルで行われてる、大量のデータを集
計して計算して順番並べてといえば…
そう、選挙の開票作業がまさにそれ!
MapReduce
Map処理
データを集めて名前ごとに分類
Reduce処理
Mapである程度たばになったモノを
ちゃんと整理して順番にならべたり
まとめると
まぁ大体こんな感じ。
全員がそれぞれ全部解ってないとダメなわけ
じゃないけど、ある程度解っててくれないと話
にならない。
おまけにインフラにかかる費用も凄い(導入
はAWS前提かなぁ)。
という感じなので、システム屋としては
いろいろ大変なのでした。

More Related Content

世界一简単な贬补诲辞辞辫の话