狠狠撸

狠狠撸Share a Scribd company logo
Big Dataの技術背景と適用範囲

情報活用で富が生まれる時代にようこ
        そ
遅い、高い、重い、大きい




 记忆媒体の四重苦時代
RAMAC 305::月額リース3,200ドル→現在の購買価値で1億円弱
*7-bit 文字で500万文字
http://www.ed-thelen.org/comp-hist/BRL61-ibm03.html
記憶容量の順調な進化




引用:
Data storage continued to make exponential progress into the 1990s and beyond. Floppy disks were replaced by CD-
ROMs, which in turn were replaced by DVD-ROMs, which in turn began to be superseded by the Blu-Ray format.
Home PCs with 100 GB hard drives were common by 2005 and 1 terabyte (TB) hard drives were common by 2010.
http://www.futuretimeline.net/subject/computers-internet.htm
速い、安い、小さい、軽い




记忆媒体に今や文句なし
SSD(シリアルATA接続、内蔵型)CSSD-G240GB3
记忆媒体
                       data
                data
                   data
         data
 data

        data
                  安いが強大
高いが貧弱
ところが、、、

問題発生???
転送にかかる时间が急上昇中?
                          ハードディスク容量/転送速度(s/in2)
/標準



/標準



/標準



/標準


                                                                          ハードディスク容量/転送速度(s/in2)
/標準

                                                                          Expon. (ハードディスク容量/転送速度
                                                                          (s/in2))
/標準



/標準



/標準



/標準
  /標準   /標準   /標準   /標準   /標準   /標準   /標準   /標準   /標準   /標準   /標準   /標準
コンピューター処理の流れは


         1.データを記憶しておき

                      data
             data

                    data
2.データを読み出し



                                      処理
              data           INPUT
                                     Process
                                               OUTPUT   data


                              3.データを処理(加工)する
data               1.データ記憶は

      data                              目覚ましい進化!




              data
2.データ読み出し
ここが速くなっていない


                               処理
              data    INPUT
                              Process
                                         OUTPUT   data

      3.データ処理(CPUなど)プレゼンで触れませんが劇的進化。
?!

解決策
基本アイディア


大きい問題は小分けして解決
 Divide and Conquer. By Julius Caesar
data               この詰まり
data                             を打破する
                                 ために
   data

                        処理
       data    INPUT
                       Process
                                 OUTPUT   data
分散同时并行処理
        data                                     data
data                                    data

       data                      data          data              data
                        data                            data

                               data                            data
  data                                     data
                             data               data
                                                          data
                                        data
                       data                                       data
               data                            data      data
                      data                                      data
                                          data
                 data                                          data
1台ごとでみたら読み書き速度の限界にぶつからない
解決策の派生問題対策
1. 機材障害
 電算機器をたくさん使うので、どこかで必ず障害発生
  ←対策::HDFS(Hadoop Distributed Filesystem)
2. 分散しても結合しないといけない
 いったん散らしたデータを利用するときは結合しなくて
 はいけない。しかし、同時に多数の利用があるので捌く
 のは面倒な手間がかかり大変
  ←対策::MapReduce


お約束だった煩わしい環境整備?付随処理から解放
→「やりたいこと」だけに集中できる技術基盤が揃っ
た
HDFS
 脳みそ、日々死滅!

 でも、皆さん頭まわってます。

   一部が駄目になっても回る仕組みがあ
 るからです。

 HDFS(Hadoop   Dristributed Filesystem)も
 同じです。

 利用するコンピューター群の一部に障害が
 起きても、つつがなく作業が進む仕組みを
 備えています。
MapReduce
              data   2: 手分けして畳み込み処理::R
     data            educe
            data

                              処理
A1     data
                     INPUT
                             Process   OUTPUT   data
P:
              data
     data
 同          data
 種
 デ                            処理
 ー                   INPUT             OUTPUT   data
 タ     data                  Process
 に
 括
              data
 り   data
 分
 け          data
 :
 :                            処理
 M     data
                     INPUT
                             Process   OUTPUT   data
適用範囲




次回、6月8日に解説します。
misc
? 数分から数時間あるいは数日を要していた処理
  (←→時間は掛かるが終わりのある処理)
? 非常に高密度に集約された高帯域の相互接続環境
  下にある一つのデータセンター内(←→様々な通
  信速度の下にあるインターネット上のコンピュー
  タ群)
? 不正が行われる虞の無い専用機材を利用して処理
  する(信用できないインターネット上のコン
  ピュータ群)
? Mapすることでノードのデータボリュームがボト
  ルネックになることを回避する(←→グリッドコ
  ンピューティングでは巨大なノードの処理で待機
  渋滞)

More Related Content

Bigdata 2012 06-03