狠狠撸

狠狠撸Share a Scribd company logo
Windows Azure
HDInsight サービス
佐々木邦暢 (@ksasakims)
日本マイクロソフト株式会社
2
? Apache Hadoop
? HDInsight 登場
? クラスターの作成
? クラスターの操作
? MapReduce プログラムの開発
? 外部との接続
本日の内容
Windows Azure HDInsight サービスの紹介
4
突然ですが
いま、1 TB の Web アクセスログファイルが目の前にあります。
URI 毎にアクセス数を集計しなければなりません。
どうしますか?
grep sort uniq| | > output
5
分散処理の必要性
いずれにせよ、数多くのコンピューターで生成されるデータを、
たった一台で分析するのは無理があります。
一人じゃムリ…
複数のコンピューターによる分散処理が必要です
手分けしよう!
6
そこで Apache Hadoop です
Apache の分散コンピューティングフレームワーク
Google の論文が
契機となって誕生!
多数のサーバーで
分散処理
Yahoo や Facebook
で使われている高スケーラビリティ
7
HDFS
Hadoop の提供するもの
その 1. 分散ファイルシステム “HDFS” (Hadoop Distributed File System)
? 複数のコンピューターを束ねて、
一つの仮想的なファイルシステムを提供。
? Hadoop クラスタに属する全ての
ノードが同じ名前空間を共有。
? 各ファイルは 64 MB ~ 256 MB 程度の
ブロックに分割されて、複数ノードに分散。
? ブロックサイズが大きいのは、シーケン
シャルアクセスに特化しているため
? 各断片は最低 3 ノードに複製され、
ノード障害への耐性を持つ。
? 一つのファイルの複数の部分を、複数の
コンピューターで同時に処理することで、
処理を高速化することができる。
断片 1 断片 2 断片 3 断片 4
断片 1 断片 2 断片 3 断片 4
ファイル 1 断片 1 断片 2 断片 3 断片 4
ファイル 4 断片 1 断片 2 断片 3 断片 4
8
Hadoop の提供するもの
その 2. 分散プログラミングモデル “MapReduce”
2013-08-26 23:59:03 W3SVC1 192.168.0.1 GET /…
2013-08-26 23:59:05 W3SVC1 192.168.0.1 GET /…
2013-08-26 23:59:25 W3SVC1 192.168.0.1 GET /…
2013-08-27 00:01:02 W3SVC1 192.168.0.1 GET /…
2013-08-27 00:02:04 W3SVC1 192.168.0.1 GET /…
? 名前は一見難しげですが、実際には単純です。
(だからこそスケーラビリティがあります)
? 例えば右のような Web のアクセスログがあるとして、
? 伝統的なテキスト処理ツールによる集計はこのようなものですが、
$ cat access_log | grep /Login.aspx | sort | uniq –c > output.txt
対象ファイルの全行を頭から舐めて
何らかの処理をする(この場合は検索)
中間結果を集計の
ためにソートする
ソートされたデータを
数え上げて結果を得る
MapReduce はこういった処理をクラスター上で分散並列実行する仕組みです
Map Reduce
9
Hadoop クラスターの構成要素
Hadoop クラスター
MapReduce 層
HDFS 層
ファイルの
登録情報を
一元管理
ジョブ
トラッカー
タスク
トラッカー
タスク
トラッカー
タスク
トラッカー
タスク
トラッカー
Map タスク Map タスクジョブと
タスクの
状態を管理
Map タスク Map タスク Reduce
タスク
タスク
トラッカー
Windows Azure HDInsight サービスの紹介
11
Windows (Azure|Server) HDInsight
Hortonworks と協業し、Windows 環境で Hadoop を提供します
? 元々 Java で書かれたオープンソースプロジェクトである
Hadoop ですが、 Windows 環境でスムーズに動かすた
めにはいくつか工夫が必要でした。
? マイクロソフトは Hortonworks 社と協業し、 Hadoop
の Windows 環境への移植と最適化を行っています。
? Hortonworks は Yahoo! で Apache Hadoop の
開発に携わっていたチームが独立して設立された企業。
? “Hortonworks Data Platform” (HDP) という
Hadoop ディストリビューションを開発しており、
その Windows 版が HDInsight のコア部分です。
http://hortonworks.com/products/hdp-windows/
12
Windows Azure HDInsight Service
すぐに使えるクラウド上の Hadoop です。
? 現在プレビュー中
? 40 ノードまでのクラスタが作成可能
? 料金は半額
? 利用可能なリージョンは以下の 3 箇所
? 北ヨーロッパ (North Europe)
? 米国東部 (East US)
? 米国西部 (West US)
? インスタンスサイズ
? ヘッドノード(ネームノード)は XL
? データノードは L サイズ
? OS
? Windows Server 2008 R2
13
HDInsight に含まれる Hadoop のバージョン
Hcatalog
0.4.1
主要な関連
プロジェクト
14
HDInsight Service システム構成
データ ノードネーム ノード BLOB ストレージ
Windows Azure の PaaS 機能と BLOB ストレージを活用します。
? ネームノード、データノードは
どちらも Worker ロールの
インスタンスです。
? 多数のノードを素早く
デプロイできます。
? また、Windows Azure の
「BLOB ストレージ」を、
デフォルトのファイルシステム
として利用します。
? もちろん HDFS も
利用可能です。
15
なぜ BLOB ストレージ?
HDFS の代わりに BLOB ストレージを使うメリット
? BLOB ストレージは、大容量?低価格?高信頼性と
三拍子そろった Windows Azure の主要サービスです。
? Azure 上で稼働する多くのアプリケーションが、
BLOB ストレージにデータを保存しています。
? また、“Windows Azure Diagnostics” 機能で Azure
上のサーバーから IIS ログ等のログファイルを BLOB
ストレージへ自動転送することも一般的です。
? BLOB をデフォルトのファイルシステムとすることで、
これら BLOB 上のデータを HDFS へ一旦コピーするこ
となく、直接分析することができます。
データはそこにある! クラスターを消してもデータは残る
? Hadoop クラスターの稼働中は、ジョブを実行していな
い時間も CPU コア数に応じた課金が発生します。
? クラスターを削除してしまえば、課金は止まりますが、
HDFS は各ノードのローカルディスクであるため、
内容が失われてしまいます。
? BLOB ストレージは、クラスターとは切り離されていま
すから、クラスターを削除してもデータは残ります。
様々なツールが利用可能
? BLOB ストレージにアクセスする既存のツールで、
Hadoop クラスターとデータのやり取りができます。
? CloudBerry Explorer for Windows Azure や
CloudXplorer, AzCopy 等。
16
Azure Storage Vault (ASV)
どういう仕組みで BLOB を Hadoop のファイルシステムにしているのか
そもそも Hadoop のファイルシステムは可換
? 様々なファイルシステムを扱えるように、 Hadoop はファイルシステムの抽象化層を持っています。
? マイクロソフトは NativeAzureFileSystem クラスを作成し、 Azure BLOB をサポートできるようにしました。
種類 URI
スキーム
Java の実装クラス
(org.apache.Hadoop)
説明
Local file fs.LocalFileSystem
ローカル
ファイルシステム
HDFS hdfs hdfs.DistributedFileSystem これがデフォルト
FTP ftp fs.ftp.FTPFileSystem FTP サイト用
S3 s3n fs.s3native.NativeS3FileSystem Amazon S3 用
Azure
BLOB
asv fs.azurenative.NativeAzureFileSystem Azure BLOB 用
主なファイルシステム
17
ASV の登録と利用
asv://コンテナ名@アカウント名.blob.core.windows.net/パス名
core-site.xml で、 BLOB ストレージがデフォルトファイルシステムに設定されています。
Windows Azure HDInsight サービスの紹介
19
管理ポータルからクラスター作成
「簡易作成」であっという間に 32 ノードまでのクラスタが作れます
「簡易作成」画面にはリージョンの指定欄が
ありませんが、ここで選択したストレージ
アカウントと同じリージョンに、
HDInsight クラスターが作成されます。
20
PowerShell を使ってクラスター作成
New-AzureHDInsightCluster -Name 名前
-SubscriptionId SUBID
-Certificate CERT -Location “West US“
-DefaultStorageAccountName ACCOUNT
–DefaultStorageAccountKey KEY
-DefaultStorageContainerName CONTAINER
-UserName ksasaki -Password xxxxxxxxx
-ClusterSizeInNodes 8
HDInsight 管理用コマンドレットで運用を自動化できます。
21
出来上がった HDInsight クラスター
Windows Azure HDInsight サービスの紹介
23
JavaScript コンソール
“#コマンド” で、FS Shellの
コマンドを呼び出せます。
“#lsr” は ”hadoop fs –lsr” に相当します。
“#fs.get” で Hadoop 上のファイルを
ローカルコンピューターへダウンロード。
24
Hive コンソール
クエリの結果と、実行された
MapReduce ジョブに関する情報が、
ここに表示されます。
ここに HQL を入力します。
Windows Azure HDInsight サービスの紹介
26
Hadoop は Java だけ? .NET は?
Java 以外の言語でもプログラムを開発できます!
? Hadoop 自体が Java で書かれているため、
MapReduce プログラムを書く言語としては Java が
メジャーです。
? しかし、 Hadoop には “Hadoop Streaming” という
仕組みがあり、およそありとあらゆる言語で
MapReduce できるようになっています。
? Hadoop Streaming は、
「標準入出力に対してプログラミングするだけで、
MapReduce ジョブができあがる。」
という、ある意味 inetd のような存在です。
元より多言語対応 Microsoft .NET SDK For Hadoop
? Codeplex でホストされているオープンソースプロ
ジェクトです。下記のモジュールがあります。
? Hadoop Streaming を活用した “.NET MapReduce”
? LINQ で Hive にクエリを行える “LINQ To Hive”
? HDInsight 管理用の PowerShell コマンドレット
? WebHDFS クライアント
? https://hadoopsdk.codeplex.com/
27
.NET MapReduce
? Hadoop Streaming API の .NET ラッパーです。
? C# や Visual Basic で MapReduce ジョブを記述できます。
28
LINQ To Hive
? LINQ のクエリを HIVE クエリに自動変換し、
.NET プログラムから自然な形で Hadoop の
データにアクセスできます。
Windows Azure HDInsight サービスの紹介
30
Hive ODBC ドライバー
ODBC 経由で HDinsight クラスターの Hive に接続できます。
Hive ODBC ドライバーのインストール
Hive データソースの作成
接続先テーブルの選択
31
ODBC 経由で Excel へデータ取込み
Excel 上で Hive クエリの編集/結果セットの表示ができます。
HQL 文の定義
HDInsight から Excel へ取り込まれたデータ
32
HDInsight 関連情報
? “Crunch Big Data in the Cloud with Windows Azure HDInsight Service”
http://blogs.msdn.com/b/windowsazure/archive/2013/03/18/announcing-the-public-preview-of-azure-
hdinsight.aspx
? “Hortonworks & Microsoft: Bringing Apache Hadoop to Windows”
http://hortonworks.com/partners/microsoft/
? “HDInsight の開発”
http://blogs.msdn.com/b/windowsazurej/archive/2013/04/03/developing-for-hdinsight.aspx
? “Winodws Azure HDInsight パブリック プレビュー開始!”
http://blogs.technet.com/b/ksasaki/archive/2013/03/19/winodws-azure-hdinsight.aspx
? “How to Connect Excel to Windows Azure HDInsight via HiveODBC”
https://www.windowsazure.com/en-us/manage/services/hdinsight/use-excel-via-hive-odbc-driver/
? Microsoft ODBC Driver For Hive
http://www.microsoft.com/en-us/download/details.aspx?id=37134
Windows Azure HDInsight サービスの紹介

More Related Content

What's hot (20)

PDF
[db tech showcase Tokyo 2016] D27: Next Generation Apache Cassandra by ヤフー株式会...
Insight Technology, Inc.
?
PDF
AWS Casual 02: ふつうのRedshiftパフォーマンスチューニング
Minero Aoki
?
PDF
贬补诲辞辞辫 基础
hideaki honda
?
PDF
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Hadoop / Spark Conference Japan
?
PPT
奥别产アプリケーションから见た颁补蝉蝉补苍诲谤补
2t3
?
PDF
惭补辫搁别诲耻肠别プログラミング入门
Satoshi Noto
?
PDF
尝辞驳を蝉3と谤别诲蝉丑颈蹿迟に格纳する仕组み
Ken Morishita
?
PDF
贬补诲辞辞辫概要説明
Satoshi Noto
?
PDF
厂辫补谤办と颁补蝉蝉补苍诲谤补の美味しい関係
datastaxjp
?
PPTX
Amazon Redshift ことはじめ
Shiro Miyazaki
?
PDF
Db tech showcase2015 how to replicate between clusters
Hiroaki Kubota
?
PPT
Amazon Redshift ベンチマーク Hadoop + Hiveと比較
FlyData Inc.
?
PDF
Amazon Redshiftへの移行方法と設計のポイント(db tech showcase 2016)
Amazon Web Services Japan
?
PDF
Couchbase introduction-20150611
Couchbase Japan KK
?
PDF
Cassandraのトランザクションサポート化 & web2pyによるcms用プラグイン開発
kishimotosc
?
PPTX
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...
Insight Technology, Inc.
?
PDF
[db tech showcase Tokyo 2015] A33:Amazon Aurora Deep Dive by アマゾン データ サービス ジャ...
Insight Technology, Inc.
?
PDF
Datastax Enterpriseをはじめよう
Yuki Morishita
?
PDF
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Future Of Data Japan
?
PDF
ただいま贬补诲辞辞辫勉强中
Satoshi Noto
?
[db tech showcase Tokyo 2016] D27: Next Generation Apache Cassandra by ヤフー株式会...
Insight Technology, Inc.
?
AWS Casual 02: ふつうのRedshiftパフォーマンスチューニング
Minero Aoki
?
贬补诲辞辞辫 基础
hideaki honda
?
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Hadoop / Spark Conference Japan
?
奥别产アプリケーションから见た颁补蝉蝉补苍诲谤补
2t3
?
惭补辫搁别诲耻肠别プログラミング入门
Satoshi Noto
?
尝辞驳を蝉3と谤别诲蝉丑颈蹿迟に格纳する仕组み
Ken Morishita
?
贬补诲辞辞辫概要説明
Satoshi Noto
?
厂辫补谤办と颁补蝉蝉补苍诲谤补の美味しい関係
datastaxjp
?
Amazon Redshift ことはじめ
Shiro Miyazaki
?
Db tech showcase2015 how to replicate between clusters
Hiroaki Kubota
?
Amazon Redshift ベンチマーク Hadoop + Hiveと比較
FlyData Inc.
?
Amazon Redshiftへの移行方法と設計のポイント(db tech showcase 2016)
Amazon Web Services Japan
?
Couchbase introduction-20150611
Couchbase Japan KK
?
Cassandraのトランザクションサポート化 & web2pyによるcms用プラグイン開発
kishimotosc
?
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...
Insight Technology, Inc.
?
[db tech showcase Tokyo 2015] A33:Amazon Aurora Deep Dive by アマゾン データ サービス ジャ...
Insight Technology, Inc.
?
Datastax Enterpriseをはじめよう
Yuki Morishita
?
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Future Of Data Japan
?
ただいま贬补诲辞辞辫勉强中
Satoshi Noto
?

Similar to Windows Azure HDInsight サービスの紹介 (20)

PPTX
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
GoAzure
?
PPTX
ゾウ使いへの第一歩
Fumito Ito
?
PDF
础滨?贬笔颁?ビッグデータで利用される分散ファイルシステムを知る
日本ヒューレット?パッカード株式会社
?
PDF
バックエンドサービスに日の目を当てて愛でましょう ~メディアサービス&HDInsight編~
normalian
?
PPTX
Azure Datalake 大全
Daiyu Hatakeyama
?
PDF
NTTデータ流 Hadoop活用のすすめ ~インフラ構築?運用の勘所~
NTT DATA OSS Professional Services
?
PDF
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
hamaken
?
PDF
第1回闯础窜鲍骋静冈勉强会
Sunao Tomita
?
PDF
第1回贬补诲辞辞辫関西勉强会参加レポート
You&I
?
PPT
Hadoop ~Yahoo! JAPANの活用について~
驰补丑辞辞!デベロッパーネットワーク
?
PPTX
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...
NTT DATA Technology & Innovation
?
PDF
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
Developers Summit
?
PDF
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
Hideo Takagi
?
PDF
Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」
オラクルエンジニア通信
?
PDF
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
NTT DATA OSS Professional Services
?
PDF
WDD2012_SC-004
Kuninobu SaSaki
?
PPTX
Cld012 spark on_azure_-_ビッグデータ
Tech Summit 2016
?
PDF
Cld012 spark on_azure_-_ビッグデータ
Tech Summit 2016
?
PDF
贬补诲辞辞辫事始め
You&I
?
PPTX
鹿駆動勉強会 青江発表資料
Takashi Aoe
?
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
GoAzure
?
ゾウ使いへの第一歩
Fumito Ito
?
础滨?贬笔颁?ビッグデータで利用される分散ファイルシステムを知る
日本ヒューレット?パッカード株式会社
?
バックエンドサービスに日の目を当てて愛でましょう ~メディアサービス&HDInsight編~
normalian
?
Azure Datalake 大全
Daiyu Hatakeyama
?
NTTデータ流 Hadoop活用のすすめ ~インフラ構築?運用の勘所~
NTT DATA OSS Professional Services
?
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
hamaken
?
第1回闯础窜鲍骋静冈勉强会
Sunao Tomita
?
第1回贬补诲辞辞辫関西勉强会参加レポート
You&I
?
Hadoop ~Yahoo! JAPANの活用について~
驰补丑辞辞!デベロッパーネットワーク
?
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...
NTT DATA Technology & Innovation
?
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
Developers Summit
?
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
Hideo Takagi
?
Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」
オラクルエンジニア通信
?
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
NTT DATA OSS Professional Services
?
WDD2012_SC-004
Kuninobu SaSaki
?
Cld012 spark on_azure_-_ビッグデータ
Tech Summit 2016
?
Cld012 spark on_azure_-_ビッグデータ
Tech Summit 2016
?
贬补诲辞辞辫事始め
You&I
?
鹿駆動勉強会 青江発表資料
Takashi Aoe
?
Ad

More from Kuninobu SaSaki (20)

PDF
A100 GPU 搭載! P4d インスタンス 使いこなしのコツ
Kuninobu SaSaki
?
PDF
贰苍谤辞辞迟と笔测虫颈蝉で快适コンテナ生活
Kuninobu SaSaki
?
PDF
Automatic Mixed Precision の紹介
Kuninobu SaSaki
?
PDF
GTC 2019 NVIDIA NEWS
Kuninobu SaSaki
?
PDF
SC18 NVIDIA NEWS
Kuninobu SaSaki
?
PDF
GTC Japan 2018 NVIDIA NEWS
Kuninobu SaSaki
?
PDF
ISC17 NVIDIA NEWS 日本版
Kuninobu SaSaki
?
PDF
GTC17 NVIDIA News
Kuninobu SaSaki
?
PDF
SC16 NVIDIA NEWS
Kuninobu SaSaki
?
PDF
20150821 Azure 仮想マシンと仮想ネットワーク
Kuninobu SaSaki
?
PPTX
础锄耻谤别仮想マシンと仮想ネットワーク
Kuninobu SaSaki
?
PDF
もっとわかる Microsoft Azure 最新技術アップデート編 - 20150123
Kuninobu SaSaki
?
PDF
Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」
Kuninobu SaSaki
?
PDF
20140818 オープン白熱塾 ksasakims
Kuninobu SaSaki
?
PDF
YAPC::Asia Tokyo 2013 ランチセッション
Kuninobu SaSaki
?
PPTX
Effective Hyper-V - 久しぶりエディション
Kuninobu SaSaki
?
PDF
HPC Azure TOP500 2012-11
Kuninobu SaSaki
?
PPTX
TechEd2010_T2-401_EffectiveHyper-V
Kuninobu SaSaki
?
PPTX
TechEd2009_T1-402_EffectiveHyper-V
Kuninobu SaSaki
?
PPTX
TechEd2008_T1-407_EffectiveHyper-V
Kuninobu SaSaki
?
A100 GPU 搭載! P4d インスタンス 使いこなしのコツ
Kuninobu SaSaki
?
贰苍谤辞辞迟と笔测虫颈蝉で快适コンテナ生活
Kuninobu SaSaki
?
Automatic Mixed Precision の紹介
Kuninobu SaSaki
?
GTC 2019 NVIDIA NEWS
Kuninobu SaSaki
?
SC18 NVIDIA NEWS
Kuninobu SaSaki
?
GTC Japan 2018 NVIDIA NEWS
Kuninobu SaSaki
?
ISC17 NVIDIA NEWS 日本版
Kuninobu SaSaki
?
GTC17 NVIDIA News
Kuninobu SaSaki
?
SC16 NVIDIA NEWS
Kuninobu SaSaki
?
20150821 Azure 仮想マシンと仮想ネットワーク
Kuninobu SaSaki
?
础锄耻谤别仮想マシンと仮想ネットワーク
Kuninobu SaSaki
?
もっとわかる Microsoft Azure 最新技術アップデート編 - 20150123
Kuninobu SaSaki
?
Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」
Kuninobu SaSaki
?
20140818 オープン白熱塾 ksasakims
Kuninobu SaSaki
?
YAPC::Asia Tokyo 2013 ランチセッション
Kuninobu SaSaki
?
Effective Hyper-V - 久しぶりエディション
Kuninobu SaSaki
?
HPC Azure TOP500 2012-11
Kuninobu SaSaki
?
TechEd2010_T2-401_EffectiveHyper-V
Kuninobu SaSaki
?
TechEd2009_T1-402_EffectiveHyper-V
Kuninobu SaSaki
?
TechEd2008_T1-407_EffectiveHyper-V
Kuninobu SaSaki
?
Ad

Recently uploaded (9)

PPTX
色について.pptx .
iPride Co., Ltd.
?
PDF
論文紹介:Unbiasing through Textual Descriptions: Mitigating Representation Bias i...
Toru Tamaki
?
PPTX
勉強会_ターミナルコマント?入力迅速化_20250620. pptx. .
iPride Co., Ltd.
?
PDF
Forguncy 10 製品概要資料 - ノーコードWebアプリ開発プラットフォーム
フォーガンシー
?
PDF
論文紹介:AutoPrompt: Eliciting Knowledge from Language Models with Automatically ...
Toru Tamaki
?
PPTX
Vibe Codingを始めよう ?Cursorを例に、ノーコードでのプログラミング体験?
iPride Co., Ltd.
?
PDF
安尾 萌, 松下 光範. 環境馴致を計量可能にするための試み,人工知能学会第4回仕掛学研究会, 2018.
Matsushita Laboratory
?
PDF
安尾 萌, 北村 茂生, 松下 光範. 災害発生時における被害状況把握を目的とした情報共有システムの基礎検討, 電子情報通信学会HCGシンポジウム2018...
Matsushita Laboratory
?
PDF
安尾 萌, 藤代 裕之, 松下 光範. 協調的情報トリアージにおけるコミュニケーションの影響についての検討, 第11回データ工学と情報マネジメントに関する...
Matsushita Laboratory
?
色について.pptx .
iPride Co., Ltd.
?
論文紹介:Unbiasing through Textual Descriptions: Mitigating Representation Bias i...
Toru Tamaki
?
勉強会_ターミナルコマント?入力迅速化_20250620. pptx. .
iPride Co., Ltd.
?
Forguncy 10 製品概要資料 - ノーコードWebアプリ開発プラットフォーム
フォーガンシー
?
論文紹介:AutoPrompt: Eliciting Knowledge from Language Models with Automatically ...
Toru Tamaki
?
Vibe Codingを始めよう ?Cursorを例に、ノーコードでのプログラミング体験?
iPride Co., Ltd.
?
安尾 萌, 松下 光範. 環境馴致を計量可能にするための試み,人工知能学会第4回仕掛学研究会, 2018.
Matsushita Laboratory
?
安尾 萌, 北村 茂生, 松下 光範. 災害発生時における被害状況把握を目的とした情報共有システムの基礎検討, 電子情報通信学会HCGシンポジウム2018...
Matsushita Laboratory
?
安尾 萌, 藤代 裕之, 松下 光範. 協調的情報トリアージにおけるコミュニケーションの影響についての検討, 第11回データ工学と情報マネジメントに関する...
Matsushita Laboratory
?

Windows Azure HDInsight サービスの紹介

  • 1. Windows Azure HDInsight サービス 佐々木邦暢 (@ksasakims) 日本マイクロソフト株式会社
  • 2. 2 ? Apache Hadoop ? HDInsight 登場 ? クラスターの作成 ? クラスターの操作 ? MapReduce プログラムの開発 ? 外部との接続 本日の内容
  • 4. 4 突然ですが いま、1 TB の Web アクセスログファイルが目の前にあります。 URI 毎にアクセス数を集計しなければなりません。 どうしますか? grep sort uniq| | > output
  • 6. 6 そこで Apache Hadoop です Apache の分散コンピューティングフレームワーク Google の論文が 契機となって誕生! 多数のサーバーで 分散処理 Yahoo や Facebook で使われている高スケーラビリティ
  • 7. 7 HDFS Hadoop の提供するもの その 1. 分散ファイルシステム “HDFS” (Hadoop Distributed File System) ? 複数のコンピューターを束ねて、 一つの仮想的なファイルシステムを提供。 ? Hadoop クラスタに属する全ての ノードが同じ名前空間を共有。 ? 各ファイルは 64 MB ~ 256 MB 程度の ブロックに分割されて、複数ノードに分散。 ? ブロックサイズが大きいのは、シーケン シャルアクセスに特化しているため ? 各断片は最低 3 ノードに複製され、 ノード障害への耐性を持つ。 ? 一つのファイルの複数の部分を、複数の コンピューターで同時に処理することで、 処理を高速化することができる。 断片 1 断片 2 断片 3 断片 4 断片 1 断片 2 断片 3 断片 4 ファイル 1 断片 1 断片 2 断片 3 断片 4 ファイル 4 断片 1 断片 2 断片 3 断片 4
  • 8. 8 Hadoop の提供するもの その 2. 分散プログラミングモデル “MapReduce” 2013-08-26 23:59:03 W3SVC1 192.168.0.1 GET /… 2013-08-26 23:59:05 W3SVC1 192.168.0.1 GET /… 2013-08-26 23:59:25 W3SVC1 192.168.0.1 GET /… 2013-08-27 00:01:02 W3SVC1 192.168.0.1 GET /… 2013-08-27 00:02:04 W3SVC1 192.168.0.1 GET /… ? 名前は一見難しげですが、実際には単純です。 (だからこそスケーラビリティがあります) ? 例えば右のような Web のアクセスログがあるとして、 ? 伝統的なテキスト処理ツールによる集計はこのようなものですが、 $ cat access_log | grep /Login.aspx | sort | uniq –c > output.txt 対象ファイルの全行を頭から舐めて 何らかの処理をする(この場合は検索) 中間結果を集計の ためにソートする ソートされたデータを 数え上げて結果を得る MapReduce はこういった処理をクラスター上で分散並列実行する仕組みです Map Reduce
  • 9. 9 Hadoop クラスターの構成要素 Hadoop クラスター MapReduce 層 HDFS 層 ファイルの 登録情報を 一元管理 ジョブ トラッカー タスク トラッカー タスク トラッカー タスク トラッカー タスク トラッカー Map タスク Map タスクジョブと タスクの 状態を管理 Map タスク Map タスク Reduce タスク タスク トラッカー
  • 11. 11 Windows (Azure|Server) HDInsight Hortonworks と協業し、Windows 環境で Hadoop を提供します ? 元々 Java で書かれたオープンソースプロジェクトである Hadoop ですが、 Windows 環境でスムーズに動かすた めにはいくつか工夫が必要でした。 ? マイクロソフトは Hortonworks 社と協業し、 Hadoop の Windows 環境への移植と最適化を行っています。 ? Hortonworks は Yahoo! で Apache Hadoop の 開発に携わっていたチームが独立して設立された企業。 ? “Hortonworks Data Platform” (HDP) という Hadoop ディストリビューションを開発しており、 その Windows 版が HDInsight のコア部分です。 http://hortonworks.com/products/hdp-windows/
  • 12. 12 Windows Azure HDInsight Service すぐに使えるクラウド上の Hadoop です。 ? 現在プレビュー中 ? 40 ノードまでのクラスタが作成可能 ? 料金は半額 ? 利用可能なリージョンは以下の 3 箇所 ? 北ヨーロッパ (North Europe) ? 米国東部 (East US) ? 米国西部 (West US) ? インスタンスサイズ ? ヘッドノード(ネームノード)は XL ? データノードは L サイズ ? OS ? Windows Server 2008 R2
  • 13. 13 HDInsight に含まれる Hadoop のバージョン Hcatalog 0.4.1 主要な関連 プロジェクト
  • 14. 14 HDInsight Service システム構成 データ ノードネーム ノード BLOB ストレージ Windows Azure の PaaS 機能と BLOB ストレージを活用します。 ? ネームノード、データノードは どちらも Worker ロールの インスタンスです。 ? 多数のノードを素早く デプロイできます。 ? また、Windows Azure の 「BLOB ストレージ」を、 デフォルトのファイルシステム として利用します。 ? もちろん HDFS も 利用可能です。
  • 15. 15 なぜ BLOB ストレージ? HDFS の代わりに BLOB ストレージを使うメリット ? BLOB ストレージは、大容量?低価格?高信頼性と 三拍子そろった Windows Azure の主要サービスです。 ? Azure 上で稼働する多くのアプリケーションが、 BLOB ストレージにデータを保存しています。 ? また、“Windows Azure Diagnostics” 機能で Azure 上のサーバーから IIS ログ等のログファイルを BLOB ストレージへ自動転送することも一般的です。 ? BLOB をデフォルトのファイルシステムとすることで、 これら BLOB 上のデータを HDFS へ一旦コピーするこ となく、直接分析することができます。 データはそこにある! クラスターを消してもデータは残る ? Hadoop クラスターの稼働中は、ジョブを実行していな い時間も CPU コア数に応じた課金が発生します。 ? クラスターを削除してしまえば、課金は止まりますが、 HDFS は各ノードのローカルディスクであるため、 内容が失われてしまいます。 ? BLOB ストレージは、クラスターとは切り離されていま すから、クラスターを削除してもデータは残ります。 様々なツールが利用可能 ? BLOB ストレージにアクセスする既存のツールで、 Hadoop クラスターとデータのやり取りができます。 ? CloudBerry Explorer for Windows Azure や CloudXplorer, AzCopy 等。
  • 16. 16 Azure Storage Vault (ASV) どういう仕組みで BLOB を Hadoop のファイルシステムにしているのか そもそも Hadoop のファイルシステムは可換 ? 様々なファイルシステムを扱えるように、 Hadoop はファイルシステムの抽象化層を持っています。 ? マイクロソフトは NativeAzureFileSystem クラスを作成し、 Azure BLOB をサポートできるようにしました。 種類 URI スキーム Java の実装クラス (org.apache.Hadoop) 説明 Local file fs.LocalFileSystem ローカル ファイルシステム HDFS hdfs hdfs.DistributedFileSystem これがデフォルト FTP ftp fs.ftp.FTPFileSystem FTP サイト用 S3 s3n fs.s3native.NativeS3FileSystem Amazon S3 用 Azure BLOB asv fs.azurenative.NativeAzureFileSystem Azure BLOB 用 主なファイルシステム
  • 17. 17 ASV の登録と利用 asv://コンテナ名@アカウント名.blob.core.windows.net/パス名 core-site.xml で、 BLOB ストレージがデフォルトファイルシステムに設定されています。
  • 20. 20 PowerShell を使ってクラスター作成 New-AzureHDInsightCluster -Name 名前 -SubscriptionId SUBID -Certificate CERT -Location “West US“ -DefaultStorageAccountName ACCOUNT –DefaultStorageAccountKey KEY -DefaultStorageContainerName CONTAINER -UserName ksasaki -Password xxxxxxxxx -ClusterSizeInNodes 8 HDInsight 管理用コマンドレットで運用を自動化できます。
  • 23. 23 JavaScript コンソール “#コマンド” で、FS Shellの コマンドを呼び出せます。 “#lsr” は ”hadoop fs –lsr” に相当します。 “#fs.get” で Hadoop 上のファイルを ローカルコンピューターへダウンロード。
  • 26. 26 Hadoop は Java だけ? .NET は? Java 以外の言語でもプログラムを開発できます! ? Hadoop 自体が Java で書かれているため、 MapReduce プログラムを書く言語としては Java が メジャーです。 ? しかし、 Hadoop には “Hadoop Streaming” という 仕組みがあり、およそありとあらゆる言語で MapReduce できるようになっています。 ? Hadoop Streaming は、 「標準入出力に対してプログラミングするだけで、 MapReduce ジョブができあがる。」 という、ある意味 inetd のような存在です。 元より多言語対応 Microsoft .NET SDK For Hadoop ? Codeplex でホストされているオープンソースプロ ジェクトです。下記のモジュールがあります。 ? Hadoop Streaming を活用した “.NET MapReduce” ? LINQ で Hive にクエリを行える “LINQ To Hive” ? HDInsight 管理用の PowerShell コマンドレット ? WebHDFS クライアント ? https://hadoopsdk.codeplex.com/
  • 27. 27 .NET MapReduce ? Hadoop Streaming API の .NET ラッパーです。 ? C# や Visual Basic で MapReduce ジョブを記述できます。
  • 28. 28 LINQ To Hive ? LINQ のクエリを HIVE クエリに自動変換し、 .NET プログラムから自然な形で Hadoop の データにアクセスできます。
  • 30. 30 Hive ODBC ドライバー ODBC 経由で HDinsight クラスターの Hive に接続できます。 Hive ODBC ドライバーのインストール Hive データソースの作成 接続先テーブルの選択
  • 31. 31 ODBC 経由で Excel へデータ取込み Excel 上で Hive クエリの編集/結果セットの表示ができます。 HQL 文の定義 HDInsight から Excel へ取り込まれたデータ
  • 32. 32 HDInsight 関連情報 ? “Crunch Big Data in the Cloud with Windows Azure HDInsight Service” http://blogs.msdn.com/b/windowsazure/archive/2013/03/18/announcing-the-public-preview-of-azure- hdinsight.aspx ? “Hortonworks & Microsoft: Bringing Apache Hadoop to Windows” http://hortonworks.com/partners/microsoft/ ? “HDInsight の開発” http://blogs.msdn.com/b/windowsazurej/archive/2013/04/03/developing-for-hdinsight.aspx ? “Winodws Azure HDInsight パブリック プレビュー開始!” http://blogs.technet.com/b/ksasaki/archive/2013/03/19/winodws-azure-hdinsight.aspx ? “How to Connect Excel to Windows Azure HDInsight via HiveODBC” https://www.windowsazure.com/en-us/manage/services/hdinsight/use-excel-via-hive-odbc-driver/ ? Microsoft ODBC Driver For Hive http://www.microsoft.com/en-us/download/details.aspx?id=37134