Cloudera Data Science WorkbenchとPySparkて? 好きなPythonライフ?ラリを 分散て?使う #cadedaCloudera Japan
?
Data Engineering and Data Analysis Workshop #1 での有賀 (@chezou)の発表です。
https://cyberagent.connpass.com/event/58808/
Cloudera Data Science WorkbenchとPySparkを使い、Pythonで好きなライブラリを分散実行する方法についてです。日本語の形態素解析ライブラリMeCabをPySparkから実行します。
M06_DX を担うエンジニア向け Data & AI Analytics プラットフォームの最適解 ~ Azure Synapse 最新機能ご紹介 ~ ...日本マイクロソフト株式会社
?
日本マイクロソフト株式会社
カスタマーサクセス事業本部 データ&クラウドAI アーキテクト統括本部 クラウドソリューションアーキテクト
武田 雅生
近年 DX が推進される中、企業の情報分析基盤に求められるビジネス期待値は高まっています。
どのお客様においても競合に負けじと情報分析基盤の導入?推進が進み、ビジネス状況の可視化から予測へと、「分析高度化」への投資が進んでいます。
しかし、企業内データ分析活動の高度化に伴い、複雑さは日々肥大化し、データがサイロ化するだけでなく、テクノロジーやスキルのサイロ化も進んでいます。
結果的に、データ横断分析の相乗効果を生み出せないという、分析高度化ならではの課題に直面されるお客様も多くいらっしゃいます。
本セッションでは、今のデータ分析?活用を担うエンジニア向けに、Azure Synapse の最新機能?デモをご紹介します。
分析高度化をスムーズに進めるための、ヒントが得られましたら幸いです。
【Microsoft Japan Digital Daysについて】
Microsoft Japan Digital Days は、お客様が競争力を高め、市場の変化に迅速に対応し、より多くのことを達成することを目的とした、日本マイクロソフトがお届けする最大級のデジタル イベントです。4 日間にわたる本イベントでは、一人一人の生産性や想像力を高め、クラウド時代の組織をデザインするモダンワークの最新事例や、変化の波をうまく乗り切り、企業の持続的な発展に必要なビジネスレジリエンス経営を支えるテクノロジの最新機能および、企業の競争優位性に欠かせないクラウド戦略のビジョンなどデジタル時代に必要な情報をお届けいたしました。(2021年10月11日~14日開催)
4. ? MOOC community (sponsored by IBM)
? データサイエンス?ビッグデータに関するコース
? @yourpace, @yourplace
? 完了証明書 and badges
? 60+ コース
? ユーザが430,000人+
BigDataUniversity.com
What is Big Data University (BDU)?
5. ? 5-5-5 rule
? 各コースに
? レッスンが5つ
? ビデオレクチャーが5つ
? ビデオレクチャーが5分間
? ハンズオン
BigDataUniversity.com
What is Big Data University (BDU)?
bit.ly/introtokyoR
24. ? Nine Algorithms for Big Data — Spark and/or MapReduce
②SPSSがあるのになぜSpark MLlib?
SPSS democratizes analytics, extending benefits to users who do not want
to program
Access to a broader library of analytic algorithms delivers solutions to more use cases
1.In addition to SPSS algorithms that now run in Spark, Data Scientists can utilize more
than 15 algorithms from Spark MLlib
2.Data Scientists can create new Modeler nodes to exploit MLlib algorithms & share
them with non-programmer Data Scientists
3.Via shared Modeler nodes, non-programmer Data Scientists leverage Spark
functionality in their own analytic workflows
SPSS Modelerにある9つのアルゴリズム
SPSSにはないアルゴリ
ズム、R連携ができる
ようになり、SPSSの使
い勝手は継承できる
25. ? Using Modeler's Custom Dialog builder to abstract code behind a GUI makes Spark usable
for non-programmers.
③SPSS Modeler カスタム?ダイアログ?ビルダー
The Custom Dialog Builder – Python for Spark (The Custom Dialog Builder adds Python for Spark support )
Provides access to Spark & its machine learning library (MLlib)
Also provides access to other common Python libraries e.g.: Numpy, Scipy, Scikit-learn, Pandas
Data Scientists can create new Modeler nodes (extensions) that exploit algorithms from MLlib and other PySpark processes
26. ? Github for SPSS http://ibmpredictiveanalytics.github.io/
27. SPSS Client
R
(R Studio IDE)
今までは???
データウェアハウス(PDA)SPSS Modeler Server
分析指示
分析結果表示
RDBデータリクエスト
分析指示
処理結果返信
ストリームイメージ
35. Two Problems in Data Science:
Skills Tools
Commitment to Data Science Education
bit.ly/introtokyoR
Is it Production READY?
36. ? 2016 IBM Corporation36
IBM DATA SCIENCE EXPERIENCE
A L L Y O U R T O O L S I N O N E P L A C E
Data Science Experience (DSX)は、データサイエンティスト?データエンジニアが
必要とするデータ分析環境を1つにして提供をします。
37. ? 2016 IBM Corporation37
ビルドインされた、簡
単なコースから、アド
バンスなチュートリアル
まで
学ぶ
オープンソールや付加
価値機能を統合した
データ分析ツール
作る
コラボレーションのための
コミュニティーと
ソーシャル機能
共創
IBM DATA SCIENCE EXPERIENCE
A L L Y O U R T O O L S I N O N E P L A C E
38. ? 2016 IBM Corporation38
Data Science Experience
コミュニティー オープンソース 付加価値機能
- チュートリアル、データセットの探索
- データサイエンティストとの共創
- 質問をする – Ask Question
- 情報を収集する(記事、論文、技術情報)
- プロジェクトのフォークと共有
- Scala/Python/R/SQL
- Jupyter / Zeppelin* Notebooks
- RStudio IDE / Shinyアプリケーション
- Apache Spark
- その他のライブラリ
- データシェーピング/パイプラインUI *
- 自動データ準備(Auto-data prep)*
- 自動モデリング(Auto-modeling)*
- 高度なビジュアライゼーション*
- Model管理とデプロイメント*
- Well documented Model APIs*
IBM DATA SCIENCE EXPERIENCE
A L L Y O U R T O O L S I N O N E P L A C E
39. ? 2016 IBM Corporation39
Shaping(シェーピング):
?Sparkling.Data APIs: Jupyterノートブック
(Python/Scala)
?チュートリアル(Python and Scala)
RStudio:
?Rstudio(オープンソースサーバ):16GB Memory/5GB領域
?Shiny: 分析WEBアプリの作成
?SparkR: Sparkサービスとの連携(Spark as a Service)
プロジェクト:
?共創(コラボ): プロジェクトへのユーザ追加
?ノートブックの共有/コネクション/ファイル管理
スケジューリング:
?CRON
?スケジューリングUI: スケジュールされたノートブック一覧、 前回/次
回実行予定、ステータス(初期版は機能制限あり)
コミュニティー:
? Analytics Exchange: コミュニティーによるオープン?
データとノートブック共有
? ソーシャルメディアによる共有機能
? ノートブックとデータのプリビュー機能
? ブログ(DSXブログ含む)
? チュートリアル (e.g., Big Data University)
ノートブック:
Jupyterノートブック
言語: Scala/Python/R
ライブラリ: Open Source and IBM
(Brunel/Prescriptive)
Import from File (*.ipynb)/URL/Templates
URLによる共有
IBM DATA SCIENCE EXPERIENCE
A L L Y O U R T O O L S I N O N E P L A C E
40. ? 2016 IBM Corporation40
datascience.ibm.com
オープンβのリストを受け付けています
45. ? 2016 IBM Corporation45
名刺をスキャン
年間1憶枚以上の名刺が、
オペレーターの入力によりデータ化されている
アプリケーションで活用
名刺の検索?閲覧?編集
お客様
AI
46. ? 2016 IBM Corporation46
数千枚の名刺画像を使って、
名刺の項目を推定するアルゴリズムを募集します。
47. ? 2016 IBM Corporation47
ビルドインされた、簡
単なコースから、アド
バンスなチュートリアル
まで
学ぶ
オープンソールや付加
価値機能を統合した
データ分析ツール
作る
コラボレーションのための
コミュニティーと
ソーシャル機能
共創
IBM DATA SCIENCE EXPERIENCE
A L L Y O U R T O O L S I N O N E P L A C E
datascience.ibm.com
87. ハンズオン:Bluemixとの連携?移行
IBM BluemixにもSpark環境が「Spark as a Service」とし
て用意されています。
DataScientistWorkbenchと比較して以下の利点があります。
? Enterprise向けのよりパワフルな実行環境と占有環境
? アプリケーション(spark-submit)の実行可能
? Bluemix上のサービスとの連携
手順
1. DSWBからJupyterノートブックのダウンロード
2. Spark as a Serviceからノートブックの読み込みと実行