狠狠撸

狠狠撸Share a Scribd company logo
Jubatus
使ってみたよ
TokyoR #44
小林 達 @soultoru
※ この資料の情報は個人の見解であり、
所属団体や資料を参考にした個人?団体様には
一切関係ないです。
あっても見逃してください。
早速ですが、
こんなことに
困っていません
か?
问
関係者がデータ
を小出しに
提出してくる
データが巨大で
1 台のサーバの
メモリには
載らない
データ投入から
分析結果の出力
まで長時間
闯耻产补迟耻蝉使ってみた
あるよ。
https://preferred.jp/
アジェンダ
●
どんなもの?
●
何ができるの?
●
どうして動くの?
●
作ってみた
●
R から使うには
●
どんなもの?
●
何ができるの?
●
どうして動くの?
●
作ってみた
●
R から使うには
Jubatus =
機械学習
エンジン
「分散した
データ」を
「常に素早く」
「深く分析」
https://preferred.jp/product/jubatus/
PFI と NTT が
共同開発の
国産 OSS
※ 現在は Preferred Networks がライセンスを保有しているみたいです。
http://itpro.nikkeibp.co.jp/atcl/news/14/100101159/
●
どんなもの?
●
何ができるの?
●
どうして動くの?
●
作ってみた
●
R から使うには
Jubatus =
機械学習
エンジン
多値分類
線形回帰
クラスタリング
クラスタ分析
時系列データの統計分析
近傍探索
推薦
グラフマイニング
異常検知
これらの
機械学習タスク
を
オンラインに
分散処理できる
!
闯耻产补迟耻蝉使ってみた
●
どんなもの?
●
何ができるの?
●
どうして動くの?
●
作ってみた
●
R から使うには
Jubatus =
機械学習
エンジン
多値分類
線形回帰
クラスタリング
クラスタ分析
時系列データの統計分析
近傍探索
推薦
グラフマイニング
異常検知
機械学習とは、
簡単にはデータに対して何かのモデルに対して
问題を解くことで意図した動作を機械にさせる
※ 詳しい原理は書籍を読んでください
オンライン
勉強しろ
結果くれ
Datum
この間わずか
数十 ms で OK !
ほい
※ 状況によって違います
結果
なぜオンライン
で動くのか?
オンライン化
のマジック =
確率的
勾配降下法
目的関数が期待値で表された最適化问題
          (  は確率密度関数)
に対するオンライン最適化アルゴリズム.
目的関数の勾配が得られる状況下では,  通常の勾配法が適用
可能だが,  の計算が高コストであまり現実的ではない場合が
ある.そこで,  の代わりに近似的に   を用いた勾配法
         ( は反復時点での実現値)
が確率的勾配降下法( Stochastic Gradient Descent, 以下 SGD )
である.    は   平均的にはと一致するので通常の勾配
法と同様な収束性が期待される.
http://www.msi.co.jp/nuopt/glossary/term_da265770bed70e5f0a764f3d20c0ce3d242e6467.html
※Jubatus は同様ではあるが違うアルゴリズム使ってるかも。ソースそこまで読んでないす。
分散処理
勉強しろ
Datum
勉強しろ
Datum
こそこそ
結果くれ
結果くれ
どっちに聞いても
いいよ!
結果が少し
違うかもだけど
なぜ分散処理
できるか
「こそこそ」
に秘密あり!
分散学習機構
Mix
データそのもの
をやりとり
しない
(大きいから)
分析結果
( モデル ) を
ガッチャンコ
(平均化)
データ モデル
全部処理。。。
モデルの平均
とるだけ!
※ 「モデルの平均とるだけ」はイメージです。
実際にはもっと難しい処理しているはずです。
ただし、
データの
Update 毎に
Mix しない
=
分析結果が
ノード毎
違う可能性
闯耻产补迟耻蝉使ってみた
●
どんなもの?
●
何ができるの?
●
どうして動くの?
●
作ってみた
●
R から使うには
闯耻产补迟耻蝉使ってみた
http://karaoke.pink
アプリ作ってみました。
推薦エンジンを中で使ってます。
●
どんなもの?
●
何ができるの?
●
どうして動くの?
●
作ってみた
●
R から使うには
残念なお知らせ残念なお知らせ
R のライブラリ
はまだないみたい
です。。。
今のところ
C++ 、 Java
Python 、 Ruby
に対応
でも
動かせる可能性
はありますっ
1
Msgpack + RPC
を R で実装
2
C++ ライブラリ
を Rcpp
で呼び出す
3
RESTapi を Ruby
などで作成
RCurl で呼び出す
すみません、
どれも試せて
ないです。。。
本当は R のドライバライブラリ
公開したかったのですが間に合いませんでした
●
まとめ
Jubatus =
機械学習
エンジン
「分散した
データ」を
「常に素早く」
「深く分析」
今は
(簡単には)
R から動かない
※ その内なんとか
するかも
おしまい
Ad

Recommended

Jubatus Casual Talks #2 異常検知入門
Jubatus Casual Talks #2 異常検知入門
Shohei Hido
?
Jubatus Casual Talks #2 Jubatus開発者入門
Jubatus Casual Talks #2 Jubatus開発者入門
Shuzo Kashihara
?
テ?ィーフ?ラーニンク?による时系列テ?ータの异常検知
テ?ィーフ?ラーニンク?による时系列テ?ータの异常検知
Core Concept Technologies
?
さらば!データサイエンティスト
さらば!データサイエンティスト
Shohei Hido
?
今年の碍顿顿ベストペーパーを実装?公开しました
今年の碍顿顿ベストペーパーを実装?公开しました
Shohei Hido
?
ディープラーニングの产业応用とそれを支える技术
ディープラーニングの产业応用とそれを支える技术
Shohei Hido
?
闯耻产补迟耻蝉が目指すインテリジェンス基盘
闯耻产补迟耻蝉が目指すインテリジェンス基盘
Shohei Hido
?
评叠补苍における闯耻产补迟耻蝉活用事例
评叠补苍における闯耻产补迟耻蝉活用事例
JubatusOfficial
?
mlabforum2012_okanohara
mlabforum2012_okanohara
Preferred Networks
?
大规模データ时代に求められる自然言语処理
大规模データ时代に求められる自然言语処理
Preferred Networks
?
Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門
Shohei Hido
?
本当に知ってる!? リアルなテ?ータ分析の世界~サイカのエンシ?ニアか?語る、話題の技術の「いま」と「未来」~
本当に知ってる!? リアルなテ?ータ分析の世界~サイカのエンシ?ニアか?語る、話題の技術の「いま」と「未来」~
Hisao Soyama
?
aiconf2017okanohara
aiconf2017okanohara
Preferred Networks
?
公司における自然言语処理技术の活用の现场(情报処理学会东海支部主催讲演会蔼名古屋大学)
公司における自然言语処理技术の活用の现场(情报処理学会东海支部主催讲演会蔼名古屋大学)
Yuya Unno
?
厂别蝉蝉颈辞苍4:「先进ビッグデータ応用を支える机械学习に求められる新技术」/比戸将平
厂别蝉蝉颈辞苍4:「先进ビッグデータ応用を支える机械学习に求められる新技术」/比戸将平
Preferred Networks
?
自然言语処理绍介(就职编)
自然言语処理绍介(就职编)
长冈技术科学大学 自然言语処理研究室
?
ビッグデータはどこまで効率化できるか?
ビッグデータはどこまで効率化できるか?
Shohei Hido
?
基调讲演:「多様化する情报を支える技术」/西川彻
基调讲演:「多様化する情报を支える技术」/西川彻
Preferred Networks
?
闯耻产补迟耻蝉における大规模分散オンライン机械学习蔼先端金融テクノロジー研究会
闯耻产补迟耻蝉における大规模分散オンライン机械学习蔼先端金融テクノロジー研究会
Yuya Unno
?
ICML2013読み会 開会宣言
ICML2013読み会 開会宣言
Shohei Hido
?
机械学习モデルフォーマットの话:さようなら笔惭惭尝、こんにちは笔贵础
机械学习モデルフォーマットの话:さようなら笔惭惭尝、こんにちは笔贵础
Shohei Hido
?
罢飞颈迟迟别谤分析のためのリアルタイム分析基盘蔼第4回罢飞颈迟迟别谤研究会
罢飞颈迟迟别谤分析のためのリアルタイム分析基盘蔼第4回罢飞颈迟迟别谤研究会
Yuya Unno
?
リクルートライフスタイル分析基盘チーム2年目か?世话するテ?ータ连携产辞迟达のお话
リクルートライフスタイル分析基盘チーム2年目か?世话するテ?ータ连携产辞迟达のお话
Yuji Sakurai
?
イノヘ?ーションことはし?め
イノヘ?ーションことはし?め
Preferred Networks
?
颁丑补颈苍别谤のテスト环境と顿辞肠办别谤での颁鲍顿础の利用
颁丑补颈苍别谤のテスト环境と顿辞肠办别谤での颁鲍顿础の利用
Yuya Unno
?
データサイエンティストのつくり方
データサイエンティストのつくり方
Shohei Hido
?
tut_pfi_2012
tut_pfi_2012
Preferred Networks
?
Mr201306 機械学習のセキュリティ技術応用
Mr201306 機械学習のセキュリティ技術応用
FFRI, Inc.
?
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Preferred Networks
?

More Related Content

What's hot (20)

评叠补苍における闯耻产补迟耻蝉活用事例
评叠补苍における闯耻产补迟耻蝉活用事例
JubatusOfficial
?
mlabforum2012_okanohara
mlabforum2012_okanohara
Preferred Networks
?
大规模データ时代に求められる自然言语処理
大规模データ时代に求められる自然言语処理
Preferred Networks
?
Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門
Shohei Hido
?
本当に知ってる!? リアルなテ?ータ分析の世界~サイカのエンシ?ニアか?語る、話題の技術の「いま」と「未来」~
本当に知ってる!? リアルなテ?ータ分析の世界~サイカのエンシ?ニアか?語る、話題の技術の「いま」と「未来」~
Hisao Soyama
?
aiconf2017okanohara
aiconf2017okanohara
Preferred Networks
?
公司における自然言语処理技术の活用の现场(情报処理学会东海支部主催讲演会蔼名古屋大学)
公司における自然言语処理技术の活用の现场(情报処理学会东海支部主催讲演会蔼名古屋大学)
Yuya Unno
?
厂别蝉蝉颈辞苍4:「先进ビッグデータ応用を支える机械学习に求められる新技术」/比戸将平
厂别蝉蝉颈辞苍4:「先进ビッグデータ応用を支える机械学习に求められる新技术」/比戸将平
Preferred Networks
?
自然言语処理绍介(就职编)
自然言语処理绍介(就职编)
长冈技术科学大学 自然言语処理研究室
?
ビッグデータはどこまで効率化できるか?
ビッグデータはどこまで効率化できるか?
Shohei Hido
?
基调讲演:「多様化する情报を支える技术」/西川彻
基调讲演:「多様化する情报を支える技术」/西川彻
Preferred Networks
?
闯耻产补迟耻蝉における大规模分散オンライン机械学习蔼先端金融テクノロジー研究会
闯耻产补迟耻蝉における大规模分散オンライン机械学习蔼先端金融テクノロジー研究会
Yuya Unno
?
ICML2013読み会 開会宣言
ICML2013読み会 開会宣言
Shohei Hido
?
机械学习モデルフォーマットの话:さようなら笔惭惭尝、こんにちは笔贵础
机械学习モデルフォーマットの话:さようなら笔惭惭尝、こんにちは笔贵础
Shohei Hido
?
罢飞颈迟迟别谤分析のためのリアルタイム分析基盘蔼第4回罢飞颈迟迟别谤研究会
罢飞颈迟迟别谤分析のためのリアルタイム分析基盘蔼第4回罢飞颈迟迟别谤研究会
Yuya Unno
?
リクルートライフスタイル分析基盘チーム2年目か?世话するテ?ータ连携产辞迟达のお话
リクルートライフスタイル分析基盘チーム2年目か?世话するテ?ータ连携产辞迟达のお话
Yuji Sakurai
?
イノヘ?ーションことはし?め
イノヘ?ーションことはし?め
Preferred Networks
?
颁丑补颈苍别谤のテスト环境と顿辞肠办别谤での颁鲍顿础の利用
颁丑补颈苍别谤のテスト环境と顿辞肠办别谤での颁鲍顿础の利用
Yuya Unno
?
データサイエンティストのつくり方
データサイエンティストのつくり方
Shohei Hido
?
tut_pfi_2012
tut_pfi_2012
Preferred Networks
?
评叠补苍における闯耻产补迟耻蝉活用事例
评叠补苍における闯耻产补迟耻蝉活用事例
JubatusOfficial
?
大规模データ时代に求められる自然言语処理
大规模データ时代に求められる自然言语処理
Preferred Networks
?
Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門
Shohei Hido
?
本当に知ってる!? リアルなテ?ータ分析の世界~サイカのエンシ?ニアか?語る、話題の技術の「いま」と「未来」~
本当に知ってる!? リアルなテ?ータ分析の世界~サイカのエンシ?ニアか?語る、話題の技術の「いま」と「未来」~
Hisao Soyama
?
公司における自然言语処理技术の活用の现场(情报処理学会东海支部主催讲演会蔼名古屋大学)
公司における自然言语処理技术の活用の现场(情报処理学会东海支部主催讲演会蔼名古屋大学)
Yuya Unno
?
厂别蝉蝉颈辞苍4:「先进ビッグデータ応用を支える机械学习に求められる新技术」/比戸将平
厂别蝉蝉颈辞苍4:「先进ビッグデータ応用を支える机械学习に求められる新技术」/比戸将平
Preferred Networks
?
ビッグデータはどこまで効率化できるか?
ビッグデータはどこまで効率化できるか?
Shohei Hido
?
基调讲演:「多様化する情报を支える技术」/西川彻
基调讲演:「多様化する情报を支える技术」/西川彻
Preferred Networks
?
闯耻产补迟耻蝉における大规模分散オンライン机械学习蔼先端金融テクノロジー研究会
闯耻产补迟耻蝉における大规模分散オンライン机械学习蔼先端金融テクノロジー研究会
Yuya Unno
?
ICML2013読み会 開会宣言
ICML2013読み会 開会宣言
Shohei Hido
?
机械学习モデルフォーマットの话:さようなら笔惭惭尝、こんにちは笔贵础
机械学习モデルフォーマットの话:さようなら笔惭惭尝、こんにちは笔贵础
Shohei Hido
?
罢飞颈迟迟别谤分析のためのリアルタイム分析基盘蔼第4回罢飞颈迟迟别谤研究会
罢飞颈迟迟别谤分析のためのリアルタイム分析基盘蔼第4回罢飞颈迟迟别谤研究会
Yuya Unno
?
リクルートライフスタイル分析基盘チーム2年目か?世话するテ?ータ连携产辞迟达のお话
リクルートライフスタイル分析基盘チーム2年目か?世话するテ?ータ连携产辞迟达のお话
Yuji Sakurai
?
イノヘ?ーションことはし?め
イノヘ?ーションことはし?め
Preferred Networks
?
颁丑补颈苍别谤のテスト环境と顿辞肠办别谤での颁鲍顿础の利用
颁丑补颈苍别谤のテスト环境と顿辞肠办别谤での颁鲍顿础の利用
Yuya Unno
?
データサイエンティストのつくり方
データサイエンティストのつくり方
Shohei Hido
?

Viewers also liked (8)

Mr201306 機械学習のセキュリティ技術応用
Mr201306 機械学習のセキュリティ技術応用
FFRI, Inc.
?
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Preferred Networks
?
ルールベースから機械学習への道 公開用
ルールベースから機械学習への道 公開用
nishio
?
実戦投入する机械学习
実戦投入する机械学习
Takahiro Kubo
?
「機械学習 By スタンフォード大学」勉強会 2015.09.11
「機械学習 By スタンフォード大学」勉強会 2015.09.11
Minoru Chikamune
?
机械学习の理论と実践
机械学习の理论と実践
Preferred Networks
?
机械学习によるデータ分析まわりのお话
机械学习によるデータ分析まわりのお话
Ryota Kamoshida
?
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks
Yuya Unno
?
Mr201306 機械学習のセキュリティ技術応用
Mr201306 機械学習のセキュリティ技術応用
FFRI, Inc.
?
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Preferred Networks
?
ルールベースから機械学習への道 公開用
ルールベースから機械学習への道 公開用
nishio
?
実戦投入する机械学习
実戦投入する机械学习
Takahiro Kubo
?
「機械学習 By スタンフォード大学」勉強会 2015.09.11
「機械学習 By スタンフォード大学」勉強会 2015.09.11
Minoru Chikamune
?
机械学习によるデータ分析まわりのお话
机械学习によるデータ分析まわりのお话
Ryota Kamoshida
?
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks
Yuya Unno
?
Ad

Similar to 闯耻产补迟耻蝉使ってみた (20)

Jubatus 1.0 の紹介
Jubatus 1.0 の紹介
JubatusOfficial
?
闯耻产补迟耻蝉で始める机械学习/セキュリティと机械学习
闯耻产补迟耻蝉で始める机械学习/セキュリティと机械学习
Preferred Networks
?
闯耻产补迟耻蝉の绍介蔼第6回さくさくテキストマイニング
闯耻产补迟耻蝉の绍介蔼第6回さくさくテキストマイニング
Yuya Unno
?
闯耻产补迟耻蝉解説本の绍介
闯耻产补迟耻蝉解説本の绍介
JubatusOfficial
?
机械学习と闯耻产补迟耻蝉
机械学习と闯耻产补迟耻蝉
Junya Yamaguchi
?
闯耻产补迟耻蝉でマルウェア分类
闯耻产补迟耻蝉でマルウェア分类
Shuzo Kashihara
?
闯耻产补迟耻蝉の特徴変换と线形分类器の仕组み
闯耻产补迟耻蝉の特徴変换と线形分类器の仕组み
JubatusOfficial
?
Oracle Cloud Developers Meetup@東京
Oracle Cloud Developers Meetup@東京
tuchimur
?
闯耻产补迟耻蝉で始める机械学习
闯耻产补迟耻蝉で始める机械学习
JubatusOfficial
?
Jubakit の紹介
Jubakit の紹介
kmaehashi
?
闯耻产补办颈迟の绍介
闯耻产补办颈迟の绍介
JubatusOfficial
?
闯耻产补办颈迟の解説
闯耻产补办颈迟の解説
JubatusOfficial
?
Jubatus: Jubakitでもっと楽をしよう
Jubatus: Jubakitでもっと楽をしよう
Tetsuya Shioda
?
闯耻产补迟耻蝉によるアセンブリ実行速度の自动チューニング
闯耻产补迟耻蝉によるアセンブリ実行速度の自动チューニング
Takayuki Muranushi
?
世界征服を目指す闯耻产补迟耻蝉だからこそ期待する5つのポイント
世界征服を目指す闯耻产补迟耻蝉だからこそ期待する5つのポイント
NTT DATA OSS Professional Services
?
闯耻产补迟耻蝉における大规模分散オンライン机械学习
闯耻产补迟耻蝉における大规模分散オンライン机械学习
Preferred Networks
?
Python 特徴抽出プラグイン
Python 特徴抽出プラグイン
JubatusOfficial
?
Jubatus Python特徴抽出フ?ラク?イン
Jubatus Python特徴抽出フ?ラク?イン
Tetsuya Shioda
?
闯耻产补迟耻蝉で始める机械学习/セキュリティと机械学习
闯耻产补迟耻蝉で始める机械学习/セキュリティと机械学习
Preferred Networks
?
闯耻产补迟耻蝉の绍介蔼第6回さくさくテキストマイニング
闯耻产补迟耻蝉の绍介蔼第6回さくさくテキストマイニング
Yuya Unno
?
闯耻产补迟耻蝉解説本の绍介
闯耻产补迟耻蝉解説本の绍介
JubatusOfficial
?
机械学习と闯耻产补迟耻蝉
机械学习と闯耻产补迟耻蝉
Junya Yamaguchi
?
闯耻产补迟耻蝉でマルウェア分类
闯耻产补迟耻蝉でマルウェア分类
Shuzo Kashihara
?
闯耻产补迟耻蝉の特徴変换と线形分类器の仕组み
闯耻产补迟耻蝉の特徴変换と线形分类器の仕组み
JubatusOfficial
?
Oracle Cloud Developers Meetup@東京
Oracle Cloud Developers Meetup@東京
tuchimur
?
闯耻产补迟耻蝉で始める机械学习
闯耻产补迟耻蝉で始める机械学习
JubatusOfficial
?
Jubakit の紹介
Jubakit の紹介
kmaehashi
?
闯耻产补办颈迟の绍介
闯耻产补办颈迟の绍介
JubatusOfficial
?
闯耻产补办颈迟の解説
闯耻产补办颈迟の解説
JubatusOfficial
?
Jubatus: Jubakitでもっと楽をしよう
Jubatus: Jubakitでもっと楽をしよう
Tetsuya Shioda
?
闯耻产补迟耻蝉によるアセンブリ実行速度の自动チューニング
闯耻产补迟耻蝉によるアセンブリ実行速度の自动チューニング
Takayuki Muranushi
?
世界征服を目指す闯耻产补迟耻蝉だからこそ期待する5つのポイント
世界征服を目指す闯耻产补迟耻蝉だからこそ期待する5つのポイント
NTT DATA OSS Professional Services
?
闯耻产补迟耻蝉における大规模分散オンライン机械学习
闯耻产补迟耻蝉における大规模分散オンライン机械学习
Preferred Networks
?
Python 特徴抽出プラグイン
Python 特徴抽出プラグイン
JubatusOfficial
?
Jubatus Python特徴抽出フ?ラク?イン
Jubatus Python特徴抽出フ?ラク?イン
Tetsuya Shioda
?
Ad

More from Tohru Kobayashi (6)

IBM Watson Visual Recognition を紹介するよ
IBM Watson Visual Recognition を紹介するよ
Tohru Kobayashi
?
怠惰な私がプログラミングするときに重要だと考えているたった1つのこと
怠惰な私がプログラミングするときに重要だと考えているたった1つのこと
Tohru Kobayashi
?
○○でかんたんお部屋探し!
○○でかんたんお部屋探し!
Tohru Kobayashi
?
搁を础奥厂で使おう
搁を础奥厂で使おう
Tohru Kobayashi
?
IBM Watson Visual Recognition を紹介するよ
IBM Watson Visual Recognition を紹介するよ
Tohru Kobayashi
?
怠惰な私がプログラミングするときに重要だと考えているたった1つのこと
怠惰な私がプログラミングするときに重要だと考えているたった1つのこと
Tohru Kobayashi
?
○○でかんたんお部屋探し!
○○でかんたんお部屋探し!
Tohru Kobayashi
?
搁を础奥厂で使おう
搁を础奥厂で使おう
Tohru Kobayashi
?

闯耻产补迟耻蝉使ってみた