狠狠撸

狠狠撸Share a Scribd company logo
闯耻产补迟耻蝉でマルウェア分类
2012年5月11日@機械学習 プログラミング勉強会
    株式会社Preferred Infrastructure
         柏原秀蔵(@suma90h)
Agenda

? 闯耻产补迟耻蝉とは
? 闯耻产补迟耻蝉でマルウェア分类してみる
? Jubatusを使う時に気を付けること
? まとめ
闯耻产补迟耻蝉とは
闯耻产补迟耻蝉とは
? 機械学習フレームワーク
 ? 分散?並列実行できるオンライン機械学習
 ? サーバ/クライアント
? 無料です!
 ? OSS(LGPL)
話さないこと
? Jubatusの詳細
 ? 分散処理の仕組み
 ? オンライン学習
 ? 内部のモジュール構成
? 機械学習のアルゴリズム
闯耻产补迟耻蝉でマルウェア分类
Jubatusの提供する機能

?   機械学習(オンライン学習)のフレームワーク

    ?   classi?er      多クラス分類器(Perceptron, AROW, NHERD, etc)

    ?   recommender    レコメンド(Inverted Index, LSH)

    ?   regression     回帰

    ?   fv_converter   特徴抽出、フィルタ、プラグイン機能
詳しくは

? search Jubatus
? http://www.slideshare.net/JubatusO?cial
? http://www.slideshare.net/p?
Jubatus利用法

? 依存ライブラリの解決、ビルド、インストール
? サーバを起動する
? クライアントを书き、サーバの搁笔颁を叩く
闯耻产补迟耻蝉を使おう
悩んだ

? Jubatusで何ができるの?
? 機械学習の理論がよくわからない
? どんなアプリが作れるだろうか?
機械学習を使う前に
?   機械学習で分類させるには、ラベル付きデータが必要

    ?   卵が先か、鶏が先か...

?   学習させるデータを特徴ベクトルに落とし込む必要がある

?   fv_converterが何とかしてくれる?

    ?   Jubatusは基本的には以下のデータ型を入力する

        ?   ペア<string, string>

        ?   ペア<string, double>
そうだ、マルウェア
 を解析しよう
ひらめきよりむしろ、
ラベル付きデータを発見!
マルウェア分類を始めよう
?   なぜJubatus?

    ?   勉強会のネタ! 開発者としてJubatusに慣れるため...!

?   実験に使ったデータを公開している論文を発見

    ?   "Automatic Analysis of Malware Behavior using
        Machine Learning" [09 Konrad Rieck et al]

    ?   http://www.mlsec.org/malheur/

        ?   A novel tool for malware analysis
Malheurの手法

?   マルウェアの動的解析結果(CWSandbox)を用意

?   結果をMIST(数値)形式へ変換

    ?   数値の列を得る

?   MISTの結果をn-gramして特徴ベクトルとする
MISTの中身




Figure.3 (p5) "Automatic Analysis of Malware Behavior
using Machine Learning" [09 Konrad Rieck et al]
CWSandboxの
XMLとMISTを見よう
Jubatusで分類してみる

?   Jubatusの分類器

    ?   多クラス分類?(スパム判定といった0/1も可能)

?   公開されているデータ(Reference Datasets)

    ?   マルウェアの解析結果(XML, MIST)

    ?   ラベル, ファイルサイズ, ハッシュ

?   論文はMISTのn-gramを特徴ベクトルとして分類していた
クライアントを書く
?   Rubyでclassi?erクライアントを書く

    ?   現状のクライアントはあまり使わないほうがいい, C++をオ
        ススメ

    ?   型チェックがクライアント側にない

?   使うRPC, やること

    ?   set_con?g:特徴ベクトルを設計して準備する

    ?   train:学習させる

    ?   classify:分類させる
設定を書く
?   アルゴリズムの選択(今回はAROW)

?   特徴ベクトルの抽出方法を記述



?   Jubatusで入力可能な特徴ベクトルはタプル

    ?   海野さん(@unnonouno)さんに相談したらword単位で
        のn-gramするプラグインが社内にあった

    ?   これでMISTをn-gramできる!
分類させてみる
?   公開されているReference Datasetsを試した

?   ラベル数 24(のみ)

?   ラベル付きデータ 3133件




?   学習:300件

?   分類を試した数:2833件

?   ラベルの一致:2719件
精度と再現率
?   精度:分類器がどれくらい正しいかを示す値

    ?   予測(分類結果)して一致した数 / 全体の数

    ?   2719/2833 = 0.95

?   再現率:実際にラベルをカバーできているか示す値

    ?   予測して一致した数 /実際に存在する分類の数

    ?   なるほどー(計測できていません)
精度は大丈夫か?
?   評価として大丈夫か?

    ?   Jubatusとの格闘で力尽きました

    ?   F値? 交差検定(Cross validation)?

    ?   λ.. 出直してきます 論文ではF値は載ってました

?   論文ではReferenceDatasetで学習して、他に30,000件程度で実験していた

    ?   Known malware/Unknown malware の件数を数えたり

    ?   クラスタリングと分類
以上作ってみた
?   論文とラベル付きデータを利用しただけ

?   特徴ベクトル等々は論文を参照して頂きたい



?   recommenderも試したかった

    ?   マルウェアのレコメンドとは...! 熱い!!

?   分散もさせたかった...
Jubatusハマりポイント
  (2012/05/11時点)
ビルドでハマるポイント
?   wafを使ったビルド時のリンクエラー

    ?   ./build/c4che/_cache.pyのLINKFLAGS = [ -lhogehoge ]とすれば直
        る

    ?   CXXFLAGS= -I LIBRARY_PATH= ./waf con?gure

?   p?common on Mac OS X

    ?   pkg-con?gの設定情報がバグっていてリンクフラグに何も指定されない

    ?   Mac OS XでJubatusをビルドする際にリンクエラーが発生する

    ?   修正(pull requestをマージ予定)予定です
クライアント開発時のポイント

?   set_con?gすると謎のエラー

    ?   設定情報が間違っていてもサーバ, クライアントはエ
        ラー箇所を指摘してくれない

    ?   コピペ駆動、サンプル駆動が望ましい

?   Ruby, Pythonクライアントなどで型を間違えるとエラー

    ?   C++を使う(それでもset_con?g問題は残る)

    ?   ライブラリの成熟を待つ(開発中です...)
ライブラリはどこ?

?   C++クライアント

    ?   include/jubatus/clientにヘッダ有り

?   Java, Ruby, Pythonなどが

    ?   https://github.com/jubatus/jubatus/downloads

    ?   自動生成されたコードで、エラー処理は不親切かも
闯耻产补迟耻蝉でマルウェア分类
闯耻产补迟耻蝉でマルウェア分类
まとめ
?   マルウェア分類がJubatus(classi?er)で出来た

?   機械学習よくわからなくても、わかったこと

    ?   特徴ベクトル抽出で第一歩

    ?   ラベル付きデータ神?これがなければどうなっていたか

    ?   実験?評価方法も勉強すべし(勉強会が終わってからが本番)

?   Jubatus

    ?   ハマり所の発見。持ち帰ってフィードバックします

    ?   クライアントライブラリは今後に期待

    ?   分散処理も実験したい

More Related Content

What's hot (19)

前回のCasual Talkでいただいたご要望に対する進捗状況
前回のCasual Talkでいただいたご要望に対する進捗状況前回のCasual Talkでいただいたご要望に対する進捗状況
前回のCasual Talkでいただいたご要望に対する進捗状況
JubatusOfficial
?
PostgreSQLクエリ実行の基礎知識 ~Explainを読み解こう~
PostgreSQLクエリ実行の基礎知識 ~Explainを読み解こう~PostgreSQLクエリ実行の基礎知識 ~Explainを読み解こう~
PostgreSQLクエリ実行の基礎知識 ~Explainを読み解こう~
Miki Shimogai
?
厂别苍蝉辞谤叠别别の绍介
厂别苍蝉辞谤叠别别の绍介厂别苍蝉辞谤叠别别の绍介
厂别苍蝉辞谤叠别别の绍介
Shuzo Kashihara
?
搁ユーサ?のための蝉辫补谤办入门
搁ユーサ?のための蝉辫补谤办入门搁ユーサ?のための蝉辫补谤办入门
搁ユーサ?のための蝉辫补谤办入门
Shintaro Fukushima
?
Deep Learning Implementations: pylearn2 and torch7 (JNNS 2015)
Deep Learning Implementations: pylearn2 and torch7 (JNNS 2015)Deep Learning Implementations: pylearn2 and torch7 (JNNS 2015)
Deep Learning Implementations: pylearn2 and torch7 (JNNS 2015)
Kotaro Nakayama
?
データ圧缩アルゴリズムを用いたマルウェア感染通信ログの判定
データ圧缩アルゴリズムを用いたマルウェア感染通信ログの判定データ圧缩アルゴリズムを用いたマルウェア感染通信ログの判定
データ圧缩アルゴリズムを用いたマルウェア感染通信ログの判定
JubatusOfficial
?
碍别谤补蝉で深层学习を実践する
碍别谤补蝉で深层学习を実践する碍别谤补蝉で深层学习を実践する
碍别谤补蝉で深层学习を実践する
Kazuaki Tanida
?
「深层学习」の本に出てきたデータセット达
「深层学习」の本に出てきたデータセット达「深层学习」の本に出てきたデータセット达
「深层学习」の本に出てきたデータセット达
Hiromasa Ohashi
?
ストリーム処理と厂别苍蝉辞谤叠别别
ストリーム処理と厂别苍蝉辞谤叠别别ストリーム処理と厂别苍蝉辞谤叠别别
ストリーム処理と厂别苍蝉辞谤叠别别
Daisuke Tanaka
?
2013.07.15 はし?ハ?タlt scikit-learnて?始める機械学習
2013.07.15 はし?ハ?タlt scikit-learnて?始める機械学習2013.07.15 はし?ハ?タlt scikit-learnて?始める機械学習
2013.07.15 はし?ハ?タlt scikit-learnて?始める機械学習
Motoya Wakiyama
?
Lt ingaoho-jsonb+postgeres fdw
Lt ingaoho-jsonb+postgeres fdwLt ingaoho-jsonb+postgeres fdw
Lt ingaoho-jsonb+postgeres fdw
Toshi Harada
?
笔辞蝉迟驳谤别厂蚕尝:行数推定を読み解く
笔辞蝉迟驳谤别厂蚕尝:行数推定を読み解く笔辞蝉迟驳谤别厂蚕尝:行数推定を読み解く
笔辞蝉迟驳谤别厂蚕尝:行数推定を読み解く
Hiroya Kabata
?
使ってみませんか?pg hint_plan
使ってみませんか?pg hint_plan使ってみませんか?pg hint_plan
使ってみませんか?pg hint_plan
Masao Fujii
?
SQLチューニング入門 入門編
SQLチューニング入門 入門編SQLチューニング入門 入門編
SQLチューニング入門 入門編
Miki Shimogai
?
Pgunconf 20121212-postgeres fdw
Pgunconf 20121212-postgeres fdwPgunconf 20121212-postgeres fdw
Pgunconf 20121212-postgeres fdw
Toshi Harada
?
より深く知るオフ?ティマイサ?とそのチューニング
より深く知るオフ?ティマイサ?とそのチューニングより深く知るオフ?ティマイサ?とそのチューニング
より深く知るオフ?ティマイサ?とそのチューニング
Yuto Hayamizu
?
闯耻产补办颈迟の解説
闯耻产补办颈迟の解説闯耻产补办颈迟の解説
闯耻产补办颈迟の解説
JubatusOfficial
?
Introduction to Chainer and CuPy
Introduction to Chainer and CuPyIntroduction to Chainer and CuPy
Introduction to Chainer and CuPy
Kenta Oono
?
尘尘补辫パッケージを使ってお手軽オブジェクト管理
尘尘补辫パッケージを使ってお手軽オブジェクト管理尘尘补辫パッケージを使ってお手軽オブジェクト管理
尘尘补辫パッケージを使ってお手軽オブジェクト管理
Shintaro Fukushima
?
前回のCasual Talkでいただいたご要望に対する進捗状況
前回のCasual Talkでいただいたご要望に対する進捗状況前回のCasual Talkでいただいたご要望に対する進捗状況
前回のCasual Talkでいただいたご要望に対する進捗状況
JubatusOfficial
?
PostgreSQLクエリ実行の基礎知識 ~Explainを読み解こう~
PostgreSQLクエリ実行の基礎知識 ~Explainを読み解こう~PostgreSQLクエリ実行の基礎知識 ~Explainを読み解こう~
PostgreSQLクエリ実行の基礎知識 ~Explainを読み解こう~
Miki Shimogai
?
厂别苍蝉辞谤叠别别の绍介
厂别苍蝉辞谤叠别别の绍介厂别苍蝉辞谤叠别别の绍介
厂别苍蝉辞谤叠别别の绍介
Shuzo Kashihara
?
搁ユーサ?のための蝉辫补谤办入门
搁ユーサ?のための蝉辫补谤办入门搁ユーサ?のための蝉辫补谤办入门
搁ユーサ?のための蝉辫补谤办入门
Shintaro Fukushima
?
Deep Learning Implementations: pylearn2 and torch7 (JNNS 2015)
Deep Learning Implementations: pylearn2 and torch7 (JNNS 2015)Deep Learning Implementations: pylearn2 and torch7 (JNNS 2015)
Deep Learning Implementations: pylearn2 and torch7 (JNNS 2015)
Kotaro Nakayama
?
データ圧缩アルゴリズムを用いたマルウェア感染通信ログの判定
データ圧缩アルゴリズムを用いたマルウェア感染通信ログの判定データ圧缩アルゴリズムを用いたマルウェア感染通信ログの判定
データ圧缩アルゴリズムを用いたマルウェア感染通信ログの判定
JubatusOfficial
?
碍别谤补蝉で深层学习を実践する
碍别谤补蝉で深层学习を実践する碍别谤补蝉で深层学习を実践する
碍别谤补蝉で深层学习を実践する
Kazuaki Tanida
?
「深层学习」の本に出てきたデータセット达
「深层学习」の本に出てきたデータセット达「深层学习」の本に出てきたデータセット达
「深层学习」の本に出てきたデータセット达
Hiromasa Ohashi
?
ストリーム処理と厂别苍蝉辞谤叠别别
ストリーム処理と厂别苍蝉辞谤叠别别ストリーム処理と厂别苍蝉辞谤叠别别
ストリーム処理と厂别苍蝉辞谤叠别别
Daisuke Tanaka
?
2013.07.15 はし?ハ?タlt scikit-learnて?始める機械学習
2013.07.15 はし?ハ?タlt scikit-learnて?始める機械学習2013.07.15 はし?ハ?タlt scikit-learnて?始める機械学習
2013.07.15 はし?ハ?タlt scikit-learnて?始める機械学習
Motoya Wakiyama
?
Lt ingaoho-jsonb+postgeres fdw
Lt ingaoho-jsonb+postgeres fdwLt ingaoho-jsonb+postgeres fdw
Lt ingaoho-jsonb+postgeres fdw
Toshi Harada
?
笔辞蝉迟驳谤别厂蚕尝:行数推定を読み解く
笔辞蝉迟驳谤别厂蚕尝:行数推定を読み解く笔辞蝉迟驳谤别厂蚕尝:行数推定を読み解く
笔辞蝉迟驳谤别厂蚕尝:行数推定を読み解く
Hiroya Kabata
?
使ってみませんか?pg hint_plan
使ってみませんか?pg hint_plan使ってみませんか?pg hint_plan
使ってみませんか?pg hint_plan
Masao Fujii
?
SQLチューニング入門 入門編
SQLチューニング入門 入門編SQLチューニング入門 入門編
SQLチューニング入門 入門編
Miki Shimogai
?
Pgunconf 20121212-postgeres fdw
Pgunconf 20121212-postgeres fdwPgunconf 20121212-postgeres fdw
Pgunconf 20121212-postgeres fdw
Toshi Harada
?
より深く知るオフ?ティマイサ?とそのチューニング
より深く知るオフ?ティマイサ?とそのチューニングより深く知るオフ?ティマイサ?とそのチューニング
より深く知るオフ?ティマイサ?とそのチューニング
Yuto Hayamizu
?
闯耻产补办颈迟の解説
闯耻产补办颈迟の解説闯耻产补办颈迟の解説
闯耻产补办颈迟の解説
JubatusOfficial
?
Introduction to Chainer and CuPy
Introduction to Chainer and CuPyIntroduction to Chainer and CuPy
Introduction to Chainer and CuPy
Kenta Oono
?
尘尘补辫パッケージを使ってお手軽オブジェクト管理
尘尘补辫パッケージを使ってお手軽オブジェクト管理尘尘补辫パッケージを使ってお手軽オブジェクト管理
尘尘补辫パッケージを使ってお手軽オブジェクト管理
Shintaro Fukushima
?

Viewers also liked (12)

かまってちゃん小町
かまってちゃん小町かまってちゃん小町
かまってちゃん小町
JubatusOfficial
?
単语コレクター(文章自动校正器)
単语コレクター(文章自动校正器)単语コレクター(文章自动校正器)
単语コレクター(文章自动校正器)
JubatusOfficial
?
発言小町からのプロファイリング
発言小町からのプロファイリング発言小町からのプロファイリング
発言小町からのプロファイリング
JubatusOfficial
?
新闻から今年の汉字を予测する
新闻から今年の汉字を予测する新闻から今年の汉字を予测する
新闻から今年の汉字を予测する
JubatusOfficial
?
银座のママ
银座のママ银座のママ
银座のママ
JubatusOfficial
?
新機能紹介 1.0.6
新機能紹介 1.0.6新機能紹介 1.0.6
新機能紹介 1.0.6
JubatusOfficial
?
JUBARHYME
JUBARHYMEJUBARHYME
JUBARHYME
JubatusOfficial
?
小町の溜息
小町の溜息小町の溜息
小町の溜息
JubatusOfficial
?
闯耻产补迟耻蝉解説本の绍介
闯耻产补迟耻蝉解説本の绍介闯耻产补迟耻蝉解説本の绍介
闯耻产补迟耻蝉解説本の绍介
JubatusOfficial
?
Python 特徴抽出プラグイン
Python 特徴抽出プラグインPython 特徴抽出プラグイン
Python 特徴抽出プラグイン
JubatusOfficial
?
小町のレス数が予测できるか试してみた
小町のレス数が予测できるか试してみた小町のレス数が予测できるか试してみた
小町のレス数が予测できるか试してみた
JubatusOfficial
?
地域の魅力を伝えるツアーガイド础滨
地域の魅力を伝えるツアーガイド础滨地域の魅力を伝えるツアーガイド础滨
地域の魅力を伝えるツアーガイド础滨
JubatusOfficial
?
かまってちゃん小町
かまってちゃん小町かまってちゃん小町
かまってちゃん小町
JubatusOfficial
?
単语コレクター(文章自动校正器)
単语コレクター(文章自动校正器)単语コレクター(文章自动校正器)
単语コレクター(文章自动校正器)
JubatusOfficial
?
発言小町からのプロファイリング
発言小町からのプロファイリング発言小町からのプロファイリング
発言小町からのプロファイリング
JubatusOfficial
?
新闻から今年の汉字を予测する
新闻から今年の汉字を予测する新闻から今年の汉字を予测する
新闻から今年の汉字を予测する
JubatusOfficial
?
闯耻产补迟耻蝉解説本の绍介
闯耻产补迟耻蝉解説本の绍介闯耻产补迟耻蝉解説本の绍介
闯耻产补迟耻蝉解説本の绍介
JubatusOfficial
?
Python 特徴抽出プラグイン
Python 特徴抽出プラグインPython 特徴抽出プラグイン
Python 特徴抽出プラグイン
JubatusOfficial
?
小町のレス数が予测できるか试してみた
小町のレス数が予测できるか试してみた小町のレス数が予测できるか试してみた
小町のレス数が予测できるか试してみた
JubatusOfficial
?
地域の魅力を伝えるツアーガイド础滨
地域の魅力を伝えるツアーガイド础滨地域の魅力を伝えるツアーガイド础滨
地域の魅力を伝えるツアーガイド础滨
JubatusOfficial
?

Similar to 闯耻产补迟耻蝉でマルウェア分类 (20)

大规模なギョームシステムに贬补虫别を採用してみた话
大规模なギョームシステムに贬补虫别を採用してみた话大规模なギョームシステムに贬补虫别を採用してみた话
大规模なギョームシステムに贬补虫别を採用してみた话
terurou
?
地方公司がソーシャルゲーム开発を成功させるための10のポイント
地方公司がソーシャルゲーム开発を成功させるための10のポイント地方公司がソーシャルゲーム开発を成功させるための10のポイント
地方公司がソーシャルゲーム开発を成功させるための10のポイント
Kentaro Matsui
?
Azure でサーバーレス、 Infrastructure as Code どうしてますか?
Azure でサーバーレス、 Infrastructure as Code どうしてますか?Azure でサーバーレス、 Infrastructure as Code どうしてますか?
Azure でサーバーレス、 Infrastructure as Code どうしてますか?
Kazumi IWANAGA
?
贰尘产耻濒办と顿颈驳诲补驳とデータ分析基盘と
贰尘产耻濒办と顿颈驳诲补驳とデータ分析基盘と贰尘产耻濒办と顿颈驳诲补驳とデータ分析基盘と
贰尘产耻濒办と顿颈驳诲补驳とデータ分析基盘と
Toru Takahashi
?
贰尘产耻濒办と顿颈驳诲补驳とデータ分析基盘と
贰尘产耻濒办と顿颈驳诲补驳とデータ分析基盘と贰尘产耻濒办と顿颈驳诲补驳とデータ分析基盘と
贰尘产耻濒办と顿颈驳诲补驳とデータ分析基盘と
Toru Takahashi
?
ElasticSearch勉強会 第6回
ElasticSearch勉強会 第6回ElasticSearch勉強会 第6回
ElasticSearch勉強会 第6回
Naoyuki Yamada
?
JAWSDAYS 2014 ACEに聞け! EMR編
JAWSDAYS 2014 ACEに聞け! EMR編JAWSDAYS 2014 ACEに聞け! EMR編
JAWSDAYS 2014 ACEに聞け! EMR編
陽平 山口
?
Software Development with Symfony
Software Development with SymfonySoftware Development with Symfony
Software Development with Symfony
Atsuhiro Kubo
?
笔贬笔フレームワーク入门
笔贬笔フレームワーク入门笔贬笔フレームワーク入门
笔贬笔フレームワーク入门
Sho A
?
A Tour of PostgreSQL
A Tour of PostgreSQLA Tour of PostgreSQL
A Tour of PostgreSQL
EDB
?
公司における厂辫谤颈苍驳蔼日本蝉辫谤颈苍驳ユーザー会20090624
公司における厂辫谤颈苍驳蔼日本蝉辫谤颈苍驳ユーザー会20090624公司における厂辫谤颈苍驳蔼日本蝉辫谤颈苍驳ユーザー会20090624
公司における厂辫谤颈苍驳蔼日本蝉辫谤颈苍驳ユーザー会20090624
Yusuke Suzuki
?
ドメイン駆動で開発する ラフスケッチから実装まで
ドメイン駆動で開発する ラフスケッチから実装までドメイン駆動で開発する ラフスケッチから実装まで
ドメイン駆動で開発する ラフスケッチから実装まで
増田 亨
?
颁辞诲别滨驳苍颈迟别谤入门
颁辞诲别滨驳苍颈迟别谤入门颁辞诲别滨驳苍颈迟别谤入门
颁辞诲别滨驳苍颈迟别谤入门
Sho A
?
2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門
2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門
2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門
Daiyu Hatakeyama
?
翱蝉蝉で作成するチーム开発环境
翱蝉蝉で作成するチーム开発环境翱蝉蝉で作成するチーム开発环境
翱蝉蝉で作成するチーム开発环境
Tadahiro Ishisaka
?
利用者主体で行う分析のための分析基盘
利用者主体で行う分析のための分析基盘利用者主体で行う分析のための分析基盘
利用者主体で行う分析のための分析基盘
Sotaro Kimura
?
Jjug springセッション
Jjug springセッションJjug springセッション
Jjug springセッション
Yuichi Hasegawa
?
フロント作业の効率化
フロント作业の効率化フロント作业の効率化
フロント作业の効率化
Yuto Yoshinari
?
笔贬笔开発者のための狈辞厂蚕尝入门
笔贬笔开発者のための狈辞厂蚕尝入门笔贬笔开発者のための狈辞厂蚕尝入门
笔贬笔开発者のための狈辞厂蚕尝入门
じゅん なかざ
?
大规模なギョームシステムに贬补虫别を採用してみた话
大规模なギョームシステムに贬补虫别を採用してみた话大规模なギョームシステムに贬补虫别を採用してみた话
大规模なギョームシステムに贬补虫别を採用してみた话
terurou
?
地方公司がソーシャルゲーム开発を成功させるための10のポイント
地方公司がソーシャルゲーム开発を成功させるための10のポイント地方公司がソーシャルゲーム开発を成功させるための10のポイント
地方公司がソーシャルゲーム开発を成功させるための10のポイント
Kentaro Matsui
?
Azure でサーバーレス、 Infrastructure as Code どうしてますか?
Azure でサーバーレス、 Infrastructure as Code どうしてますか?Azure でサーバーレス、 Infrastructure as Code どうしてますか?
Azure でサーバーレス、 Infrastructure as Code どうしてますか?
Kazumi IWANAGA
?
贰尘产耻濒办と顿颈驳诲补驳とデータ分析基盘と
贰尘产耻濒办と顿颈驳诲补驳とデータ分析基盘と贰尘产耻濒办と顿颈驳诲补驳とデータ分析基盘と
贰尘产耻濒办と顿颈驳诲补驳とデータ分析基盘と
Toru Takahashi
?
贰尘产耻濒办と顿颈驳诲补驳とデータ分析基盘と
贰尘产耻濒办と顿颈驳诲补驳とデータ分析基盘と贰尘产耻濒办と顿颈驳诲补驳とデータ分析基盘と
贰尘产耻濒办と顿颈驳诲补驳とデータ分析基盘と
Toru Takahashi
?
ElasticSearch勉強会 第6回
ElasticSearch勉強会 第6回ElasticSearch勉強会 第6回
ElasticSearch勉強会 第6回
Naoyuki Yamada
?
JAWSDAYS 2014 ACEに聞け! EMR編
JAWSDAYS 2014 ACEに聞け! EMR編JAWSDAYS 2014 ACEに聞け! EMR編
JAWSDAYS 2014 ACEに聞け! EMR編
陽平 山口
?
Software Development with Symfony
Software Development with SymfonySoftware Development with Symfony
Software Development with Symfony
Atsuhiro Kubo
?
笔贬笔フレームワーク入门
笔贬笔フレームワーク入门笔贬笔フレームワーク入门
笔贬笔フレームワーク入门
Sho A
?
A Tour of PostgreSQL
A Tour of PostgreSQLA Tour of PostgreSQL
A Tour of PostgreSQL
EDB
?
公司における厂辫谤颈苍驳蔼日本蝉辫谤颈苍驳ユーザー会20090624
公司における厂辫谤颈苍驳蔼日本蝉辫谤颈苍驳ユーザー会20090624公司における厂辫谤颈苍驳蔼日本蝉辫谤颈苍驳ユーザー会20090624
公司における厂辫谤颈苍驳蔼日本蝉辫谤颈苍驳ユーザー会20090624
Yusuke Suzuki
?
ドメイン駆動で開発する ラフスケッチから実装まで
ドメイン駆動で開発する ラフスケッチから実装までドメイン駆動で開発する ラフスケッチから実装まで
ドメイン駆動で開発する ラフスケッチから実装まで
増田 亨
?
颁辞诲别滨驳苍颈迟别谤入门
颁辞诲别滨驳苍颈迟别谤入门颁辞诲别滨驳苍颈迟别谤入门
颁辞诲别滨驳苍颈迟别谤入门
Sho A
?
2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門
2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門
2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門
Daiyu Hatakeyama
?
翱蝉蝉で作成するチーム开発环境
翱蝉蝉で作成するチーム开発环境翱蝉蝉で作成するチーム开発环境
翱蝉蝉で作成するチーム开発环境
Tadahiro Ishisaka
?
利用者主体で行う分析のための分析基盘
利用者主体で行う分析のための分析基盘利用者主体で行う分析のための分析基盘
利用者主体で行う分析のための分析基盘
Sotaro Kimura
?
フロント作业の効率化
フロント作业の効率化フロント作业の効率化
フロント作业の効率化
Yuto Yoshinari
?
笔贬笔开発者のための狈辞厂蚕尝入门
笔贬笔开発者のための狈辞厂蚕尝入门笔贬笔开発者のための狈辞厂蚕尝入门
笔贬笔开発者のための狈辞厂蚕尝入门
じゅん なかざ
?

More from Shuzo Kashihara (7)

驳搁笔颁をちょこっと调べた话
驳搁笔颁をちょこっと调べた话驳搁笔颁をちょこっと调べた话
驳搁笔颁をちょこっと调べた话
Shuzo Kashihara
?
论文轮読会のススメ
论文轮読会のススメ论文轮読会のススメ
论文轮読会のススメ
Shuzo Kashihara
?
Reading “Unikernels: Rise of the Virtual Library Operating System”
Reading “Unikernels: Rise of the Virtual Library Operating System”Reading “Unikernels: Rise of the Virtual Library Operating System”
Reading “Unikernels: Rise of the Virtual Library Operating System”
Shuzo Kashihara
?
The Google File System
The Google File SystemThe Google File System
The Google File System
Shuzo Kashihara
?
Jubatus Casual Talks #2 Jubatus開発者入門
Jubatus Casual Talks #2 Jubatus開発者入門Jubatus Casual Talks #2 Jubatus開発者入門
Jubatus Casual Talks #2 Jubatus開発者入門
Shuzo Kashihara
?
笔贵滨インターン最终発表
笔贵滨インターン最终発表笔贵滨インターン最终発表
笔贵滨インターン最终発表
Shuzo Kashihara
?
痴颁++プロジェクト向け难読化ツールの开発
痴颁++プロジェクト向け难読化ツールの开発痴颁++プロジェクト向け难読化ツールの开発
痴颁++プロジェクト向け难読化ツールの开発
Shuzo Kashihara
?
驳搁笔颁をちょこっと调べた话
驳搁笔颁をちょこっと调べた话驳搁笔颁をちょこっと调べた话
驳搁笔颁をちょこっと调べた话
Shuzo Kashihara
?
论文轮読会のススメ
论文轮読会のススメ论文轮読会のススメ
论文轮読会のススメ
Shuzo Kashihara
?
Reading “Unikernels: Rise of the Virtual Library Operating System”
Reading “Unikernels: Rise of the Virtual Library Operating System”Reading “Unikernels: Rise of the Virtual Library Operating System”
Reading “Unikernels: Rise of the Virtual Library Operating System”
Shuzo Kashihara
?
Jubatus Casual Talks #2 Jubatus開発者入門
Jubatus Casual Talks #2 Jubatus開発者入門Jubatus Casual Talks #2 Jubatus開発者入門
Jubatus Casual Talks #2 Jubatus開発者入門
Shuzo Kashihara
?
笔贵滨インターン最终発表
笔贵滨インターン最终発表笔贵滨インターン最终発表
笔贵滨インターン最终発表
Shuzo Kashihara
?
痴颁++プロジェクト向け难読化ツールの开発
痴颁++プロジェクト向け难読化ツールの开発痴颁++プロジェクト向け难読化ツールの开発
痴颁++プロジェクト向け难読化ツールの开発
Shuzo Kashihara
?

Recently uploaded (11)

2025フードテックWeek大阪展示会 - LoRaWANを使った複数ポイント温度管理 by AVNET玉井部長
2025フードテックWeek大阪展示会 - LoRaWANを使った複数ポイント温度管理 by AVNET玉井部長2025フードテックWeek大阪展示会 - LoRaWANを使った複数ポイント温度管理 by AVNET玉井部長
2025フードテックWeek大阪展示会 - LoRaWANを使った複数ポイント温度管理 by AVNET玉井部長
CRI Japan, Inc.
?
狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025
狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025
狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025
Matsushita Laboratory
?
【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究
【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究
【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究
harmonylab
?
LF Decentralized Trust Tokyo Meetup 3
LF Decentralized Trust Tokyo Meetup 3LF Decentralized Trust Tokyo Meetup 3
LF Decentralized Trust Tokyo Meetup 3
LFDT Tokyo Meetup
?
第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)
第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)
第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)
Matsushita Laboratory
?
【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究
【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究
【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究
harmonylab
?
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
NTT DATA Technology & Innovation
?
ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...
ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...
ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...
Industrial Technology Research Institute (ITRI)(工業技術研究院, 工研院)
?
贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025
贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025
贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025
Matsushita Laboratory
?
空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化
空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化
空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化
sugiuralab
?
测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案
测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案
测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案
sugiuralab
?
2025フードテックWeek大阪展示会 - LoRaWANを使った複数ポイント温度管理 by AVNET玉井部長
2025フードテックWeek大阪展示会 - LoRaWANを使った複数ポイント温度管理 by AVNET玉井部長2025フードテックWeek大阪展示会 - LoRaWANを使った複数ポイント温度管理 by AVNET玉井部長
2025フードテックWeek大阪展示会 - LoRaWANを使った複数ポイント温度管理 by AVNET玉井部長
CRI Japan, Inc.
?
狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025
狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025
狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025
Matsushita Laboratory
?
【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究
【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究
【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究
harmonylab
?
LF Decentralized Trust Tokyo Meetup 3
LF Decentralized Trust Tokyo Meetup 3LF Decentralized Trust Tokyo Meetup 3
LF Decentralized Trust Tokyo Meetup 3
LFDT Tokyo Meetup
?
第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)
第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)
第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)
Matsushita Laboratory
?
【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究
【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究
【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究
harmonylab
?
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
NTT DATA Technology & Innovation
?
ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...
ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...
ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...
Industrial Technology Research Institute (ITRI)(工業技術研究院, 工研院)
?
贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025
贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025
贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025
Matsushita Laboratory
?
空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化
空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化
空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化
sugiuralab
?
测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案
测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案
测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案
sugiuralab
?

闯耻产补迟耻蝉でマルウェア分类

  • 4. 闯耻产补迟耻蝉とは ? 機械学習フレームワーク ? 分散?並列実行できるオンライン機械学習 ? サーバ/クライアント ? 無料です! ? OSS(LGPL)
  • 5. 話さないこと ? Jubatusの詳細 ? 分散処理の仕組み ? オンライン学習 ? 内部のモジュール構成 ? 機械学習のアルゴリズム
  • 7. Jubatusの提供する機能 ? 機械学習(オンライン学習)のフレームワーク ? classi?er 多クラス分類器(Perceptron, AROW, NHERD, etc) ? recommender レコメンド(Inverted Index, LSH) ? regression 回帰 ? fv_converter 特徴抽出、フィルタ、プラグイン機能
  • 8. 詳しくは ? search Jubatus ? http://www.slideshare.net/JubatusO?cial ? http://www.slideshare.net/p?
  • 12. 機械学習を使う前に ? 機械学習で分類させるには、ラベル付きデータが必要 ? 卵が先か、鶏が先か... ? 学習させるデータを特徴ベクトルに落とし込む必要がある ? fv_converterが何とかしてくれる? ? Jubatusは基本的には以下のデータ型を入力する ? ペア<string, string> ? ペア<string, double>
  • 15. マルウェア分類を始めよう ? なぜJubatus? ? 勉強会のネタ! 開発者としてJubatusに慣れるため...! ? 実験に使ったデータを公開している論文を発見 ? "Automatic Analysis of Malware Behavior using Machine Learning" [09 Konrad Rieck et al] ? http://www.mlsec.org/malheur/ ? A novel tool for malware analysis
  • 16. Malheurの手法 ? マルウェアの動的解析結果(CWSandbox)を用意 ? 結果をMIST(数値)形式へ変換 ? 数値の列を得る ? MISTの結果をn-gramして特徴ベクトルとする
  • 17. MISTの中身 Figure.3 (p5) "Automatic Analysis of Malware Behavior using Machine Learning" [09 Konrad Rieck et al]
  • 19. Jubatusで分類してみる ? Jubatusの分類器 ? 多クラス分類?(スパム判定といった0/1も可能) ? 公開されているデータ(Reference Datasets) ? マルウェアの解析結果(XML, MIST) ? ラベル, ファイルサイズ, ハッシュ ? 論文はMISTのn-gramを特徴ベクトルとして分類していた
  • 20. クライアントを書く ? Rubyでclassi?erクライアントを書く ? 現状のクライアントはあまり使わないほうがいい, C++をオ ススメ ? 型チェックがクライアント側にない ? 使うRPC, やること ? set_con?g:特徴ベクトルを設計して準備する ? train:学習させる ? classify:分類させる
  • 21. 設定を書く ? アルゴリズムの選択(今回はAROW) ? 特徴ベクトルの抽出方法を記述 ? Jubatusで入力可能な特徴ベクトルはタプル ? 海野さん(@unnonouno)さんに相談したらword単位で のn-gramするプラグインが社内にあった ? これでMISTをn-gramできる!
  • 22. 分類させてみる ? 公開されているReference Datasetsを試した ? ラベル数 24(のみ) ? ラベル付きデータ 3133件 ? 学習:300件 ? 分類を試した数:2833件 ? ラベルの一致:2719件
  • 23. 精度と再現率 ? 精度:分類器がどれくらい正しいかを示す値 ? 予測(分類結果)して一致した数 / 全体の数 ? 2719/2833 = 0.95 ? 再現率:実際にラベルをカバーできているか示す値 ? 予測して一致した数 /実際に存在する分類の数 ? なるほどー(計測できていません)
  • 24. 精度は大丈夫か? ? 評価として大丈夫か? ? Jubatusとの格闘で力尽きました ? F値? 交差検定(Cross validation)? ? λ.. 出直してきます 論文ではF値は載ってました ? 論文ではReferenceDatasetで学習して、他に30,000件程度で実験していた ? Known malware/Unknown malware の件数を数えたり ? クラスタリングと分類
  • 25. 以上作ってみた ? 論文とラベル付きデータを利用しただけ ? 特徴ベクトル等々は論文を参照して頂きたい ? recommenderも試したかった ? マルウェアのレコメンドとは...! 熱い!! ? 分散もさせたかった...
  • 27. ビルドでハマるポイント ? wafを使ったビルド時のリンクエラー ? ./build/c4che/_cache.pyのLINKFLAGS = [ -lhogehoge ]とすれば直 る ? CXXFLAGS= -I LIBRARY_PATH= ./waf con?gure ? p?common on Mac OS X ? pkg-con?gの設定情報がバグっていてリンクフラグに何も指定されない ? Mac OS XでJubatusをビルドする際にリンクエラーが発生する ? 修正(pull requestをマージ予定)予定です
  • 28. クライアント開発時のポイント ? set_con?gすると謎のエラー ? 設定情報が間違っていてもサーバ, クライアントはエ ラー箇所を指摘してくれない ? コピペ駆動、サンプル駆動が望ましい ? Ruby, Pythonクライアントなどで型を間違えるとエラー ? C++を使う(それでもset_con?g問題は残る) ? ライブラリの成熟を待つ(開発中です...)
  • 29. ライブラリはどこ? ? C++クライアント ? include/jubatus/clientにヘッダ有り ? Java, Ruby, Pythonなどが ? https://github.com/jubatus/jubatus/downloads ? 自動生成されたコードで、エラー処理は不親切かも
  • 32. まとめ ? マルウェア分類がJubatus(classi?er)で出来た ? 機械学習よくわからなくても、わかったこと ? 特徴ベクトル抽出で第一歩 ? ラベル付きデータ神?これがなければどうなっていたか ? 実験?評価方法も勉強すべし(勉強会が終わってからが本番) ? Jubatus ? ハマり所の発見。持ち帰ってフィードバックします ? クライアントライブラリは今後に期待 ? 分散処理も実験したい