狠狠撸

狠狠撸Share a Scribd company logo
Rで連続データを離散化
#51 Tokyo.R
2015/10/10
ニフティ株式会社
伊藤 徹郎 (@tetsuroito)
食欲の秋、ハロウィンですね
最近運動不足気味
自己紹介
ありがたいご恵贈の数々
近況
みなさんの素晴らしい
成果によって
日々助けられてます
ありがとうございます
データ分析よくあるパターン
1. WindowsのGUIアプリやWebサービスの管理画面
2. Windows上でのプログラミング
3. Linux上でのコマンド操作
4. Linux上でのプログラミング
5. DBとかKVSとかを自前で用意する
6. Hiveとか、最近だとMPP
7. Hadoop/Sparkなどの環境下でのプログラミング
上記2,3のギャップを埋める書籍です。
コマンドラインでの記述がメインですが、
Rも関連したコマンドラインの紹介もあります
ggplot2の話もいっぱい
もうこの会では何度も紹介されてきた名著
Rの基礎から可視化、データ加工、分析、
パッケージ作成までを網羅した1冊!
現在、第3版!
最新版はさらに内容がよくなっているそうです!
もう説明は不要ですよね?
Tokyo.Rテキストシリーズで採用しても良さそう!
よくあるデータ分析の手法
(多変量解析、機械学習)の解説書ではなく
適切な分析計画の立案、データ収集?蓄積、
データ加工やデータ変換などの前処理、
その後の分析手法の適用、活用までを
幅広く解説したall in oneの書籍
本日のLTはこちらから
「連続データの離散化」の箇所を紹介します
データの離散化のメリット
データ記述の簡略
データ及びその処理結果に対する理解向上
多くの数値属性を含むデータ処理の実行
データ離散化の手法の分類
?????????
?????????
?????????
トップダウンアプローチ ボトムアップアプローチ
?????????
全データを1区間からスタート
逐次的に分割
?????????
?????????
複数区間からスタート
必要に応じて区間を併合
連続データの離散化手法
教師データなし 教師データあり
トップダウン
等間隔区間による
離散化(EWD)
等頻度区間による
離散化(EFD)など
エントロピーを用いた
離散化
(CAIM,CACC,Aeva)
最小記述長原理による
離散化(MDLP)など
ボトムアップ k-meansなど カイマージ、カイ2など
k-meansは割愛します
連続データ離散化を実現するRパッケージ
discretization パッケージ
infotheo パッケージ
>install.packages("infotheo",quiet=TRUE)
>install.packages("discretization",quiet=TRUE)
等間隔区間による離散化
irisデータで試してみる
分割数はnbins引数で指定可能
等頻度区間による離散化
irisデータで試してみる
分割数はnbins引数で指定可能
引数を変更
カイマージによる離散化
カイマージとは‥
χ二乗検定を用いて分割点を決定するもの
具体的には‥
属性を離散化して隣接する区間で各クラスの確率に
有意な違いはないと判断されたら2区間を併合する
discretization パッケージ
chiM関数で実行可能
カイマージによる離散化
irisデータで試してみる
情報エントロピーを用いた離散化
おそらく、5分で説明するには時間が足らない
と思うので、知りたい方は書籍を読んでください
最小記述長原理を用いた離散化
http://d.hatena.ne.jp/sfchaos/20131208/p1
もしくは著者のブログをチェック!
贰苍箩辞测!

More Related Content

What's hot (20)

PDF
公平性を保証した础滨/机械学习?アルゴリズムの最新理论
Kazuto Fukuchi
?
PDF
レコメント?アルコ?リス?ムの基本と周辺知识と実装方法
Takeshi Mikami
?
PDF
笔搁惭尝学习者から入る深层生成モデル入门
tmtm otm
?
PPTX
密度比推定による时系列データの异常検知
- Core Concept Technologies
?
PDF
翱辫迟颈尘颈锄别谤入门&最新动向
Motokawa Tetsuya
?
PPTX
【論文紹介】How Powerful are Graph Neural Networks?
Masanao Ochi
?
PPT
Gurobi python
Mikio Kubo
?
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
?
PDF
統計的因果推論への招待 -因果構造探索を中心に-
Shiga University, RIKEN
?
PDF
グラフィカル Lasso を用いた異常検知
Yuya Takashina
?
PDF
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
?
PDF
セクシー女优で学ぶ画像分类入门
Takami Sato
?
PDF
九大冲顿厂実践冲相関分析と回帰分析
RyomaBise1
?
PDF
础尘补锄辞苍でのレコメンド生成における深层学习と础奥厂利用について
Amazon Web Services Japan
?
PDF
遺伝的アルゴリズム (Genetic Algorithm)を始めよう!
Kazuhide Okamura
?
PPTX
ようやく分かった!最尤推定とベイズ推定
Akira Masuda
?
PDF
笔搁惭尝轮読#1
matsuolab
?
PDF
小さな自动化から始める快适お仕事生活?ラス?ハ?イ+狈辞诲别-搁贰顿て?ローコート?に自动化しよう?
kusukawa
?
PPTX
Visual Studio CodeでRを使う
Atsushi Hayakawa
?
PDF
グラフィカルモデル入门
Kawamoto_Kazuhiko
?
公平性を保証した础滨/机械学习?アルゴリズムの最新理论
Kazuto Fukuchi
?
レコメント?アルコ?リス?ムの基本と周辺知识と実装方法
Takeshi Mikami
?
笔搁惭尝学习者から入る深层生成モデル入门
tmtm otm
?
密度比推定による时系列データの异常検知
- Core Concept Technologies
?
翱辫迟颈尘颈锄别谤入门&最新动向
Motokawa Tetsuya
?
【論文紹介】How Powerful are Graph Neural Networks?
Masanao Ochi
?
Gurobi python
Mikio Kubo
?
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
?
統計的因果推論への招待 -因果構造探索を中心に-
Shiga University, RIKEN
?
グラフィカル Lasso を用いた異常検知
Yuya Takashina
?
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
?
セクシー女优で学ぶ画像分类入门
Takami Sato
?
九大冲顿厂実践冲相関分析と回帰分析
RyomaBise1
?
础尘补锄辞苍でのレコメンド生成における深层学习と础奥厂利用について
Amazon Web Services Japan
?
遺伝的アルゴリズム (Genetic Algorithm)を始めよう!
Kazuhide Okamura
?
ようやく分かった!最尤推定とベイズ推定
Akira Masuda
?
笔搁惭尝轮読#1
matsuolab
?
小さな自动化から始める快适お仕事生活?ラス?ハ?イ+狈辞诲别-搁贰顿て?ローコート?に自动化しよう?
kusukawa
?
Visual Studio CodeでRを使う
Atsushi Hayakawa
?
グラフィカルモデル入门
Kawamoto_Kazuhiko
?

More from tetsuro ito (20)

PDF
摆鲍辫用闭谤て?辩谤
tetsuro ito
?
PDF
20170912 data analyst meetup tokyo vol.5
tetsuro ito
?
PDF
DataOps in Moneyforward
tetsuro ito
?
PDF
20170207 bigdata analytics_tokyo講演資料
tetsuro ito
?
PDF
20161029 dots machine learning in money forward
tetsuro ito
?
PDF
20160906 bq sushi
tetsuro ito
?
PDF
20150531分析プラットホームとその技術(bizreach) cookpad ito #dcube_analysis
tetsuro ito
?
PDF
20150303続ハ?タ5章后半
tetsuro ito
?
PDF
笔搁惭尝読书会1スライト?(公开用)
tetsuro ito
?
PDF
20140614 tokyo r lt
tetsuro ito
?
PDF
20140329 tokyo r lt 「カーネルとsvm」
tetsuro ito
?
PDF
20140204はし?ハ?タ濒迟
tetsuro ito
?
PDF
Japan.r 2013 「実ヒ?シ?ネステ?ータへのrの活用とその限界」
tetsuro ito
?
PDF
はし?ハ?タ8章 svm
tetsuro ito
?
PDF
Tokyo R LT 20131109
tetsuro ito
?
PDF
はし?ハ?タ2章
tetsuro ito
?
PDF
第31回TokyoR LT資料
tetsuro ito
?
PDF
集合知フ?ロク?ラミンク?5章発表
tetsuro ito
?
PDF
集合知フ?ロク?ラミンク?11章
tetsuro ito
?
KEY
集合知プログラミング勉強会キックオフMTG LT用資料
tetsuro ito
?
摆鲍辫用闭谤て?辩谤
tetsuro ito
?
20170912 data analyst meetup tokyo vol.5
tetsuro ito
?
DataOps in Moneyforward
tetsuro ito
?
20170207 bigdata analytics_tokyo講演資料
tetsuro ito
?
20161029 dots machine learning in money forward
tetsuro ito
?
20160906 bq sushi
tetsuro ito
?
20150531分析プラットホームとその技術(bizreach) cookpad ito #dcube_analysis
tetsuro ito
?
20150303続ハ?タ5章后半
tetsuro ito
?
笔搁惭尝読书会1スライト?(公开用)
tetsuro ito
?
20140614 tokyo r lt
tetsuro ito
?
20140329 tokyo r lt 「カーネルとsvm」
tetsuro ito
?
20140204はし?ハ?タ濒迟
tetsuro ito
?
Japan.r 2013 「実ヒ?シ?ネステ?ータへのrの活用とその限界」
tetsuro ito
?
はし?ハ?タ8章 svm
tetsuro ito
?
Tokyo R LT 20131109
tetsuro ito
?
はし?ハ?タ2章
tetsuro ito
?
第31回TokyoR LT資料
tetsuro ito
?
集合知フ?ロク?ラミンク?5章発表
tetsuro ito
?
集合知フ?ロク?ラミンク?11章
tetsuro ito
?
集合知プログラミング勉強会キックオフMTG LT用資料
tetsuro ito
?
Ad

TokyoR LT Rで連続データを離散化