狠狠撸
Submit Search
Casual datascience vol3
?
1 like
?
92 views
K
KazuhiroSato8
Follow
カジュアル勉強会 データサイエンスを学ぶ第3回 公開用資料
Read less
Read more
1 of 97
Download now
Downloaded 13 times
More Related Content
Casual datascience vol3
1.
カジュアル勉強会 @仙台 データサイエンスを学ぶ 第3回 株式会社
エクテック 取締役 兼データサイエンティスト
2.
第5回までの流れ 1部 1. 第1回のおさらい 2. データへの取り組み方 3.
色々なアプローチ 2部 1. アプローチ具体例 2. 分析環境 3. 周辺技術と知識 第2回 (2020/02/01 ) 1部 1. データとは 2. 身近なデータ 3. データと科学 2部 1. データアプローチ 2. データで実現 3. 活用事例 第1回 (2020/01/24 )
3.
第5回までの流れ 1部 1. 第3回のおさらい 2. 機械学習 3.
データと機械学習 2部 1. データと分類 2. データと回帰 3. データとクラスタリング 第4回 (2020/03/07 ) 1部 1. 第2回のおさらい 2. データの加工 3. データの前処理 2部 1. データの正規化 2. 予測と分類① 3. 予測と分類② 第3回 (2020/02/15 )
4.
第5回までの流れ 1部 1. 第4回のおさらい 2. データの在り方 3.
データと可視化① 2部 1. データと可視化② 2. データと可視化③ 3. データと個人情報 第5回 (2020/03/28 )
5.
本日のアジェンダ 第2回のおさらい (Go over) データの加工 (Data Processing) データの前処理 (Data
Pre-processing) データの正規化 (Data Normalization) 予測と分類① (Forecasting & Classi?cation1) 予測と分類② (Forecasting & Classi?cation2) 2部1部
6.
第2回のおさらい (Go over)
7.
レコードセット, データベース, テーブル データクレンジング 破損または不正確なデータを 検出および修正するプロセス
8.
破損または不正確なデータを 検出および修正するプロセス データの品質を把握する データのクレンジングをする前に、 データがどの程度、”綺麗”なのかを確認する
9.
破損または不正確なデータを 検出および修正するプロセス データをクレンジングする ?損の補完や表記の揺れの標準化, ノイズの排除など ?的に適した?法を定義し、適?する必要あり
10.
破損または不正確なデータを 検出および修正するプロセス データを名寄せ、統合する 名寄せ(マッチング)によって重複データの特定 統合(マージ)を?う
11.
なんらかの理由により記録されなかった値 ?損データ 全ての変数の値が観測されている データを「完全データ」 ?損データ = 不完全データ
12.
データが不完全, ?損データであると ?損データ 統計的処理が不可能になる 結果にバイアスが?じる データそのものが無駄になる
13.
?损値の除去 予測値で補完する?法 尤度(確率)で補完する?法
14.
?损値
17.
出现率を?て、补完。
18.
補完前後で、出現回数の 分布を確認する。
19.
?損データが?きいと 推論による補完は厳しい
20.
ホワイトノイズ ランダムウォーク ※詳しくは第3回で説明します
21.
Python R ?校数学 微分積分
統計学 収集? 客観的思考? numpypandas scikit-learn Tensor?ow Keras Caretggplot2 dplyer matplotlib CRAN R Studio Pycharm PyScripter Atom Visual Studio ?然?語 レコメンド 時系列
22.
データの加? (Data Processing)
23.
なぜ、データを加?するのか
24.
(1分间)
25.
なぜ、データを加?するのか データサイエンス分野 “精度” を?めたいから
26.
データ加? 特徴量エンジニアリング
27.
特徴量エンジニアリング いかにデータ量を増やすか いかにデータの質を?めるか
28.
いかにデータ量を増やすか 同じ画像に対して、 ?度を変えて、増やす
29.
いかにデータ量を増やすか 同じ画像に対して、 RGBを変えて、増やす
30.
いかにデータ量を増やすか 同?パターンに対して、 範囲内で変化を与えて、増やす
31.
いかにデータの質を?めるか ホワイトノイズ ランダムウォーク
32.
ホワイトノイズ ホワイトガウスノイズ
33.
ホワイトノイズ ホワイトガウスノイズ ?較的パターン性のあるノイズ
34.
ランダムウォーク? “酔歩”と訳されるが、 パターンに規則がなく、予測不能
35.
いかにデータの質を?めるか 精度を?めるにおいて、 そのノイズは意味のあるノイズ?
36.
データの前処理 (Data Pre-processing)
37.
そのデータは、 ?字列?数値?
38.
One-hot Encoding
39.
教育科目 英語 数学 国語 理科 社会
40.
教育科目 英語 数学 国語 理科 社会 英語 数学 国語
理科 社会 1 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 1
41.
データの加?において 基本中の基本に位置する?法 データをxxxであるか否かの 「1 or 0」で表現する?法
42.
教育科目 英語 数学 国語 理科 社会 英語 数学 国語
理科 社会 1 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 1
43.
他の列から再現できてしまう 列の存在は予測精度に 悪影響を及ぼす可能性
44.
教育科目 英語 数学 国語 理科 社会 英語 数学 国語
理科 社会 1 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 1
45.
データがスパースになる (≒列がむやみに増える)
46.
Label-Encoding
47.
教育科目 英語 数学 国語 理科 社会 ラベル 1 2 3 4 5
48.
順序性がない値に 適?するのは避ける
49.
アルゴリズムによって有効な 場?が限られてくるため 注意が必要
50.
連番で表現される順序が 予測したい値に関係するほど 有効なデータになる
51.
順序の差が?定でない ものは避ける
52.
Count-Encoding
53.
教育科目 英語 数学 国語 理科 社会 実施回数 10 15 11 12 5
54.
教育科目 英語 数学 国語 理科 社会 実施回数 10 15 11 12 5 10 15 11 12 5 + 教育科目
55.
出現する値の頻度へと 変換する?法
56.
Label-Encoding と相性が良い
57.
Target-Encoding
58.
教育科目 英語 数学 国語 理科 社会 受講人数 10人以上 10人以下 10人以下 10人以下 10以上
59.
教育科目 英語 数学 国語 理科 社会 受講回数 10 15 11 12 5 10人以上 割合算出 22% 51% 32% 24% 10% +
60.
教育科目 英語 数学 国語 理科 社会 受講回数 10 15 11 12 5 10人以上 割合算出 22% 51% 32% 24% 10% 10人以上 割合算出 0.22 0.51 0.32 0.24 0.10
61.
予測にとって有効なデータ に変換されてくれる
62.
が、问题もある
63.
尝别补办问题
64.
教育科目 英語 数学 国語 理科 社会 受講回数 10 15 11 12 5 10人以上 割合算出 22% 51% 32% 24% 10% 10人以上 割合算出 0.22 0.51 0.32 0.24 0.10
65.
?に?らないはずのデータを ?に?れた状態で予測してしまう
66.
単纯化
67.
架空のデータ ID 年齢 性別
居住地 病気 10001 42 男 仙台市泉区xxx 大腸ガン 10002 59 女 仙台市泉区yyy 胃ガン 10003 34 女 仙台市若林区xxx ウィルス感染症 10004 61 男 仙台市青葉区xxx ウィルス感染症 10005 77 男 仙台市青葉区yyy 心疾患 10006 46 女 仙台市青葉区zzz 胃ガン 10007 52 男 仙台市若林区zzz 糖尿病1型 10008 71 男 仙台市宮城野区xxx 喉頭ガン 10009 66 男 仙台市太白区xxx 心疾患 10010 54 女 仙台市太白区yyy 胃ガン 10011 41 男 仙台市若林区yyy 糖尿病2型
68.
架空のデータ ID 年齢 性別
居住地 病気 10001 42 1 3 1 10002 59 0 3 7 10003 34 0 4 5 10004 61 1 5 5 10005 77 1 5 6 10006 46 0 5 7 10007 52 1 4 2 10008 71 1 1 4 10009 66 1 2 6 10010 54 0 2 7 10011 41 1 4 3
69.
架空のデータ ID 年齢 性別
居住地 病気 10001 42 1 3 1 10002 59 0 3 7 10003 34 0 4 5 10004 61 1 5 5 10005 77 1 5 6 10006 46 0 5 7 10007 52 1 4 2 10008 71 1 1 4 10009 66 1 2 6 10010 54 0 2 7 10011 41 1 4 3
70.
架空のデータ ID 年齢 性別
居住地 病気 10001 40代 1 3 1 10002 50代 0 3 7 10003 30代 0 4 5 10004 60代 1 5 5 10005 70代 1 5 6 10006 40代 0 5 7 10007 50代 1 4 2 10008 70代 1 1 4 10009 60代 1 2 6 10010 50代 0 2 7 10011 40代 1 4 3
71.
搁辞耻苍诲化
72.
「丸める」「平たくする」 ことで単纯化する
73.
Binning
74.
年齢 23 15 36 39 55
75.
年齢 23 15 36 39 55 年齢層 20 10 30 30 50
76.
年齢 23 15 36 39 55 年齢層 20 10 30 30 50 階級?階層に分ける
77.
年齢 23 15 36 39 55 年齢層 20 10 30 30 50 10 20 30 1 1 0 0 0 1 0 0 0 1 0 1 0 1 1 1 0 0
78.
年齢 23 15 36 39 55 年齢層 20 10 30 30 50 10 20 30 1 1 0 0 0 1 0 0 0 1 0 1 0 1 1 1 0 0 One-hot
化
79.
予測したいデータとの関係性が 複雑(=?線形)でも、 ある程度予測することが可能
80.
休憩 (10分間)
81.
データの正規化 (Data Normalization)
82.
正规化とは?
83.
対象の特徴をあらかじめ 決められた基準に加?すること
84.
主に画像データなどの 前処理として?うもの
85.
RGB(0~255)を 0~1で表現する
86.
なぜ、正规化するの?
87.
学習コスト(計算時間) を抑えるため
88.
正規化 最?値 最?値 元の値 最?値
89.
予測と分類① (Forecasting & Classi?cation1)
90.
予測と分類② (Forecasting & Classi?cation2)
91.
Jupyter上で ?ていきます
92.
ノイズのあるSin波を予測 Auto-Encorderで?字判定 ?名だけで国籍判定
93.
ホワイトノイズを Sin波に付加 ノイズをもとに モデル学習して 予測
94.
Adéla Adela adela 1→4→5→12→1 11カ国 の人名を ベクトル化 &
ゼロパディング これらデータを用いてモデル学習 & モデル精度の比較
95.
simple Auto-Encoder ノイズのあるデータ Convolutional Auto-Encoder De-noise
Auto-Encoder Auto-Encoder 様々な種類の オートエンコーダ を試す
96.
次回のアジェンダ 第3回のおさらい (Go over) 機械学習 (Machine Learning) データと機械学習 (Data
& ML) データと分類 (Data & Classi?cation) データと予測 (Data & Prediction) データとクラスタリング (Data & Clustering) 2部1部
97.
EOS
Download