狠狠撸

狠狠撸Share a Scribd company logo
カジュアル勉強会 @仙台
データサイエンスを学ぶ 第4回
株式会社 エクテック
取締役 兼データサイエンティスト
エクテックのミッション
(Introduction)
東北を、仙台を、
データサイエンスで
盛り上げる
本日のアジェンダ
第3回のおさらい
(Go over)
機械学習
(Machine Learning)
データと機械学習
(Data & ML)
データと分類
(Data & Classi?cation)
データと予測
(Data & Prediction)
データとクラスタリング
(Data & Clustering)
2部1部
第3回のおさらい
(Go over)
なぜ、データを加?するのか
データサイエンス分野
“精度” を?めたいから
データ加?
特徴量エンジニアリング
特徴量エンジニアリング
いかにデータ量を増やすか
いかにデータの質を?めるか
いかにデータ量を増やすか
同じ画像に対して、
?度を変えて、増やす
いかにデータ量を増やすか
同じ画像に対して、
RGBを変えて、増やす
いかにデータ量を増やすか
同?パターンに対して、
範囲内で変化を与えて、増やす
いかにデータの質を?めるか
ホワイトノイズ
ランダムウォーク
ホワイトノイズ
ホワイトガウスノイズ
?較的パターン性のあるノイズ
ランダムウォーク?
“酔歩”と訳されるが、
パターンに規則がなく、予測不能
いかにデータの質を?めるか
精度を?めるにおいて、
そのノイズは意味のあるノイズ?
One-hot Encoding
教育科目
英語
数学
国語
理科
社会
英語 数学 国語 理科 社会
1
0
0
0
0
0
1
0
0
0
0
0
1
0
0
0
0
0
1
0
0
0
0
0
1
教育科目
英語
数学
国語
理科
社会
英語 数学 国語 理科 社会
1
0
0
0
0
0
1
0
0
0
0
0
1
0
0
0
0
0
1
0
0
0
0
0
1
他の列から再現できてしまう
列の存在は予測精度に
悪影響を及ぼす可能性
教育科目
英語
数学
国語
理科
社会
英語 数学 国語 理科 社会
1
0
0
0
0
0
1
0
0
0
0
0
1
0
0
0
0
0
1
0
0
0
0
0
1
データがスパースになる
(≒列がむやみに増える)
Label-Encoding
教育科目
英語
数学
国語
理科
社会
ラベル
1
2
3
4
5
順序性がない値に
適?するのは避ける
アルゴリズムによって有効な
場?が限られてくるため
注意が必要
連番で表現される順序が
予測したい値に関係するほど
有効なデータになる
順序の差が?定でない
ものは避ける
Count-Encoding
教育科目
英語
数学
国語
理科
社会
実施回数
10
15
11
12
5
10
15
11
12
5
+
教育科目
Target-Encoding
教育科目
英語
数学
国語
理科
社会
受講回数
10
15
11
12
5
10人以上
割合算出
22%
51%
32%
24%
10%
10人以上
割合算出
0.22
0.51
0.32
0.24
0.10
予測にとって有効なデータ
に変換されてくれる
尝别补办问题
教育科目
英語
数学
国語
理科
社会
受講回数
10
15
11
12
5
10人以上
割合算出
22%
51%
32%
24%
10%
10人以上
割合算出
0.22
0.51
0.32
0.24
0.10
?に?らないはずのデータを
?に?れた状態で予測してしまう
単纯化
架空のデータ
ID 年齢 性別 居住地 病気
10001 42 男 仙台市泉区xxx 大腸ガン
10002 59 女 仙台市泉区yyy 胃ガン
10003 34 女 仙台市若林区xxx ウィルス感染症
10004 61 男 仙台市青葉区xxx ウィルス感染症
10005 77 男 仙台市青葉区yyy 心疾患
10006 46 女 仙台市青葉区zzz 胃ガン
10007 52 男 仙台市若林区zzz 糖尿病1型
10008 71 男 仙台市宮城野区xxx 喉頭ガン
10009 66 男 仙台市太白区xxx 心疾患
10010 54 女 仙台市太白区yyy 胃ガン
10011 41 男 仙台市若林区yyy 糖尿病2型
架空のデータ
ID 年齢 性別 居住地 病気
10001 42 1 3 1
10002 59 0 3 7
10003 34 0 4 5
10004 61 1 5 5
10005 77 1 5 6
10006 46 0 5 7
10007 52 1 4 2
10008 71 1 1 4
10009 66 1 2 6
10010 54 0 2 7
10011 41 1 4 3
架空のデータ
ID 年齢 性別 居住地 病気
10001 42 1 3 1
10002 59 0 3 7
10003 34 0 4 5
10004 61 1 5 5
10005 77 1 5 6
10006 46 0 5 7
10007 52 1 4 2
10008 71 1 1 4
10009 66 1 2 6
10010 54 0 2 7
10011 41 1 4 3
架空のデータ
ID 年齢 性別 居住地 病気
10001 40代 1 3 1
10002 50代 0 3 7
10003 30代 0 4 5
10004 60代 1 5 5
10005 70代 1 5 6
10006 40代 0 5 7
10007 50代 1 4 2
10008 70代 1 1 4
10009 60代 1 2 6
10010 50代 0 2 7
10011 40代 1 4 3
搁辞耻苍诲化
「丸める」「平たくする」
ことで単纯化する
Binning
年齢
23
15
36
39
55
年齢
23
15
36
39
55
年齢層
20
10
30
30
50
年齢
23
15
36
39
55
年齢層
20
10
30
30
50
階級?階層に分ける
年齢
23
15
36
39
55
年齢層
20
10
30
30
50
10 20 30
1
1
0
0
0
1
0
0
0
1
0
1
0
1
1
1
0
0
年齢
23
15
36
39
55
年齢層
20
10
30
30
50
10 20 30
1
1
0
0
0
1
0
0
0
1
0
1
0
1
1
1
0
0
One-hot 化
予測したいデータとの関係性が
複雑(=?線形)でも、
ある程度予測することが可能
正规化とは?
対象の特徴をあらかじめ
決められた基準に加?すること
主に画像データなどの
前処理として?うもの
RGB(0~255)を
0~1で表現する
なぜ、正规化するの?
学習コスト(計算時間)
を抑えるため
正規化
最?値 最?値
元の値 最?値
ノイズのあるSin波を予測
Auto-Encorderで?字判定
?名だけで国籍判定
ホワイトノイズを
Sin波に付加
ノイズをもとに
モデル学習して
予測
Adéla
Adela
adela
1→4→5→12→1
11カ国 の人名を
ベクトル化 & ゼロパディング
これらデータを用いてモデル学習 &
モデル精度の比較
simple Auto-Encoder
ノイズのあるデータ
Convolutional Auto-Encoder
De-noise Auto-Encoder
Auto-Encoder
様々な種類の
オートエンコーダ
を試す
機械学習
(Machine Learning)
机械学习とは?
「??知能における研究分野の1つ。
明?的にプログラムで指?することなく、
コンピュータに学習させる技術」
『明?的にプログラムで指?することなく』
たとえば、
ルールベース
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
1つ1つの条件を定義して
広く、深く、探索して
絶対的なルールを作る
では、机械学习は?
?量のデータを学習し、
データ間の関係性を?出し、
確率(尤もらしさ)をもとに、
推論?パターンをもとに、
課題解決する統計モデル
機械学習
どうやってモデル作っているか
?般的に、データを
学習?データ, 検証?データ
にわけてモデルを構築する
(教師あり学習)
学習?データ 検証?データ
学習?データ
説明変数
これら値が、尤もらしさ
を?出すもととなる
学習?データ
?的変数
いわゆる、正解ラベル
というもの。
学習?データ
パターン(説明変数)と
正確ラベル(?的変数)
をもとにモデル構築
学習した
モデル
学習?データ
学習した
モデル
学習?データ 検証?データ
学習した
モデル
正解ラベル 出?結果
学習した
モデル
正解ラベル 出?結果
正解ラベルに対して
出?結果がどれくらい
正解しているか?
↓
正解率
↓
モデルの
予測精度
データと機械学習
(Data & ML)
機械学習によるモデルを
構築するには、?般的に
?量のデータが必要とされる
機械学習のための
データセット
関连性のないデータ
旅客机の数と、饮酒量
学習?データの
特徴の違い
正?から?た顔
横から?た顔
学習として違いがある
(※参考) 詳解OpenCV
声優の素の声から
アニメの声が予測できるのか
(※参考) Qiite 声優の声を分類してみた
?途にふさわしい
データを持つべき
欧??の顔認識データだけでは
?本?顔の区別は難しい
妥当性のチェックを
?かさない
サッカー上での
?認識?検出
背景が緑の芝であることが多く、
それに特化した学習をすると、
背景が緑の芝でない状況だと、
検出率が下がることがありそう
機械学習における
データへの意識
データ収集の?間を
惜しまないこと
データ
加?
モデル
評価
モデル
構築
リリース
データ
収集
データ
加?
モデル
評価
モデル
構築
リリース
データ
収集
データ
加?
モデル
評価
モデル
構築
リリース
データ
収集
データ
加?
モデル
評価
モデル
構築
リリース
データ
?直し
データ
収集
データ
加?
モデル
評価
モデル
構築
リリース
データ
?直し
データ
収集
サイクルは
常に回り続ける
データと分類
(Data & Classi?cation)
分类の主な?的
データが属するクラス
を推論すること
X
かどうか
XXか?
XX X
YYか?
YY Y
yes
yes no no
no
yes
顧客の購買情報から
その顧客が新商品を
買う or 買わない
買う or 買わない?
買う or 買わない?
2値分類?
学?の点数や講義の出?率、
受講態度で、
成績(S, A, B, C, D, ...)
成績(S, A, B, C, D, ...)?
多値分類?
データと予測
(Data & Prediction)
予测の主な?的
連続値などの値を
予測する(未来を視る)こと
Casual datascience vol4
顧客の購買情報から
その顧客が新商品を
いくつ買ってくれるか
その時々での、
学?の点数や講義の出?率、
受講態度から
その学?の成績を予測する
データとクラスタリング
(Data & Clustering)
クラスタリングの主な?的
それに分類される
『集合(集団)』を?つけること
X
XX
Y
YY
データの集まり
顧客の購買情報から、新商品を
買ってくれる顧客の集団
or 買ってくれない顧客の集団
に分ける
学?の点数や講義の出?率、
受講態度で、
成績Sをとる学?の集団、
成績Aをとる学?の集団、…
に分ける
Jupyter で
簡単な例を?ていきます
次回のアジェンダ
第4回のおさらい
(Go over)
データの在り方
(How Data should be)
データの可視化①
(Data & Visualization 1)
データの可視化②
(Data & Visualization 2)
データの可視化③
(Data & Visualization 3)
データと個人情報
(Data & Personal Information)
2部1部

More Related Content

Casual datascience vol4