狠狠撸

狠狠撸Share a Scribd company logo
カジュアル勉強会 @仙台
データサイエンスを学ぶ 第2回
株式会社 エクテック
取締役 兼データサイエンティスト
? 2019- exetch, inc.
第5回までの流れ
1部
1. 第1回のおさらい
2. データへの取り組み方
3. 色々なアプローチ
2部
1. アプローチ具体例
2. 分析環境
3. 周辺技術と知識
第2回 (2020/02/01 )
1部
1. データとは
2. 身近なデータ
3. データと科学
2部
1. データアプローチ
2. データで実現
3. 活用事例
第1回 (2020/01/24 )
? 2019- exetch, inc.
第5回までの流れ
1部
1. 第3回のおさらい
2. 機械学習
3. データと機械学習
2部
1. データと分類
2. データと回帰
3. データとクラスタリング
第4回 (2020/03/07 )
1部
1. 第2回のおさらい
2. データの加工
3. データの前処理
2部
1. データの正規化
2. 予測と分類①
3. 予測と分類②
第3回 (2020/02/15 )
? 2019- exetch, inc.
第5回までの流れ
1部
1. 第4回のおさらい
2. データの在り方
3. データと可視化①
2部
1. データと可視化②
2. データと可視化③
3. データと個人情報
第5回 (2020/03/28 )
? 2019- exetch, inc.
本日のアジェンダ
第1回のおさらい
(Go over)
データへの取り組み方
(How to approach Data)
色々なアプローチ
(Different approach)
アプローチ具体例
(Approach example)
分析環境
(Analysis Environment)
周辺技術と知識
(Technology & Knowledge)
2部1部
? 2019- exetch, inc.
第1回のおさらい
(Go over)
? 2019- exetch, inc.
? 2019- exetch, inc.
? 2019- exetch, inc.
データとは
複数の事象や数値の集まり
観測値
??の増減
ニュース原稿
消費電?
売上アンケート
?々の運動記録
ユーザ嗜好
株価
ログ情報
緯度経度
渡航履歴
占い 医療カルテ
検索履歴
お薬?帳
レシート
クリック数
通話履歴
位置情報
研究論?数
新聞紙の発?部数
雑誌
帳簿
献?メモ
ハガキ
アルバム
地域の?量
アドレス帳チラシ
勉強ノート
? 2019- exetch, inc.
?元にある書類やファイル(紙媒体)
電?データ化
コンピュータで扱えるデータ
の形になっていること
? 2019- exetch, inc.
帝国データバンク
企業??営利団体
Facebook
Twitter
Google
Amazon
Worldbank
IMF
東京メトロオープンデータ
あおきオープンデータ
世界保健機関(WHO)
Linkedin
?本旅?業協会
Wikipedia
Google Scholar
Linkedin
Five Thirty Eight
New York Times API
iタウンページ
?地DATA
? 2019- exetch, inc.
データとは
複数の事象や数値の集まり
“記録”がされているだけ。
そこにあるのは”記号”と”数字”
? 2019- exetch, inc.
情報とは
意志決定の”もと”となるもの
“記号”や”数字”のデータから
情報を抜き出す、要約したもの
? 2019- exetch, inc.
基本的なアプローチ
収集
加?
要約
データは?元あるが、中?を知らない
データの所在がわからない
いたるところに分散している…etc
データに無駄な情報がある
データを結合しようにも、定義が違う
ファイルの拡張?が違う…etc
不要な情報や、無駄な情報がない
必要に応じて数値化できる
グラフ化が容易にできる…etc
? 2019- exetch, inc.
統計学的アプローチ
ニューラルネットワーク
AI
機械学習(マシーンラーニング)
ディープラーニング(深層学習)
? 2019- exetch, inc.
類推、推察、予知、予想、予?
そして予測
? 2019- exetch, inc.
データへの取り組み?
(How to approach Data)
? 2019- exetch, inc.
データをたくさん
いじる前に...
? 2019- exetch, inc.
個?情報保護法
? 2019- exetch, inc.
個?情報の保護に関する法律。
利?者や消費者が安?できるように、
企業や団体に個?情報をきちんと
?切に扱ってもらった上で、
有効に活?できるよう共通のルールを定めた法律。
平成15年5?に公布
平成17年4?に全?施?
いくつか追加?修正されながら現在に?る
? 2019- exetch, inc.
個?情報を含むデータは、
個?情報を削除してから扱った?が、無難
? 2019- exetch, inc.
収集
加?
要約
データは?元あるが、中?を知らない
データの所在がわからない
いたるところに分散している…etc
データに無駄な情報がある
データを結合しようにも、定義が違う
ファイルの拡張?が違う…etc
不要な情報や、無駄な情報がない
必要に応じて数値化できる
グラフ化が容易にできる…etc
? 2019- exetch, inc.
収集
要約
データは?元あるが、中?を知らない
データの所在がわからない
いたるところに分散している…etc
不要な情報や、無駄な情報がない
必要に応じて数値化できる
グラフ化が容易にできる…etc
加?
データに無駄な情報がある
データを結合しようにも、定義が違う
ファイルの拡張?が違う…etc
? 2019- exetch, inc.
加?
データに無駄な情報がある
データを結合しようにも、定義が違う
ファイルの拡張?が違う…etc
データクレンジング
? 2019- exetch, inc.
レコードセット, データベース, テーブル
データクレンジング
破損または不正確なデータを
検出および修正するプロセス
? 2019- exetch, inc.
破損または不正確なデータを
検出および修正するプロセス
データの品質を把握する
? 2019- exetch, inc.
破損または不正確なデータを
検出および修正するプロセス
データの品質を把握する
データのクレンジングをする前に、
データがどの程度、”綺麗”なのかを確認する
? 2019- exetch, inc.
破損または不正確なデータを
検出および修正するプロセス
データをクレンジングする
? 2019- exetch, inc.
破損または不正確なデータを
検出および修正するプロセス
データをクレンジングする
?損の補完や表記の揺れの標準化, ノイズの排除など
?的に適した?法を定義し、適?する必要あり
? 2019- exetch, inc.
破損または不正確なデータを
検出および修正するプロセス
データを名寄せ、統合する
? 2019- exetch, inc.
破損または不正確なデータを
検出および修正するプロセス
データを名寄せ、統合する
名寄せ(マッチング)によって重複データの特定
統合(マージ)を?う
? 2019- exetch, inc.
名寄せ
Tips
「株式会社」
? 2019- exetch, inc.
名寄せ
「株式会社」
Tips
(株
株)
株]
[株
Inc
Corp
Corp
Co.
Ltd
K.K.
カブシキガイシャ
?
?
? 2019- exetch, inc.
様々なアプローチ
(Di?erent Approach)
? 2019- exetch, inc.
例えば、?損データ。
? 2019- exetch, inc.
なんらかの理由により記録されなかった値
?損データ
全ての変数の値が観測されている
データを「完全データ」
?損データ = 不完全データ
? 2019- exetch, inc.
データが不完全, ?損データであると
?損データ
統計的処理が不可能になる
結果にバイアスが?じる
データそのものが無駄になる
? 2019- exetch, inc.
?損データを
どのように扱いますか?
? 2019- exetch, inc.
? 2019- exetch, inc.
?損データには、
いくつか?法があります。
? 2019- exetch, inc.
?損値の除去
予測値で補完する?法
尤度(確率)で補完する?法
? 2019- exetch, inc.
アプローチ具体例
(Approach example)
? 2019- exetch, inc.
?損値の除去
予測値で補完する?法
尤度(確率)で補完する?法
? 2019- exetch, inc.
?損値の除去
? 2019- exetch, inc.
?損を含む部分を削除する
?損値の除去
簡単な?法ではあるが、
結果に?きな影響を与える可能性あり
? 2019- exetch, inc.
? 2019- exetch, inc.
?損値
? 2019- exetch, inc.
? 2019- exetch, inc.
? 2019- exetch, inc.
? 2019- exetch, inc.
? 2019- exetch, inc.
? 2019- exetch, inc.
? 2019- exetch, inc.
時系列には適さない
? 2019- exetch, inc.
? 2019- exetch, inc.
?損値
? 2019- exetch, inc.
? 2019- exetch, inc.
? 2019- exetch, inc.
? 2019- exetch, inc.
? 2019- exetch, inc.
結果が?きく左右するかも
? 2019- exetch, inc.
なるべく?損させたくない
? 2019- exetch, inc.
影響を与える可能性あり
?損値の除去
データ全体を俯瞰してみて、
?損値がごくわずかであれば使える
? 2019- exetch, inc.
予測値で補完する?法
? 2019- exetch, inc.
? 2019- exetch, inc.
?損値
? 2019- exetch, inc.
? 2019- exetch, inc.
? 2019- exetch, inc.
? 2019- exetch, inc.
? 2019- exetch, inc.
? 2019- exetch, inc.
? 2019- exetch, inc.
? 2019- exetch, inc.
??、パターンが?えないもの
? 2019- exetch, inc.
? 2019- exetch, inc.
? 2019- exetch, inc.
? 2019- exetch, inc.
? 2019- exetch, inc.
? 2019- exetch, inc.
? 2019- exetch, inc.
? 2019- exetch, inc.
? 2019- exetch, inc.
? 2019- exetch, inc.
? 2019- exetch, inc.
? 2019- exetch, inc.
? 2019- exetch, inc.
変化が?定であれば、可能
? 2019- exetch, inc.
変動が?きいと
予測による補完は厳しい
? 2019- exetch, inc.
尤度(確率)で補完する?法
? 2019- exetch, inc.
? 2019- exetch, inc.
? 2019- exetch, inc.
? 2019- exetch, inc.
? 2019- exetch, inc.
? 2019- exetch, inc.
? 2019- exetch, inc.
? 2019- exetch, inc.
出現率を?て、補完。
? 2019- exetch, inc.
補完前後で、出現回数の
分布を確認する。
? 2019- exetch, inc.
?損データが?きいと
推論による補完は厳しい
? 2019- exetch, inc.
次の予測値(確率値)
99.0%
? 2019- exetch, inc.
100ステップ後の確率
? 2019- exetch, inc.
100ステップ後の確率
36.6%
? 2019- exetch, inc.
元々のデータにバラつきあると
推論による補完は厳しい
? 2019- exetch, inc.
?損データの割合が
全体に対して?さい場合
? 2019- exetch, inc.
有効
? 2019- exetch, inc.
データは...
? 2019- exetch, inc.
?損だけではない
? 2019- exetch, inc.
ホワイトノイズ
ランダムウォーク
※詳しくは第3回で説明します
? 2019- exetch, inc.
分析環境
(Analysis Environment)
? 2019- exetch, inc.
“Excelでわかる機械学習
超?? ―AIのモデルと
アルゴリズムがわかる”
? 2019- exetch, inc.
Excelでも良いけれど...
? 2019- exetch, inc.
Excel、限界。
? 2019- exetch, inc.
Excelでできるのは、
集計とその結果の可視化
? 2019- exetch, inc.
ただし、データが
少ない時だけ。
? 2019- exetch, inc.
しかも、
? 2019- exetch, inc.
Excelには、
データセットがない。
? 2019- exetch, inc.
データサイエンス界隈で
メインで扱われる?語
? 2019- exetch, inc.
R?語
Python?語
? 2019- exetch, inc.
R?語
? 2019- exetch, inc.
R?語とは
1. test_data <- read.csv("hogehoge.csv")
統計を?的とした?語であり、
実際にそれを体現している?語。
統計に特化した?語。
? 2019- exetch, inc.
Python?語
? 2019- exetch, inc.
Python?語とは
1. import pandas
2. test_data = pandas.read_csv("hogehoge.csv")
統計もできるし、データベースへの
保存やWebサーバーのデプロイ、
また複雑なワークフローの実?も可能
? 2019- exetch, inc.
両?語のデータ解析の
ワークフローには
多くの類似性がある
? 2019- exetch, inc.
RもPythonも
標準的なデータセットが
?意されている
? 2019- exetch, inc.
周辺技術と知識
(Technology & Knowledge)
? 2019- exetch, inc.
簡単に、まとめてみた。
? 2019- exetch, inc.
Python R
?校数学 微分積分 統計学 収集? 客観的思考?
numpypandas
scikit-learn
Tensor?ow
Keras
Caretggplot2
dplyer
matplotlib
CRAN
R Studio
Pycharm
PyScripter
Atom Visual
Studio
?然?語 レコメンド 時系列
? 2019- exetch, inc.
第3回へ、つづく。
? 2019- exetch, inc.
次回のアジェンダ
第2回のおさらい
(Go over)
データの加工
(Data Processing)
データの前処理
(Data Pre-processing)
データの正規化
(Data Normalization)
予測と分類①
(Forecasting & Classi?cation1)
予測と分類②
(Forecasting & Classi?cation2)
2部1部
? 2019- exetch, inc.
? 2019- exetch, inc.
EOS
? 2019- exetch, inc.

More Related Content

Casual datascience vol2