狠狠撸

狠狠撸Share a Scribd company logo
カジュアル勉強会 @仙台
データサイエンスを学ぶ 第5回
株式会社 エクテック
取締役 兼データサイエンティスト
エクテックのミッション
(Introduction)
東北を、仙台を、
データサイエンスで
盛り上げる
始?動: 2019年10?
拠?点: 仙台市内 2拠点
資本?: 2,000,000円 (??資本)
社員数: 3名(+α)
株式会社 エクテック
第5回までの流れ
1部
1. 第1回のおさらい
2. データへの取り組み方
3. 色々なアプローチ
2部
1. アプローチ具体例
2. 分析環境
3. 周辺技術と知識
2Day (5/3)
1部
1. データとは
2. 身近なデータ
3. データと科学
2部
1. データアプローチ
2. データで実現
3. 活用事例
1Day (5/2)
第5回までの流れ
1部
1. 第3回のおさらい
2. 機械学習
3. データと機械学習
2部
1. データと分類
2. データと回帰
3. データとクラスタリング
4Day (5/5)
1部
1. 第2回のおさらい
2. データの加工
3. データの前処理
2部
1. データの正規化
2. 予測と分類①
3. 予測と分類②
3Day (5/4)
第5回までの流れ
1部
1. 第4回のおさらい
2. データの在り方
3. データと可視化①
2部
1. データと可視化②
2. データと可視化③
3. データと個人情報
5Day (5/6)
今回のアジェンダ
第4回のおさらい
(Go over)
データの在り方
(How Data should be)
データの可視化①
(Data & Visualization 1)
データの可視化②
(Data & Visualization 2)
データの可視化③
(Data & Visualization 3)
データと個人情報
(Data & Personal Information)
2部1部
第4回のおさらい
(Go over)
机械学习とは?
「??知能における研究分野の1つ。
明?的にプログラムで指?することなく、
コンピュータに学習させる技術」
『明?的にプログラムで指?することなく』
たとえば、
ルールベース
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
IF ~ THEN
1つ1つの条件を定義して
広く、深く、探索して
絶対的なルールを作る
では、机械学习は?
?量のデータを学習し、
データ間の関係性を?出し、
確率(尤もらしさ)をもとに、
推論?パターンをもとに、
課題解決する統計モデル
機械学習
どうやってモデル作っているか
?般的に、データを
学習?データ, 検証?データ
にわけてモデルを構築する
(教師あり学習)
学習?データ 検証?データ
学習?データ
説明変数
これら値が、尤もらしさ
を?出すもととなる
学習?データ
?的変数
いわゆる、正解ラベル
というもの。
学習?データ
パターン(説明変数)と
正確ラベル(?的変数)
をもとにモデル構築
学習した
モデル
学習?データ
学習した
モデル
学習?データ 検証?データ
学習した
モデル
正解ラベル 出?結果
学習した
モデル
正解ラベル 出?結果
正解ラベルに対して
出?結果がどれくらい
正解しているか?
↓
正解率
↓
モデルの
予測精度
機械学習のための
データセット
関连性のないデータ
旅客机の数と、饮酒量
学習?データの
特徴の違い
正?から?た顔
横から?た顔
学習として違いがある
(※参考) 詳解OpenCV
声優の素の声から
アニメの声が予測できるのか
(※参考) Qiite 声優の声を分類してみた
?途にふさわしい
データを持つべき
欧??の顔認識データだけでは
?本?顔の区別は難しい
妥当性のチェックを
?かさない
サッカー上での
?認識?検出
背景が緑の芝であることが多く、
それに特化した学習をすると、
背景が緑の芝でない状況だと、
検出率が下がることがありそう
機械学習における
データへの意識
データ収集の?間を
惜しまないこと
データ
加?
モデル
評価
モデル
構築
リリース
データ
収集
データ
加?
モデル
評価
モデル
構築
リリース
データ
収集
データ
加?
モデル
評価
モデル
構築
リリース
データ
収集
データ
加?
モデル
評価
モデル
構築
リリース
データ
?直し
データ
収集
データ
加?
モデル
評価
モデル
構築
リリース
データ
?直し
データ
収集
サイクルは
常に回り続ける
分类の主な?的
データが属するクラス
を推論すること
X
かどうか
XXか?
XX X
YYか?
YY Y
yes
yes no no
no
yes
顧客の購買情報から
その顧客が新商品を
買う or 買わない
買う or 買わない?
買う or 買わない?
2値分類?
学?の点数や講義の出?率、
受講態度で、
成績(S, A, B, C, D, ...)
成績(S, A, B, C, D, ...)?
多値分類?
予测の主な?的
連続値などの値を
予測する(未来を視る)こと
Casual datascience vol5
顧客の購買情報から
その顧客が新商品を
いくつ買ってくれるか
その時々での、
学?の点数や講義の出?率、
受講態度から
その学?の成績を予測する
クラスタリングの主な?的
それに分類される
『集合(集団)』を?つけること
X
XX
Y
YY
データの集まり
顧客の購買情報から、新商品を
買ってくれる顧客の集団
or 買ってくれない顧客の集団
に分ける
学?の点数や講義の出?率、
受講態度で、
成績Sをとる学?の集団、
成績Aをとる学?の集団、…
に分ける
データの在り?
(How Data should be)
コンピュータや
インターネットの発展
?量のデータを集積し,
分析することが容易
データの「?せ?」については
あまり注意が払われていない?
データは,?が理解することで
初めて価値を持つ
データを?の?で知覚可能な形へと
「可視化」するプロセス
表現?豊かな可視化の
テクニックを追求
それが
データビジュアライゼーション
データの可視化①
(Data & Visualization 1)
https://jp.corp-sansan.com/news/2019/
dawno?nnovation.html
企業間のつながりを可視化する
データビジュアライゼーション
「Dawn of Innovation」
「ビジネスにおける?の出会いを
リアルタイムで可視化した、世界初の
データビジュアライゼーション」
https://sansan-dsoc.com/research/
datadiscovery/
基本的な可視化?法は
次の表にまとまっている
Visualization Taxonomies
Distribution (分布)
Composition (構成)
Relationship (関係)
Comparison (?較)
Distribution (分布)
Visualization Taxonomies
Distribution (分布)
ヒストグラム
「縦軸に度数、横軸に階級をとった
統計グラフの?種で、データの分布状況を
視覚的に認識するために主に
統計学や数学、画像処理等で?いられる。」
散布図
「縦軸、横軸に2項?の量や?きさ等を対応
させ、データを点でプロットしたものである。
分布図ともいう。各データは2項?の量や?き
さ等を持ったものである。」
Composition (構成)
Visualization Taxonomies
Composition (構成)
棒グラフ
「??形など四?い棒の?さなど、何らかの値
を表現するグラフ。棒グラフは2つ以上の値を
?較したりするのに使われる。棒の延びる?向
は垂直?向の場合と?平?向の場合がある。」
累積棒グラフ(積み上げ棒グラフ)
「棒グラフの?種で、同じ項?内の要素を上に
積み上げるようにして表現されたグラフであ
る。 積み上げ棒グラフでは、項?内の各要素は
それぞれ異なる?や模様で表現される。」
エリアチャート(?グラフ)
「定量データを表?したグラフである。 ?般的
にグラフ内で2つ以上の属性データ群を?較し、
軸と折れ線に挟まれた領域は?、テクスチャ、
ハッチングで強調する。」
累積エリアチャート(積層型エリアチャート)
「棒グラフの?種で、同じ項?内の要素を上に
積み上げるようにして表現されたグラフであ
る。 積み上げ棒グラフでは、項?内の各要素は
それぞれ異なる?や模様で表現される。」
Casual datascience vol5
円グラフ
「丸い図形を扇形に分割し、何らかの構成?率
を表したグラフ。円グラフでは、扇形の円弧の
?さ(および中??と?積)は、その扇形で表
される量と?例する。」
ツリーマップ
「ツリーマッピングはネストされた図(通常は
??形)を使?して階層データを表?する?法
である。?規模な階層構造 (ツリー構造) を持
つデータの表?に最適。」
Casual datascience vol5
ツリーマップ
「ツリーマッピングはネストされた図(通常は
??形)を使?して階層データを表?する?法
である。?規模な階層構造 (ツリー構造) を持
つデータの表?に最適。」
Relationship (関係)
Visualization Taxonomies
Relationship (関係)
Comparison (?較)
Visualization Taxonomies
Comparison (?較)
線グラフ(折れ線グラフ)
「データに基づいてプロットされた点と、それ
を隣同?で結ぶ直線とで描かれる。その際、つ
なぐ点は特定の順番でつなぐものであり、それ
は往々にして時間経過の順である。」
休憩
(10分間)
データの可視化②
(Data & Visualization 2)
データの可視化③
(Data & Visualization 3)
Python Graph Gallery
データと個?情報
(Data & Personal
Information)
PMSという
?葉をご存知ですか?
個?情報保護
マネジメントシステム
個?情報保護
マネジメントシステム
組織が保護すべき”個?情報”に対して、リスク分析
によって必要な安全管措置を定め、計画を?案し、
資源分配を?い、個別の問題毎の技術対策を実施し、
それらを運?することで?定の個?情報保護レベル
を確保するとともに継続的な改善を実現する
個?情報保護
マネジメントシステム
組織が保護すべき”個?情報”に対して、リスク分析
によって必要な安全管措置を定め、計画を?案し、
資源分配を?い、個別の問題毎の技術対策を実施し、
それらを運?することで?定の個?情報保護レベル
を確保するとともに継続的な改善を実現する
要は、体制作ってね。
个?情报保护法とは
个?情报保护法とは
個?の権利と利益を保護するために、
2005年4?から全?施?された法律で、
個?情報を保有する事業者が遵守すべき
義務などを定めた法律
個?データ
特定個?情報
匿名加?情報
個?データ
個?データベース等を構成する個?情報。
「個?データベース等」とは検索できるように
個?情報を整理したもので、「個?情報」よりも
定義が狭まっている。
特定個?情報
個?番号(マイナンバー)を含む個?情報を指し、
利?範囲は、「税?社会保障?災害対策」に
限定されている。個?情報よりも更に厳格に
扱われ、罰則も重い。
匿名加?情報
特定の個?を識別することができないように
個?情報を加?して、その個?情報を復元する
ことができないようにしたもの
個?情報
(?存する個?に関する情報)
個?情報
(?存する個?に関する情報)
個?データ
(データベース化された個?情報)
個?情報
(?存する個?に関する情報)
個?データ
(データベース化された個?情報)
保有個?データ
(個?取扱事業者が開?、
訂正する権限を持つデータ)
個?情報
(?存する個?に関する情報)
個?データ
(データベース化された個?情報)
保有個?データ
(個?取扱事業者が開?、
訂正する権限を持つデータ)
匿名加?情報
(個?情報を復元できないよう
加?したもの)
特定個?情報
(個?番号を含む個?情報)
個?情報
プライバシー情報
パーソナルデータ
個?情報
?存する個?に関する情報であって、
当該情報に含まれる?名、?年??
その他の記述等により特定の個?を
識別することができるもの
プライバシー情報
個?や家庭内の私事?私?活に置いて、
個?の秘密な情報であり、それらが他?から
?渉?侵害を受けないもの。
??の情報をコントロールできる情報。
パーソナルデータ
個?情報に加え、個?情報との境界が
曖昧なものを含む、個?と関係性が?出される
広範囲の情報を指すもの。
パーソナルデータ
(個?に関わる情報全般)
個?情報
(法的に定められている)
プライバシー情報
(範囲?定義は曖昧)
パーソナルデータ
(個?に関わる情報全般)
個?情報
(個?識別可能)
?位置情報
?IPアドレス
?購?履歴等
??名
??年??
?住所
収集したデータを
ビジネスに活かしたい...
個?データを含むまま
データ利活?していいか?
個?データを含むまま
データ利活?していいか?
匿名化
办-匿名性
位置に関する情报
匿名化
架空の個?データ
名前 年齢 性別 居住地 宗教 病気
佐藤 abc 42 男 仙台市泉区xxx 真言宗 大腸ガン
伊藤 abc 59 女 仙台市泉区yyy 天台宗 胃ガン
田中 abc 34 女 仙台市若林区xxx 天台宗 ウィルス感染症
山田 abc 61 男 仙台市青葉区xxx 日蓮宗 ウィルス感染症
守谷 abc 77 男 仙台市青葉区yyy 浄土宗 心疾患
大森 abc 46 女 仙台市青葉区zzz 浄土真宗 胃ガン
加藤 abc 52 男 仙台市若林区zzz 真言宗 糖尿病1型
大谷 abc 71 男 仙台市宮城野区xxx 日蓮宗 喉頭ガン
松田 abc 66 男 仙台市太白区xxx 浄土真宗 心疾患
堀井 abc 54 女 仙台市太白区yyy 真言宗 胃ガン
国見 abc 41 男 仙台市若林区yyy 天台宗 糖尿病2型
架空の個?データ
名前 年齢 性別 居住地 宗教 病気
佐藤 abc 42 男 仙台市泉区xxx 真言宗 大腸ガン
伊藤 abc 59 女 仙台市泉区yyy 天台宗 胃ガン
田中 abc 34 女 仙台市若林区xxx 天台宗 ウィルス感染症
山田 abc 61 男 仙台市青葉区xxx 日蓮宗 ウィルス感染症
守谷 abc 77 男 仙台市青葉区yyy 浄土宗 心疾患
大森 abc 46 女 仙台市青葉区zzz 浄土真宗 胃ガン
加藤 abc 52 男 仙台市若林区zzz 真言宗 糖尿病1型
大谷 abc 71 男 仙台市宮城野区xxx 日蓮宗 喉頭ガン
松田 abc 66 男 仙台市太白区xxx 浄土真宗 心疾患
堀井 abc 54 女 仙台市太白区yyy 真言宗 胃ガン
国見 abc 41 男 仙台市若林区yyy 天台宗 糖尿病2型
このままでは、ダメ。
架空の個?データ
名前 年齢 性別 居住地 宗教 病気
佐藤 abc 42 男 仙台市泉区xxx 真言宗 大腸ガン
伊藤 abc 59 女 仙台市泉区yyy 天台宗 胃ガン
田中 abc 34 女 仙台市若林区xxx 天台宗 ウィルス感染症
山田 abc 61 男 仙台市青葉区xxx 日蓮宗 ウィルス感染症
守谷 abc 77 男 仙台市青葉区yyy 浄土宗 心疾患
大森 abc 46 女 仙台市青葉区zzz 浄土真宗 胃ガン
加藤 abc 52 男 仙台市若林区zzz 真言宗 糖尿病1型
大谷 abc 71 男 仙台市宮城野区xxx 日蓮宗 喉頭ガン
松田 abc 66 男 仙台市太白区xxx 浄土真宗 心疾患
堀井 abc 54 女 仙台市太白区yyy 真言宗 胃ガン
国見 abc 41 男 仙台市若林区yyy 天台宗 糖尿病2型
架空の個?データ
名前 年齢 性別 居住地 宗教 病気
佐藤 abc 42 男 仙台市泉区 真言宗 ガン
伊藤 abc 59 女 仙台市泉区 天台宗 ガン
田中 abc 34 女 仙台市若林区 天台宗 ウィルス感染症
山田 abc 61 男 仙台市青葉区 日蓮宗 ウィルス感染症
守谷 abc 77 男 仙台市青葉区 浄土宗 心疾患
大森 abc 46 女 仙台市青葉区 浄土真宗 ガン
加藤 abc 52 男 仙台市若林区 真言宗 糖尿病
大谷 abc 71 男 仙台市宮城野区 日蓮宗 ガン
松田 abc 66 男 仙台市太白区 浄土真宗 心疾患
堀井 abc 54 女 仙台市太白区 真言宗 ガン
国見 abc 41 男 仙台市若林区 天台宗 糖尿病
架空の個?データ
名前 年齢 性別 居住地 宗教 病気
佐藤 abc 42 男 仙台市泉区 真言宗 ガン
伊藤 abc 59 女 仙台市泉区 天台宗 ガン
田中 abc 34 女 仙台市若林区 天台宗 ウィルス感染症
山田 abc 61 男 仙台市青葉区 日蓮宗 ウィルス感染症
守谷 abc 77 男 仙台市青葉区 浄土宗 心疾患
大森 abc 46 女 仙台市青葉区 浄土真宗 ガン
加藤 abc 52 男 仙台市若林区 真言宗 糖尿病
大谷 abc 71 男 仙台市宮城野区 日蓮宗 ガン
松田 abc 66 男 仙台市太白区 浄土真宗 心疾患
堀井 abc 54 女 仙台市太白区 真言宗 ガン
国見 abc 41 男 仙台市若林区 天台宗 糖尿病
可能な限り、?般化。
下記のような架空の個?データ
仮番号 名前 年齢 性別 居住地 病気
000-1 佐藤 abc 42 男 仙台市泉区 ガン
000-2 伊藤 abc 59 女 仙台市泉区 ガン
000-3 田中 abc 34 女 仙台市若林区 ウィルス感染症
000-4 山田 abc 61 男 仙台市青葉区 ウィルス感染症
000-5 守谷 abc 77 男 仙台市青葉区 心疾患
000-6 大森 abc 46 女 仙台市青葉区 ガン
000-7 加藤 abc 52 男 仙台市若林区 糖尿病
000-8 大谷 abc 71 男 仙台市宮城野区 ガン
000-9 松田 abc 66 男 仙台市太白区 心疾患
000-10 堀井 abc 54 女 仙台市太白区 ガン
000-11 国見 abc 41 男 仙台市若林区 糖尿病
下記のような架空の個?データ
仮番号 名前 年齢 性別 居住地 病気
000-1 佐藤 abc 42 男 仙台市泉区 ガン
000-2 伊藤 abc 59 女 仙台市泉区 ガン
000-3 田中 abc 34 女 仙台市若林区 ウィルス感染症
000-4 山田 abc 61 男 仙台市青葉区 ウィルス感染症
000-5 守谷 abc 77 男 仙台市青葉区 心疾患
000-6 大森 abc 46 女 仙台市青葉区 ガン
000-7 加藤 abc 52 男 仙台市若林区 糖尿病
000-8 大谷 abc 71 男 仙台市宮城野区 ガン
000-9 松田 abc 66 男 仙台市太白区 心疾患
000-10 堀井 abc 54 女 仙台市太白区 ガン
000-11 国見 abc 41 男 仙台市若林区 糖尿病
下記のような架空の個?データ
仮番号 名前 年齢 性別 居住地 病気
000-1 佐藤 abc 42 男 仙台市泉区 ガン
000-2 伊藤 abc 59 女 仙台市泉区 ガン
000-3 田中 abc 34 女 仙台市若林区 ウィルス感染症
000-4 山田 abc 61 男 仙台市青葉区 ウィルス感染症
000-5 守谷 abc 77 男 仙台市青葉区 心疾患
000-6 大森 abc 46 女 仙台市青葉区 ガン
000-7 加藤 abc 52 男 仙台市若林区 糖尿病
000-8 大谷 abc 71 男 仙台市宮城野区 ガン
000-9 松田 abc 66 男 仙台市太白区 心疾患
000-10 堀井 abc 54 女 仙台市太白区 ガン
000-11 国見 abc 41 男 仙台市若林区 糖尿病
ユニークなIDで、統?。
办-匿名性
办-匿名性
個?の特徴をフィールド構造にしたデータが
与えられたとき、実?性を残しつつ、
個?が再特定されない公開データを作成する?法。
下記のような架空の個?データ
名前 年齢 性別 居住地 宗教 病気
佐藤 abc 42 男 仙台市泉区xxx 真言宗 大腸ガン
伊藤 abc 59 女 仙台市泉区yyy 天台宗 胃ガン
田中 abc 34 女 仙台市若林区xxx カトリック ウィルス感染症
山田 abc 61 男 仙台市青葉区xxx 日蓮宗 ウィルス感染症
守谷 abc 77 男 仙台市青葉区yyy 浄土宗 心疾患
大森 abc 46 女 仙台市青葉区zzz 浄土真宗 胃ガン
加藤 abc 52 男 仙台市若林区zzz 真言宗 糖尿病1型
大谷 abc 71 男 仙台市宮城野区xxx カトリック 喉頭ガン
松田 abc 66 男 仙台市太白区xxx 浄土真宗 心疾患
堀井 abc 54 女 仙台市太白区yyy カトリック 胃ガン
国見 abc 41 男 仙台市若林区yyy カトリック 糖尿病2型
個?を特定できないように情報を削る
名前 年齢 性別 居住地 宗教 病気
佐藤 abc 40代 男 仙台市泉区 仏教 ガン
伊藤 abc 50代 女 仙台市泉区 仏教 ガン
田中 abc 30代 女 仙台市若林区 キリスト 感染症
山田 abc 60代 男 仙台市青葉区 仏教 感染症
守谷 abc 70代 男 仙台市青葉区 仏教 心疾患
大森 abc 40代 女 仙台市青葉区 仏教 ガン
加藤 abc 50代 男 仙台市若林区 仏教 糖尿病
大谷 abc 70代 男 仙台市宮城野区 キリスト ガン
松田 abc 60代 男 仙台市太白区 仏教 心疾患
堀井 abc 50代 女 仙台市太白区 キリスト ガン
国見 abc 40代 男 仙台市若林区 キリスト 糖尿病
位置に関する情报
位置情報とユニークなIDを含むデータ
(x, y)
(x, y)
(x, y)
(x, y)
(x, y)
(x, y)
(x, y)
(x, y)
(x, y)
(x, y)
(x, y)
(x, y)
(x, y)
(x, y)
(x, y) (x, y)
(x, y)
明确な位置情报を削除しつつ、
広い範囲(エリア)で、IDを付与してみる
エリアA
エリアB
エリアC
エリアD
例えば、個?の?動履歴ならば?
(x, y, t)
(x, y, t)
(x, y, t)
(x, y, t)
(x, y, t)
(x, y, t)
(x, y, t)
(x, y, t)
(x, y, t)
(x, y, t)
(x, y, t)
(x, y, t)
(x, y, t)
(x, y, t)
(x, y, t) (x, y, t)
(x, y, t)
当然、详细な情报は覗きつつ
个?を特定できてしまう情报も削除する
起点?終点の情報も、削除したほうが良い
?宅?
職場?
職場?
?宅?
これでも、
安全とは?い切れない。
適切な匿名化は、
厳しい。。。
個?情報を特定する
個?データは存在する
なるべく、分散化。
管理者を、明確化。
セキュリティ、階層化。
株式会社 エクテック
第1営業本部 法?営業部 第2チーム
担当課?
エクテック 太郎
宮城県仙台市若林区清??路6-1
Mobile: 080-6623-xxxx
Mail: extech.taro@ex-tech.xx.xx
株式会社 エクテック
第1営業本部 法?営業部 第2チーム
担当課?
エクテック 太郎
宮城県仙台市若林区清??路6-1
Mobile: 080-6623-xxxx
Mail: extech.taro@ex-tech.xx.xx
株式会社 エクテック
第1営業本部 法?営業部 第2チーム
担当課?
エクテック 太郎
宮城県仙台市若林区清??路6-1
Mobile: 080-6623-xxxx
Mail: extech.taro@ex-tech.xx.xx
UUID:xxx
UUID:xxx
?セキュリティレベル
中セキュリティレベル
Mobile/
Mail
苗字 名前
低セキュリティレベル
部署
※1例
役職会社名
中セキュリティレベル
Mobile/
Mail
苗字 名前
低セキュリティレベル
部署
※1例
役職会社名
UUID:xxx
?セキュリティレベル
中セキュリティレベル
Mobile/
Mail
苗字 名前
低セキュリティレベル
部署
※1例
役職会社名
UUID:xxx
?セキュリティレベル
リソースを集中でき
セキュリティ管理も省?ができうる
EOF

More Related Content

Casual datascience vol5