狠狠撸

狠狠撸Share a Scribd company logo
「AIとTableauの連携」
チョット試してみました
NTTスマートコネクト
?井 誠
1
2
??紹介
?井 誠 ーMakoto Tamaiー
l 1971年2??まれ愛媛県(?条)出?(愛媛?学 情報?学部)
<経歴>
H 7年 NTT?社 @?知
H 9年 NTTソフトウエア研究所 @武蔵野 著作権保護技術、電?透かし
H11年 NTT??本 研究開発センタ @?阪 映像配信+コミュニティ(チャット、3D)
H15年 NTTサイバースペース研究所 @横須賀 映像コミュニケーション(ひかりソフトフォン)
H17年 NTTレゾナント @武蔵野 goo検索、モバイル(iモード検索)
H23年 NTTコミュニケーションズ @?町 クラウドサービス開発(CloudN PaaS)
H25年 NTT??本 四国事業本部 @松? パートナーアライアンス
H28年 NTTスマートコネクト クラウドビジネス部(現職) @?阪
データ分析、位置情報配信ビジネス開発
<趣味>
?ドライブ、スキューバ、野球?ソフトボール、スキー、格闘技観戦、
TableauによるDataVisualizaCon、DATA Saber調整中
3
4
Tableauで始めるデータサイエンス 単?本 ?
2019/10/30
岩橋 智宏 (著), 今? 航平 (著), 増? 啓志 (著)
参考?献
本?お伝えしたいこと
5
lデータ活?は過去と現在の可視化を基礎として未来の予測へ
l機械(ML/AI)が進化してもインタフェースとしての可視化は重要
性を増す。
lTableauとAI(機械学習)の連携での実現イメージ
6
BIの領域
AIの領域
(予測?分類)
7
CRISP-DMとは
CRISP-DM(CRoss-Industry Standard Process for Data Mining)は、
同名のコンソーシアムによって提唱されたデータ分析プロジェクトのプロセスモデルとなります。
8
9
〇データの理解:Tableau desktop
〇データの準備:Prep
(データ分析の8割の稼働)
〇予測モデルの作成:Python等
予測モデルの評価:Tableau
〇共有と展開:TableauServer(Online)
10
事例?東京23区のマンション価格の推論
事例?東京23区のマンション価格の推論
Python
Python
Tableau
Prep
l 東京都中央線沿いのマンション価格を
予測する
l 東京駅(都?)からの距離によって価
格は変わるのではないか。
l どのようなデータ準備が必要かを確認
l 広さ、駅からの距離と価格の相関関係
l 市区町村でユニオン
l 駅名マスタとjoin
l 超?級マンションの除外
l 駅名グルーピングと表記ゆれの修正
l 重回帰モデルの利?
l 精度の評価
l 誤差の?きいカテゴリの確認
l 精度向上
l マンション価格予想ダッシュ
ボード
11
マンション価格予想ダッシュボード
12
13
l 不動産取引価格ダウンロード国?交通省
http://www.land.,lit.go.jp/webland/download.html
2016年から2019年(中央線が含まれる、千代?区、新宿区、渋?区、中野区、杉並区、武蔵野市、??井市、
国分寺市、?川市を選択)
14
データ理解の前準備
l Tableau Prepを使って以下を実施
? マンション価格予測モデルに影響がありそうな列(フィールド)の抽出
? ユニークID列、築年数列?成
? NULL値?削除
15
データ理解
Tableau Desktopを使ったデータ可視化によるデータ理解
16
17
18
19
武蔵野市の価格分布が?い
20
21
22
23
データ理解でわかったこと
24
わかったこと
? 物件の広さは物件の価格に影響する(ようだ)
? 物件の築年数は物件の価格に影響する(ようだ)
? 東京駅からの物件の最寄り駅までの距離は物件の価格に影響する(ようだ)
? 意味ある特徴量=説明変数として利?できる
さらにデータ準備が必要な点
? ?びぬけて?価な物件のデータが存在しているので、モデル作成のためには除外する必要がある。
? 間取りについては分類が多すぎるため、ある程度のグルーピングが必要
データ準備
Tableau Prepを使ったデータ準備
25
データ準備
26
27
データ準備(1)
28
データ準備(2)
29
データ準備(3)
列名 説明 データ型
uid ユニークな識別番号 整数型
years 築年数 整数型
minutes 駅からの距離 少数型
sqrm 部屋の広さ(m2) 整数型
distance 東京駅から最寄りの駅ま
での距離
少数型
renovate 改装済みフラグ 整数(0 or 1)
express 快速が?まるかのフラグ 整数(0 or 1)
rooms 部屋数と部屋のタイプ ?字列
station 駅名 ?字列
price 価格 整数型
? Tableau Prepからの出?データ(housing_tokyo_chuo_line_prep.csv)
?的変数
説明変数
予測モデル作成
Pythonによるモデル作成
30
31
予測モデル作成
32
予測モデル作成の流れ
予測モデル作成(1)
? Jupyter Notebookを使ったモデル?成
Python
33
①housing_tokyo_chuo_line_prep.csvの読み込み
モデル作成(2) Python
34
②?的変数、説明変数のセット
Pythonモデル作成(3)
35
③rooms列のダミー変数化
④訓練データ、検証データの分割
⑤scikit-learnの中のlinear_model(線形モデル)の
LinearRegression(線形回帰)をimport
⑥モデルの学習
Pythonモデル作成(4)
36
⑦訓練データでの決定係数の確認
⑧検証データでの決定係数の確認
Pythonモデル作成(5)
37
⑨予測値の計算(推論)
⑩予測値(uid,predict)のファイル出?
予測モデル評価
Tableau Desktopを使ったデータ可視化によるモデル評価
38
予測モデル評価(1)
39
40
予測モデル評価(2)
41
42
43
吉祥寺駅
予測モデルの展開と共有
Pythonによるモデル展開、Tableauによるモデルの共有
44
45
予測モデルの展開と共有(1)
46
予測モデルの展開と共有(2)
Python
47
?tabpyサーバへの接続
?推論関数のtabpyサーバへのデプロイ
?モデルによる推論関数の定義
予測モデルの展開と共有(3)
48
?予測値取得のための計算フィールド作成
?Tabpyサーバへの接続
予測モデルの展開と共有(4)
49
予測モデルの展開と共有(5)
50
51
52
本?お伝えしたいこと
53
lデータ活?は過去と現在の可視化を基礎として未来の予測へ
l機械(ML/AI)が進化してもインタフェースとしての可視化は重要
性を増す。
lTableauとAI(機械学習)の連携での実現
54
ご清聴ありがとうございました?
四国でのTableau、ますます盛り上げていきましょう?

More Related Content

「础滨と罢补产濒别补耻连携」チョット试してみました!