狠狠撸

狠狠撸Share a Scribd company logo
生成AI時代の
データ分析入門
キュリオシティ 代表
福岡 浩二
自己紹介
2
キュリオシティ 代表
福岡 浩二
<著作>
「分析力のリアル」
「教養としての人工知能」
「Googleデータポータルによるレポート作成の教科書」(共著)
若いころは天文学者を志すが???。
20年以上グローバルIT企業で、デジタルマーケティング
やAIを中心とした企業改革に従事。
現在は、生成AIを中心とした企業向け人材育成?定着化
支援と、SF含む最新科学を活用した新規事業構想の支援
を中心に活動。
趣味はバイク(主に九州全土を中心にツーリング)
理学修士(電波天文学専攻)
経営学修士
ウェブ解析士マスター
デジタル庁 デジタル推進委員
Copyright@ Curio-city LLC
アジェンダ
3
? 分析の位置づけ
? データ分析の全体像
? 定量データを使った意思決定の基本
? ChatGPTを使ったデータ分析について
? まとめ
Copyright@ Curio-city LLC
分析とは?
「問題解決の営み」であり、その軸がないとデータをいじること自体が弊害となることも多い
4
そもそも分析とは?
目標を達成するために問題を「発見」して「解決」していく営み。
データ分析の担当者からよくうかがう悩み
? 時間ばかりかかって成果が見えない
? 専門用語を関係者が理解してくれない
? データから何がよみとれるのかが年々難しくなっている
→データを扱う前後のプロセスに課題が存在する
Copyright@ Curio-city LLC
データ分析含む問題解決の全体像
あくまで問題解決の流れを意識
5
目標の構造化
課題の
明確化
分析
解決案の
実行
データ活用
(定量/定性)
仮説立案 仮説検証
問題解決案の
提示
ビジョン?目標
問題解決プロセスと分析の位置づけ
問題解決の範囲
狭義の分析範囲
現場で陥る
問題領域
出所:「分析力のリアル」
Copyright@ Curio-city LLC
目標設定と課題の明確化
「解くべき」「解ける」課題に焦点を合わせる
6
Webサイトの
目標
利益10%達成
(目標)
売上向上 コスト削減
顧客満足向上
ブランド力
自社サイト売上
(EC)
他社サイト売上
(広告?情報)
見込み開拓
? 問い合わせ
? 資料請求
? トライアル
? 関心度向上
? 他サイトへの送
客
非Webでの
目標
?????
?
例:デジタルマーケティング視点での目標構造化
目標を分解して、取れるデータを根拠に課題を設計
→無理のない仮説設計にも有効
Copyright@ Curio-city LLC
定量データ活用のコツ
「比較」を意識するのが王道
7
「日本の公務員は多すぎる!削減すべき」
国家公務員:約58.5万人
地方公務員:約274万人
→全労働者の約7%を占める
〇雇用者全体に占める一般政府雇用者比率の国際比較(国内雇用、短期雇用者含む)
公務員
6.9%
※上記は2019年時点の数値 Copyright@ Curio-city LLC
定量データ活用のコツ
「比較」の次は、目的を常に意識した「構造化」を心がける
8
特に重要な構造化手段
? 規模(解決によるインパクト)
? 分けて考える(もれなくダブりなく)
? 時系列(比較期間は慎重に)
? プロセス(ビジネスフローなど)
Copyright@ Curio-city LLC
初等統計知識までで非専門家は十分
相関と因果だけは要注意
9
ただし相関関係 ≠ 因果関係
初等統計の用語:平均値?中央値?期待値?標準偏差(分散)?相関係数?単回帰
Copyright@ Curio-city LLC
参考:疑似相関のケース
Copyright@ Curio-city LLC 10
http://www.tylervigen.com/spurious-correlations
「プールに落ちて溺死した人の数は、ニコラス?ケイジの映画出演数と相関がある」
生成AIと従来型データ解析の違い
「作る」から「使う」を実現した革命的なツール
11
従来型データ解析
(予測モデリング)
生成AI
(LLM※活用)
必要なスキル
機械学習全般(言語だと
Python)
プロンプトエンジニアリング
対象ユーザ層 データサイエンティスト 意思決定する一般ユーザ
推進する部門
データサイエンス部門かそれ
に近いシステム部門
DXや業務改革チーム
実装までの期間 最低数か月 ChatGPTなら即時利用可能
システム面での違い
事前に学習させることでモデ
リング処理が必要
ChatGPTなどSaaSならモデリ
ング不要
よくある失敗ケース
テクノロジーのリテラシー格
差で継続が困難
目的があいまい。期待ギャッ
プ
※LLM:大規模言語モデル
Copyright@ Curio-city LLC
颁丑补迟骋笔罢を使ったデータ解析
自然言語で簡易なチャート生成が可能(現状は有償版Plus機能限定)
12
Copyright@ Curio-city LLC
颁丑补迟骋笔罢を使ったデータ解析
そこから読み取れることまで解析してくれます
13
Copyright@ Curio-city LLC
颁丑补迟骋笔罢を使ったデータ解析
初等統計の学習からアシストしてくれます
14
Copyright@ Curio-city LLC
颁丑补迟骋笔罢を使ったデータ解析
初等統計の学習からアシストしてくれます
15
こちらが映画の評価と興行収入の相関関係を示す散布図です。
このチャートでは、各点が一つの映画を表しており、横軸が
映画の評価、縦軸が興行収入を表しています。
散布図からは、映画の評価と興行収入の間に明確な直線的な
関係が見られないことがわかります。点は比較的広範囲に分
布しており、これは先ほど計算した相関係数が低いことと一
致しています。これにより、映画の評価が興行収入に大きな
影響を与えるわけではないという結論を支持することができ
ます。(by ChatGPT)
Copyright@ Curio-city LLC
ChatGPTを使ったデータ分析
分からないことは恐れずガンガン聞く姿勢が大切
16
ChatGPTとの対話テクニック
1. はじめに演じてもらう役割を明確にする
2. 今の状況を出来る限り5Wを伝える(目的
(Why)は必須)
3. 自分が分かっていると思っていることでも、
知らないふりをして聞いてみる(意外に自分
の思い込みに気づける)
4. 回答結果で少しでも疑問に思ったらしつこく
聞く
5. 何度も深堀していい答えが出なかったら刺激
を与える(ベストをつくしてください、等)
6. 回答を拒否されたら、出来る限りで回答する
ようもとめる
ChatGPTは対話を他の人に漏らしません
Copyright@ Curio-city LLC
応用:ChatGPTを使ったデータ分析
一番大変なデータ前処理加工もある程度対応可能
17
生の大量データには異常値がありがち
(欠損、入力ミス、例外回答などが原因)
分析によっては影響が大きいため(特に上図の
ようにピークがあるデータ群)、適切な前処理
加工が必要
プログラム言語Pythonでできる
データ分析機能が自然の対話的に
出来る、ということ(裏のCode表
示&修正も可能)
Copyright@ Curio-city LLC
応用:ChatGPTを使ったデータ分析
データ前処理のケース
18
対象データ:タイタニック号の乗船名簿(公開)
Passeng
erId
Surviv
ed
Pclass
(等級) Name Sex Age
SibSp
(兄弟配偶者数)
Parch
(親子数) Ticket Fare Cabin
Embark
ed
1 0 3
Braund,
Mr.
Owen
Harris
male 22.0 1 0
A/5
21171
7.2500 NaN S
2 1 1
Cumings
, Mrs.
John
Bradley
(Florenc
e Briggs
Thayer)
female 38.0 1 0
PC
17599
71.2833 C85 C
3 1 3
Heikkine
n, Miss.
Laina
female 26.0 0 0
STON/O
2.
3101282
7.9250 NaN S
4 1 1
Futrelle,
Mrs.
Jacques
Heath
(Lily
May
Peel)
female 35.0 1 0 113803 53.1000 C123 S
5 0 3
Allen,
Mr.
William
Henry
male 35.0 0 0 373450 8.0500 NaN S
Copyright@ Curio-city LLC
応用:ChatGPTを使ったデータ分析
データ前処理のケース
19
Statistic
Passe
ngerI
d Survived Pclass Age SibSp Parch Fare
Count 891 891 891 714 891 891 891
Mean
446.0
0
0.38 2.31
29.7
0
0.52 0.38 32.20
Std
257.3
5
0.49 0.84
14.5
3
1.10 0.81 49.69
Min 1 0 1 0.42 0 0 0.00
25%
223.5
0
0 2
20.1
2
0 0 7.91
50%
446.0
0
0 3
28.0
0
0 0 14.45
75%
668.5
0
1 3
38.0
0
1 0 31.00
Max 891 1 3
80.0
0
8 6
512.3
3
Column Missing Values(欠損値)
Age 177
Cabin 687
Embarked 2
タイタニックのデータセットに対する有効な前処理方法には以下のようなものがあります:
1.欠損値の処理:
1. 年齢(Age): 欠損値が多いため、中央値や平均値、または年齢の分布に基づいた方
法で欠損値を補完することができます。また、年齢をグループ化してカテゴリ変数
として扱うことも考えられます。
2. 客室番号(Cabin): 欠損値が多すぎるため、この列を削除するか、または客室番号が
あるかどうかの二値変数に変換することも一つの方法です。
3. 乗船港(Embarked): 欠損値が少ないため、最頻値で補完するか、または欠損してい
る行を削除することができます。
2.カテゴリ変数の処理:
1. **性別(Sex)や乗船港(Embarked)**などのカテゴリ変数は、機械学習モデルが扱
える形式に変換する必要があります。これには、ワンホットエンコーディングやラ
ベルエンコーディングなどの手法があります。
3.特徴量エンジニアリング:
1. 新しい特徴量を作成することで、データの洞察を深めることができます。例えば、
SibSp(兄弟姉妹/配偶者の数)とParch(親/子の数)を組み合わせて、全家族のサイ
ズを表す新しい変数を作成できます。
2. 名前(Name)から敬称を抽出して新しい特徴量として利用することもできます。
4.データのスケーリング:
1. 数値データに対してスケーリング(標準化や正規化)を行うことで、機械学習モデ
ルの性能向上に寄与することがあります。
5.外れ値の処理:
1. Fare(運賃)などの外れ
Copyright@ Curio-city LLC
応用:ChatGPTを使ったデータ分析
データ前処理のケース
20
Copyright@ Curio-city LLC
応用:ChatGPTを使ったデータ分析
21
1.客室等級(Pclass)と生存率:
高い客室等級(特に1等級)の乗客はより高い生
存率を示しています。これは、より高い等級の
乗客がより良い救助の機会や設備にアクセスで
きたことを示唆しています。
2.性別(Sex)と生存率:
女性の乗客は男性よりもはるかに高い生存率を
示しています。これは、「女性と子供を先に」
という原則が適用されたことを示している可能
性があります。
3.客室番号の有無(HasCabin)と生存率:
客室番号が記録されている乗客(つまり客室を
持っていた乗客)は、そうでない乗客よりも高
い生存率を持っています。これは、より高い社
会経済的地位の乗客が客室番号を持っていた可
能性があり、それが生存率に影響を与えたこと
を示唆しています。
4.家族のサイズ(FamilySize)と生存率:
家族のサイズが中程度の乗客(例えば、2?4人
の家族)は、単身者や大家族の乗客よりも高い
生存率を示しています。これは、家族のサポー
トが生存に有利であった可能性がありますが、
大家族の場合は避難時に困難があったかもしれ
ません。
Copyright@ Curio-city LLC
生成AIを活用した問題解決
22
目標の構造化
課題の
明確化
分析
解決案の
実行
データ活用
(定量/定性)
仮説立案 仮説検証
問題解決案の
提示
ビジョン?目標
問題解決プロセスと生成AIの活用範囲
問題解決の範囲
狭義の分析範囲
生成AIの活用可能領域
Copyright@ Curio-city LLC
まとめ
23
? データ分析は「問題解決の営み」と位置付けること
が重要です。
? データ分析は仮説検証サイクルの改善につきますが、
不用意に取り組むと過渡な労力とリスクを伴います
? ChatGPTを賢く使うことで、従来属人的になりがちな
範囲にまで活用出来る可能性が広がっています。
Copyright@ Curio-city LLC

More Related Content

颁丑补迟骋笔罢など生成础滨时代に必要なビジネスデータ分析入门(2024年1月17日)