狠狠撸

狠狠撸Share a Scribd company logo
SPSS Statistics Small TIPS
より効果的にご利用いただくために
1/12
IBM SPSS Statistics Small TIPS
銀行の融資業務における人工知能を利用した
データマイニング活用例
~ IBM SPSS Neural Networks ~
SPSS Statistics Small TIPS
より効果的にご利用いただくために
2/12
人工知能を利用したデータマイニング手法
with IBM SPSS Neural Networks
ニューラルネットワークとはヒトの脳の情報処理を模倣したモデリング手法のことです。代表的なデータマイニングアルゴリ
ズムのひとつで、人工知能を利用した複雑な数式を実現しています。ニューラルネットワークは、ネットワークを構成してい
るいくつかのニューロンからできており、次の図に示すように、層で編成されているため多層パーセプトロン(マルチレイヤー
パーセプトロン)とも呼ばれます。
ニューラルネットワークでは、層間のニューロンが接続されることで、データのパターンや関係をネットワークが学習できるよ
うになります。観測されたケースを1つずつ扱って、繰り返しネットワークを更新し続けることで学習を行い、学習が終わった
ネットワークに、新しい未知のデータを与えると、それまでの経験に基づいて予測を行うことができるようになります。
IBM SPSS Statistics では、多層パーセプトロン (MLP) ネットワークと放射基底関数 (RBF) ネットワークが使用できます。
SPSS Statistics Small TIPS
より効果的にご利用いただくために
3/12
それでは実際に分析してみましょう。
銀行与信
今回は銀行融資担当者が、与信の診断をするために利用するという例をご紹介します。
銀行の融資担当者は、債務不履行になる可能性がある人物を示す特徴を特定し、その特徴を使用して信用リスクの良し悪
しを識別する必要があります。過去の顧客のデータに対して、ニューラルネットワークの多層パーセプトロンのアルゴリズム
を使ってデータを学習します。データはモデルを作成するための学習用と、モデルを検証するためのホールドアウトサンプ
ルに区分します。
※以下の例で利用するデータ(bankloan.sav)は IBM SPSS Statistics にサンプルデータとして含まれています。
SPSS Statistics Small TIPS
より効果的にご利用いただくために
4/12
1.学習用と検証用のデータを準備する
ランダムシードを固定することで、ランダムな設定に関して、同じ結果を再現することができるようになります。ランダムな設
定とは、例えばランダム関数を使用する場合などが該当します。
変換 >> 乱数ジェネレータ
乱数を常に新しく生成するか、固定するかを選択できます。テストや確認をする際などに使います。
ここでは 9191972 と入力しておきます。同じデータで同じ固定値を使えば、同じ結果が得られます。
モデル作成をする際は、学習用と検証用データにデータを区分し、学習用のデータを使用してモデル作成を実施することが
一般的です。IBM SPSS Statistics では、「関数」を使って新たに変数を作成し、ケースを学習用にするか検証用にするかを
分けることができます。以下の例では、データのうち 70%を学習用に設定してみます。
SPSS Statistics Small TIPS
より効果的にご利用いただくために
5/12
変換 >> 変数の計算
目標変数は「データ区分」、数式ボックスには「rv.Bernoulli(0.7)」と入力します。
(※今回は乱数を発生させる関数の中でもベルヌーイという手法を使用しました。ベルヌーイを使って、70%の確率で1を発
生させ、それ以外は0を記録します。
ベルヌーイ関数は関数グループの「乱数」から選ぶことができます。
「データ区分」に、1のついているケースは学習用に、0のケースは検証用に使われます。
実行の結果、全体の約 70%のケースがランダムに、1.00 になります。
以下は、データ区分変数の度数分布表です。
では、このデータを使ってモデルを作成してみます。
SPSS Statistics Small TIPS
より効果的にご利用いただくために
6/12
2.ニューラルネットワークで分析を行う
分析 >> ニューラルネットワーク >> 多層パーセプトロン
変数タブをクリックします。
従属変数に予測する値である、不
履行経歴[不履行]変数を投入し、
因子に教育レベル[教育]変数を入
れます。そして、データ区分と不履
行予測変数以外の変数を共変量
に投入します。
データ区分タブをクリックします。
「ケースにデータ区分変数を使用する」を選
択し、データ区分変数を投入します。
これで、学習用?検証用データをデータ区分
変数で識別するようになります。
SPSS Statistics Small TIPS
より効果的にご利用いただくために
7/12
出力 タブをクリックします。
「ネットワークパフォーマンス」の全ての項目にチェックを入れ、ここでは「独立変数の重要度分析」にチェックを入れ、出力結
果を実際に見てみましょう。(重要度分析は変数の数やケース数によっては時間がかかるため注意が必要です)
3.出力結果を見る
処理したケースの要約から確認しましょう。ここでは有効数の 700 ケースに対して、71.4%にあたる 500 ケースが学習用デー
タとして、残り 28.6%の 200 ケースが検証用データ(テスト)として使われたことが分かります。
SPSS Statistics Small TIPS
より効果的にご利用いただくために
8/12
ネットワーク情報では、入力層、隠れ層、出力層別の情報が確認されます。ここでは入力層のニューロンは 12 個であり、隠
れ層のニューロンが 4 個、出力層のニューロンは 2 個であることがわかります。
←
カテゴリ変数の場合、各カテゴリが1ニューロンと
してカウントされます。そのため、入力層は、左に
表示されている7個の共変数と、因子である教育
レベルの5つのカテゴリを合わせて、ニューロンの
数は12個となります。
→
ダイヤグラム出力をみてみます。入力層に
は予測(独立)変数が含まれています
隠れ層には、観測不可能なユニット(処理
の単位=ニューロン)が含まれます。隠れ
層にあるそれぞれのユニットの値は、予測
変数の結合関数です。
出力層には、従属変数のカテゴリが含ま
れます。従属変数の不履行履歴には、不
履行:なし=0 と不履行:あり=1 の 2 つの値
が記録されています。出力層にあるそれぞ
れのユニットの値は、隠れ層の結合関数
です。
入力層 隠れ層 出力層
ダイヤグラム出力
SPSS Statistics Small TIPS
より効果的にご利用いただくために
9/12
分類ではネットワークを使った結果が出力されています。まず学習用ケースを使ったものでは、実際に不履行がある 122 デ
ータ(52+70)中、70 データが不履行ありと正しく予測され、実際に不履行がない 378 データ(339+39)中、339 データが不
履行なしと正しく予測されていることから、全体では学習用 500 データのうち、339+70 の 409 データが正しく予測されており、
81.8%の正解の割合になっています。そして学習用で作成したモデルを検証用で当てはめたときの結果が、テストとして表示
されており、学習用と同様に結果を読み取ると、正解の割合は 78.5%になっています。
←
独立変数の重要度ではどの変数の重要度が高か
ったのかが出力されます。これは計算に時間がか
かる出力ですが、予測にあたってどの変数の影響
が大きいのかを知ることができます。
←
また、正規化された重要度のグラフでも確認できま
す。ここでは、1.現職の雇用期間 2.クレジットカ
ードの負債金額 3.現住所の居住年月 が不履行
「あり?なし」を予測するのに重要である上位3位の
変数だということがわかりました。
SPSS Statistics Small TIPS
より効果的にご利用いただくために
10/12
累積ゲイングラフやリフトグラフを使用すると、ある特定の結果を予測するモデルの精度はどの程度なのかを視覚的に評
価することができます。
左の累積ゲイングラフは、ケースの合計数
のパーセントを目標にすることで、特定の
カテゴリ「ゲイン」のケースの総数パーセン
トを示します。例えば、不履行ありの緑ライ
ンに注目すると、ネットワークでデータセッ
トをスコアリングし、不履行「あり」と予測さ
れた全てのケースを確信度でソートした場
合(不履行「あり」の確度が高い順に並べ
る)、上位 40%が、実際に不履行がある全
ケースの約 88%を含むと期待できることを
示しています。対角線はベースラインと呼
ばれ、40%のケースを取り出せば、実際に
不履行がある全ケースの 40%が「あり、もし
くは、なし」であるという基準ラインを示して
おり、これはある意味、予測モデルを使わ
なくても予想することができるレベルのライ
ンです。ベースラインから上にあればあるほど、ゲインが大きくなり、確度の高い予測ができていることになります。
右のリフトグラフは、累積ゲイングラフから導き出すことができます。リフト値は累積ゲイン値のベースラインに対する比率に
対応している指標です。例えば、緑ラインの不履
行「あり」の 40%におけるリフトは、88%/40%(40%に
おけるゲイン 88%÷40%におけるベースライン
40%)=2.2 になります。累積ゲイングラフの情報を
別の視点で見ることができます。
SPSS Statistics Small TIPS
より効果的にご利用いただくために
11/12
今回は銀行与信予測の例をご紹介いたしましたが、ニューラルネットワークの手法は様々な予測に使われています。
ニューラルネットワーク活用例
?商品需要予測: ニューラルネットワークを利用した商品需要予測の最適化
?商品開発: 調味料の開発にニューラルネットワークを適用、缶コーヒーのにおいの官能評価
?エレベーター運転方式制御: エレベーターの最適スケジューリング制御
?自然言語処理: ニューラルネットワークによる学習を用いた自然言語の処理
?手書き数字の認識: ニューラルネットワークによる手書き数字認識システム
?顔画像認識: 目、口、鼻のカテゴリを形成してニューラルネットワークで顔を認識
このようにデータを学習用、検証用に分け、人工知能を使った高度なデータマイニング手法を使いデータ予測分析を可能に
するのが、IBM SPSS Neural Networks です。
是非、現在行っていらっしゃる予測分析手法の1つに加えてみてください。
SPSS Statistics Small TIPS
より効果的にご利用いただくために
12/12
? IBM Corporation 2017. All Rights Reserved.
ワークショップ、セッション、および資料は、IBM またはセッション発表者によって準備され、それぞれ独自の見解を反映した
ものです。それらは情報提供の目的のみで提供されており、いかなる参加者に対しても法律的またはその他の指導や助言
を意図したものではなく、またそのような結果を生むものでもありません。本講演資料に含まれている情報については、完
全性と正確性を期するよう努力しましたが、「現状のまま」提供され、明示または暗示にかかわらずいかなる保証も伴わな
いものとします。本講演資料またはその他の資料の使用によって、あるいはその他の関連によって、いかなる損害が生じた
場合も、IBM は責任を負わないものとします。 本講演資料に含まれている内容は、IBM またはそのサプライヤーやライセン
ス交付者からいかなる保証または表明を引きだすことを意図したものでも、IBM ソフトウェアの使用を規定する適用ライセン
ス契約の条項を変更することを意図したものでもなく、またそのような結果を生むものでもありません。
本講演資料で IBM 製品、プログラム、またはサービスに言及していても、IBM が営業活動を行っているすべての国でそれら
が使用可能であることを暗示するものではありません。本講演資料で言及している製品リリース日付や製品機能は、市場
機会またはその他の要因に基づいて IBM 独自の決定権をもっていつでも変更できるものとし、いかなる方法においても将
来の製品または機能が使用可能になると確約することを意図したものではありません。本講演資料に含まれている内容は、
参加者が開始する活動によって特定の販売、売上高の向上、またはその他の結果が生じると述べる、または暗示すること
を意図したものでも、またそのような結果を生むものでもありません。 パフォーマンスは、管理された環境において標準的
な IBM ベンチマークを使用した測定と予測に基づいています。ユーザーが経験する実際のスループットやパフォーマンスは、
ユーザーのジョブ?ストリームにおけるマルチプログラミングの量、入出力構成、ストレージ構成、および処理されるワークロ
ードなどの考慮事項を含む、数多くの要因に応じて変化します。したがって、個々のユーザーがここで述べられているものと
同様の結果を得られると確約するものではありません。
記述されているすべてのお客様事例は、それらのお客様がどのように IBM 製品を使用したか、またそれらのお客様が達成
した結果の実例として示されたものです。実際の環境コストおよびパフォーマンス特性は、お客様ごとに異なる場合があり
ます。
IBM、IBM ロゴ、ibm.com、SmarterPlanet アイコンは、世界の多くの国で登録された International Business Machines
Corporation の商標です。他の製品名およびサービス名等は、それぞれ IBM または各社の商標である場合があります。
現時点での IBM の商標リストについては、www.ibm.com/legal/copytrade.shtml をご覧ください。
Microsoft, Windows, Windows NT および Windows ロゴは Microsoft Corporation の米国およびその他の国における商標で
す。

More Related Content

More from IBM Analytics Japan (20)

IBM Integrated Analytics System DSX R Studio 利用ガイド
IBM Integrated Analytics System DSX R Studio 利用ガイドIBM Integrated Analytics System DSX R Studio 利用ガイド
IBM Integrated Analytics System DSX R Studio 利用ガイド
IBM Analytics Japan
?
IBM Integrated Analytics System Webコンソール利用ガイド 20180213
IBM Integrated Analytics System Webコンソール利用ガイド 20180213IBM Integrated Analytics System Webコンソール利用ガイド 20180213
IBM Integrated Analytics System Webコンソール利用ガイド 20180213
IBM Analytics Japan
?
IBM Integrated Analytics System ユーザー利用ガイド 20180213
IBM Integrated Analytics System ユーザー利用ガイド 20180213IBM Integrated Analytics System ユーザー利用ガイド 20180213
IBM Integrated Analytics System ユーザー利用ガイド 20180213
IBM Analytics Japan
?
IBM Cloud を利用したデータ分析ことはじめ
IBM Cloud を利用したデータ分析ことはじめIBM Cloud を利用したデータ分析ことはじめ
IBM Cloud を利用したデータ分析ことはじめ
IBM Analytics Japan
?
Db2 V11 GUIツール
Db2 V11 GUIツールDb2 V11 GUIツール
Db2 V11 GUIツール
IBM Analytics Japan
?
Db2リブランディングと製品動向 201707
Db2リブランディングと製品動向 201707Db2リブランディングと製品動向 201707
Db2リブランディングと製品動向 201707
IBM Analytics Japan
?
顿辞肠办别谤と诲产2
顿辞肠办别谤と诲产2顿辞肠办别谤と诲产2
顿辞肠办别谤と诲产2
IBM Analytics Japan
?
IBM Cloudのデータベース
IBM CloudのデータベースIBM Cloudのデータベース
IBM Cloudのデータベース
IBM Analytics Japan
?
【株式会社ラック様】ハイブリッド?クラウド時代の データベース活用 ~事例?スタートアップ?メニューご紹介~
【株式会社ラック様】ハイブリッド?クラウド時代の データベース活用 ~事例?スタートアップ?メニューご紹介~【株式会社ラック様】ハイブリッド?クラウド時代の データベース活用 ~事例?スタートアップ?メニューご紹介~
【株式会社ラック様】ハイブリッド?クラウド時代の データベース活用 ~事例?スタートアップ?メニューご紹介~
IBM Analytics Japan
?
Db2 Warehouse セッション資料 db tech showcase
Db2 Warehouse セッション資料 db tech showcase Db2 Warehouse セッション資料 db tech showcase
Db2 Warehouse セッション資料 db tech showcase
IBM Analytics Japan
?
Db2 Warehouse Spark利用カ?イト? チュートリアル編
Db2 Warehouse Spark利用カ?イト? チュートリアル編Db2 Warehouse Spark利用カ?イト? チュートリアル編
Db2 Warehouse Spark利用カ?イト? チュートリアル編
IBM Analytics Japan
?
Db2 Warehouse Spark利用カ?イト? テ?ータ操作編
Db2 Warehouse Spark利用カ?イト? テ?ータ操作編Db2 Warehouse Spark利用カ?イト? テ?ータ操作編
Db2 Warehouse Spark利用カ?イト? テ?ータ操作編
IBM Analytics Japan
?
Db2 Warehouse こ?紹介資料 20170922
Db2 Warehouse こ?紹介資料 20170922Db2 Warehouse こ?紹介資料 20170922
Db2 Warehouse こ?紹介資料 20170922
IBM Analytics Japan
?
データを集めて貯めて分析する… 最先端のテクノロジーが詰まったIBMクラウドのご紹介
データを集めて貯めて分析する…  最先端のテクノロジーが詰まったIBMクラウドのご紹介データを集めて貯めて分析する…  最先端のテクノロジーが詰まったIBMクラウドのご紹介
データを集めて貯めて分析する… 最先端のテクノロジーが詰まったIBMクラウドのご紹介
IBM Analytics Japan
?
中古车贩売の価格予测モデル(2)
中古车贩売の価格予测モデル(2)中古车贩売の価格予测モデル(2)
中古车贩売の価格予测モデル(2)
IBM Analytics Japan
?
中古车贩売の価格予测モデル(1)
中古车贩売の価格予测モデル(1)中古车贩売の価格予测モデル(1)
中古车贩売の価格予测モデル(1)
IBM Analytics Japan
?
融资业务における顾客の信用度分析
融资业务における顾客の信用度分析融资业务における顾客の信用度分析
融资业务における顾客の信用度分析
IBM Analytics Japan
?
安全在库を确保するための売上予测
安全在库を确保するための売上予测安全在库を确保するための売上予测
安全在库を确保するための売上予测
IBM Analytics Japan
?
アンケート分析に统计的な手法を取り入れる(2)
アンケート分析に统计的な手法を取り入れる(2)アンケート分析に统计的な手法を取り入れる(2)
アンケート分析に统计的な手法を取り入れる(2)
IBM Analytics Japan
?
アンケート分析に统计的な手法を取り入れる(1)
アンケート分析に统计的な手法を取り入れる(1)アンケート分析に统计的な手法を取り入れる(1)
アンケート分析に统计的な手法を取り入れる(1)
IBM Analytics Japan
?
IBM Integrated Analytics System DSX R Studio 利用ガイド
IBM Integrated Analytics System DSX R Studio 利用ガイドIBM Integrated Analytics System DSX R Studio 利用ガイド
IBM Integrated Analytics System DSX R Studio 利用ガイド
IBM Analytics Japan
?
IBM Integrated Analytics System Webコンソール利用ガイド 20180213
IBM Integrated Analytics System Webコンソール利用ガイド 20180213IBM Integrated Analytics System Webコンソール利用ガイド 20180213
IBM Integrated Analytics System Webコンソール利用ガイド 20180213
IBM Analytics Japan
?
IBM Integrated Analytics System ユーザー利用ガイド 20180213
IBM Integrated Analytics System ユーザー利用ガイド 20180213IBM Integrated Analytics System ユーザー利用ガイド 20180213
IBM Integrated Analytics System ユーザー利用ガイド 20180213
IBM Analytics Japan
?
IBM Cloud を利用したデータ分析ことはじめ
IBM Cloud を利用したデータ分析ことはじめIBM Cloud を利用したデータ分析ことはじめ
IBM Cloud を利用したデータ分析ことはじめ
IBM Analytics Japan
?
Db2リブランディングと製品動向 201707
Db2リブランディングと製品動向 201707Db2リブランディングと製品動向 201707
Db2リブランディングと製品動向 201707
IBM Analytics Japan
?
【株式会社ラック様】ハイブリッド?クラウド時代の データベース活用 ~事例?スタートアップ?メニューご紹介~
【株式会社ラック様】ハイブリッド?クラウド時代の データベース活用 ~事例?スタートアップ?メニューご紹介~【株式会社ラック様】ハイブリッド?クラウド時代の データベース活用 ~事例?スタートアップ?メニューご紹介~
【株式会社ラック様】ハイブリッド?クラウド時代の データベース活用 ~事例?スタートアップ?メニューご紹介~
IBM Analytics Japan
?
Db2 Warehouse セッション資料 db tech showcase
Db2 Warehouse セッション資料 db tech showcase Db2 Warehouse セッション資料 db tech showcase
Db2 Warehouse セッション資料 db tech showcase
IBM Analytics Japan
?
Db2 Warehouse Spark利用カ?イト? チュートリアル編
Db2 Warehouse Spark利用カ?イト? チュートリアル編Db2 Warehouse Spark利用カ?イト? チュートリアル編
Db2 Warehouse Spark利用カ?イト? チュートリアル編
IBM Analytics Japan
?
Db2 Warehouse Spark利用カ?イト? テ?ータ操作編
Db2 Warehouse Spark利用カ?イト? テ?ータ操作編Db2 Warehouse Spark利用カ?イト? テ?ータ操作編
Db2 Warehouse Spark利用カ?イト? テ?ータ操作編
IBM Analytics Japan
?
Db2 Warehouse こ?紹介資料 20170922
Db2 Warehouse こ?紹介資料 20170922Db2 Warehouse こ?紹介資料 20170922
Db2 Warehouse こ?紹介資料 20170922
IBM Analytics Japan
?
データを集めて貯めて分析する… 最先端のテクノロジーが詰まったIBMクラウドのご紹介
データを集めて貯めて分析する…  最先端のテクノロジーが詰まったIBMクラウドのご紹介データを集めて貯めて分析する…  最先端のテクノロジーが詰まったIBMクラウドのご紹介
データを集めて貯めて分析する… 最先端のテクノロジーが詰まったIBMクラウドのご紹介
IBM Analytics Japan
?
中古车贩売の価格予测モデル(2)
中古车贩売の価格予测モデル(2)中古车贩売の価格予测モデル(2)
中古车贩売の価格予测モデル(2)
IBM Analytics Japan
?
中古车贩売の価格予测モデル(1)
中古车贩売の価格予测モデル(1)中古车贩売の価格予测モデル(1)
中古车贩売の価格予测モデル(1)
IBM Analytics Japan
?
融资业务における顾客の信用度分析
融资业务における顾客の信用度分析融资业务における顾客の信用度分析
融资业务における顾客の信用度分析
IBM Analytics Japan
?
安全在库を确保するための売上予测
安全在库を确保するための売上予测安全在库を确保するための売上予测
安全在库を确保するための売上予测
IBM Analytics Japan
?
アンケート分析に统计的な手法を取り入れる(2)
アンケート分析に统计的な手法を取り入れる(2)アンケート分析に统计的な手法を取り入れる(2)
アンケート分析に统计的な手法を取り入れる(2)
IBM Analytics Japan
?
アンケート分析に统计的な手法を取り入れる(1)
アンケート分析に统计的な手法を取り入れる(1)アンケート分析に统计的な手法を取り入れる(1)
アンケート分析に统计的な手法を取り入れる(1)
IBM Analytics Japan
?

银行の融资业务における人工知能を利用したデータマイニング活用例

  • 1. SPSS Statistics Small TIPS より効果的にご利用いただくために 1/12 IBM SPSS Statistics Small TIPS 銀行の融資業務における人工知能を利用した データマイニング活用例 ~ IBM SPSS Neural Networks ~
  • 2. SPSS Statistics Small TIPS より効果的にご利用いただくために 2/12 人工知能を利用したデータマイニング手法 with IBM SPSS Neural Networks ニューラルネットワークとはヒトの脳の情報処理を模倣したモデリング手法のことです。代表的なデータマイニングアルゴリ ズムのひとつで、人工知能を利用した複雑な数式を実現しています。ニューラルネットワークは、ネットワークを構成してい るいくつかのニューロンからできており、次の図に示すように、層で編成されているため多層パーセプトロン(マルチレイヤー パーセプトロン)とも呼ばれます。 ニューラルネットワークでは、層間のニューロンが接続されることで、データのパターンや関係をネットワークが学習できるよ うになります。観測されたケースを1つずつ扱って、繰り返しネットワークを更新し続けることで学習を行い、学習が終わった ネットワークに、新しい未知のデータを与えると、それまでの経験に基づいて予測を行うことができるようになります。 IBM SPSS Statistics では、多層パーセプトロン (MLP) ネットワークと放射基底関数 (RBF) ネットワークが使用できます。
  • 3. SPSS Statistics Small TIPS より効果的にご利用いただくために 3/12 それでは実際に分析してみましょう。 銀行与信 今回は銀行融資担当者が、与信の診断をするために利用するという例をご紹介します。 銀行の融資担当者は、債務不履行になる可能性がある人物を示す特徴を特定し、その特徴を使用して信用リスクの良し悪 しを識別する必要があります。過去の顧客のデータに対して、ニューラルネットワークの多層パーセプトロンのアルゴリズム を使ってデータを学習します。データはモデルを作成するための学習用と、モデルを検証するためのホールドアウトサンプ ルに区分します。 ※以下の例で利用するデータ(bankloan.sav)は IBM SPSS Statistics にサンプルデータとして含まれています。
  • 4. SPSS Statistics Small TIPS より効果的にご利用いただくために 4/12 1.学習用と検証用のデータを準備する ランダムシードを固定することで、ランダムな設定に関して、同じ結果を再現することができるようになります。ランダムな設 定とは、例えばランダム関数を使用する場合などが該当します。 変換 >> 乱数ジェネレータ 乱数を常に新しく生成するか、固定するかを選択できます。テストや確認をする際などに使います。 ここでは 9191972 と入力しておきます。同じデータで同じ固定値を使えば、同じ結果が得られます。 モデル作成をする際は、学習用と検証用データにデータを区分し、学習用のデータを使用してモデル作成を実施することが 一般的です。IBM SPSS Statistics では、「関数」を使って新たに変数を作成し、ケースを学習用にするか検証用にするかを 分けることができます。以下の例では、データのうち 70%を学習用に設定してみます。
  • 5. SPSS Statistics Small TIPS より効果的にご利用いただくために 5/12 変換 >> 変数の計算 目標変数は「データ区分」、数式ボックスには「rv.Bernoulli(0.7)」と入力します。 (※今回は乱数を発生させる関数の中でもベルヌーイという手法を使用しました。ベルヌーイを使って、70%の確率で1を発 生させ、それ以外は0を記録します。 ベルヌーイ関数は関数グループの「乱数」から選ぶことができます。 「データ区分」に、1のついているケースは学習用に、0のケースは検証用に使われます。 実行の結果、全体の約 70%のケースがランダムに、1.00 になります。 以下は、データ区分変数の度数分布表です。 では、このデータを使ってモデルを作成してみます。
  • 6. SPSS Statistics Small TIPS より効果的にご利用いただくために 6/12 2.ニューラルネットワークで分析を行う 分析 >> ニューラルネットワーク >> 多層パーセプトロン 変数タブをクリックします。 従属変数に予測する値である、不 履行経歴[不履行]変数を投入し、 因子に教育レベル[教育]変数を入 れます。そして、データ区分と不履 行予測変数以外の変数を共変量 に投入します。 データ区分タブをクリックします。 「ケースにデータ区分変数を使用する」を選 択し、データ区分変数を投入します。 これで、学習用?検証用データをデータ区分 変数で識別するようになります。
  • 7. SPSS Statistics Small TIPS より効果的にご利用いただくために 7/12 出力 タブをクリックします。 「ネットワークパフォーマンス」の全ての項目にチェックを入れ、ここでは「独立変数の重要度分析」にチェックを入れ、出力結 果を実際に見てみましょう。(重要度分析は変数の数やケース数によっては時間がかかるため注意が必要です) 3.出力結果を見る 処理したケースの要約から確認しましょう。ここでは有効数の 700 ケースに対して、71.4%にあたる 500 ケースが学習用デー タとして、残り 28.6%の 200 ケースが検証用データ(テスト)として使われたことが分かります。
  • 8. SPSS Statistics Small TIPS より効果的にご利用いただくために 8/12 ネットワーク情報では、入力層、隠れ層、出力層別の情報が確認されます。ここでは入力層のニューロンは 12 個であり、隠 れ層のニューロンが 4 個、出力層のニューロンは 2 個であることがわかります。 ← カテゴリ変数の場合、各カテゴリが1ニューロンと してカウントされます。そのため、入力層は、左に 表示されている7個の共変数と、因子である教育 レベルの5つのカテゴリを合わせて、ニューロンの 数は12個となります。 → ダイヤグラム出力をみてみます。入力層に は予測(独立)変数が含まれています 隠れ層には、観測不可能なユニット(処理 の単位=ニューロン)が含まれます。隠れ 層にあるそれぞれのユニットの値は、予測 変数の結合関数です。 出力層には、従属変数のカテゴリが含ま れます。従属変数の不履行履歴には、不 履行:なし=0 と不履行:あり=1 の 2 つの値 が記録されています。出力層にあるそれぞ れのユニットの値は、隠れ層の結合関数 です。 入力層 隠れ層 出力層 ダイヤグラム出力
  • 9. SPSS Statistics Small TIPS より効果的にご利用いただくために 9/12 分類ではネットワークを使った結果が出力されています。まず学習用ケースを使ったものでは、実際に不履行がある 122 デ ータ(52+70)中、70 データが不履行ありと正しく予測され、実際に不履行がない 378 データ(339+39)中、339 データが不 履行なしと正しく予測されていることから、全体では学習用 500 データのうち、339+70 の 409 データが正しく予測されており、 81.8%の正解の割合になっています。そして学習用で作成したモデルを検証用で当てはめたときの結果が、テストとして表示 されており、学習用と同様に結果を読み取ると、正解の割合は 78.5%になっています。 ← 独立変数の重要度ではどの変数の重要度が高か ったのかが出力されます。これは計算に時間がか かる出力ですが、予測にあたってどの変数の影響 が大きいのかを知ることができます。 ← また、正規化された重要度のグラフでも確認できま す。ここでは、1.現職の雇用期間 2.クレジットカ ードの負債金額 3.現住所の居住年月 が不履行 「あり?なし」を予測するのに重要である上位3位の 変数だということがわかりました。
  • 10. SPSS Statistics Small TIPS より効果的にご利用いただくために 10/12 累積ゲイングラフやリフトグラフを使用すると、ある特定の結果を予測するモデルの精度はどの程度なのかを視覚的に評 価することができます。 左の累積ゲイングラフは、ケースの合計数 のパーセントを目標にすることで、特定の カテゴリ「ゲイン」のケースの総数パーセン トを示します。例えば、不履行ありの緑ライ ンに注目すると、ネットワークでデータセッ トをスコアリングし、不履行「あり」と予測さ れた全てのケースを確信度でソートした場 合(不履行「あり」の確度が高い順に並べ る)、上位 40%が、実際に不履行がある全 ケースの約 88%を含むと期待できることを 示しています。対角線はベースラインと呼 ばれ、40%のケースを取り出せば、実際に 不履行がある全ケースの 40%が「あり、もし くは、なし」であるという基準ラインを示して おり、これはある意味、予測モデルを使わ なくても予想することができるレベルのライ ンです。ベースラインから上にあればあるほど、ゲインが大きくなり、確度の高い予測ができていることになります。 右のリフトグラフは、累積ゲイングラフから導き出すことができます。リフト値は累積ゲイン値のベースラインに対する比率に 対応している指標です。例えば、緑ラインの不履 行「あり」の 40%におけるリフトは、88%/40%(40%に おけるゲイン 88%÷40%におけるベースライン 40%)=2.2 になります。累積ゲイングラフの情報を 別の視点で見ることができます。
  • 11. SPSS Statistics Small TIPS より効果的にご利用いただくために 11/12 今回は銀行与信予測の例をご紹介いたしましたが、ニューラルネットワークの手法は様々な予測に使われています。 ニューラルネットワーク活用例 ?商品需要予測: ニューラルネットワークを利用した商品需要予測の最適化 ?商品開発: 調味料の開発にニューラルネットワークを適用、缶コーヒーのにおいの官能評価 ?エレベーター運転方式制御: エレベーターの最適スケジューリング制御 ?自然言語処理: ニューラルネットワークによる学習を用いた自然言語の処理 ?手書き数字の認識: ニューラルネットワークによる手書き数字認識システム ?顔画像認識: 目、口、鼻のカテゴリを形成してニューラルネットワークで顔を認識 このようにデータを学習用、検証用に分け、人工知能を使った高度なデータマイニング手法を使いデータ予測分析を可能に するのが、IBM SPSS Neural Networks です。 是非、現在行っていらっしゃる予測分析手法の1つに加えてみてください。
  • 12. SPSS Statistics Small TIPS より効果的にご利用いただくために 12/12 ? IBM Corporation 2017. All Rights Reserved. ワークショップ、セッション、および資料は、IBM またはセッション発表者によって準備され、それぞれ独自の見解を反映した ものです。それらは情報提供の目的のみで提供されており、いかなる参加者に対しても法律的またはその他の指導や助言 を意図したものではなく、またそのような結果を生むものでもありません。本講演資料に含まれている情報については、完 全性と正確性を期するよう努力しましたが、「現状のまま」提供され、明示または暗示にかかわらずいかなる保証も伴わな いものとします。本講演資料またはその他の資料の使用によって、あるいはその他の関連によって、いかなる損害が生じた 場合も、IBM は責任を負わないものとします。 本講演資料に含まれている内容は、IBM またはそのサプライヤーやライセン ス交付者からいかなる保証または表明を引きだすことを意図したものでも、IBM ソフトウェアの使用を規定する適用ライセン ス契約の条項を変更することを意図したものでもなく、またそのような結果を生むものでもありません。 本講演資料で IBM 製品、プログラム、またはサービスに言及していても、IBM が営業活動を行っているすべての国でそれら が使用可能であることを暗示するものではありません。本講演資料で言及している製品リリース日付や製品機能は、市場 機会またはその他の要因に基づいて IBM 独自の決定権をもっていつでも変更できるものとし、いかなる方法においても将 来の製品または機能が使用可能になると確約することを意図したものではありません。本講演資料に含まれている内容は、 参加者が開始する活動によって特定の販売、売上高の向上、またはその他の結果が生じると述べる、または暗示すること を意図したものでも、またそのような結果を生むものでもありません。 パフォーマンスは、管理された環境において標準的 な IBM ベンチマークを使用した測定と予測に基づいています。ユーザーが経験する実際のスループットやパフォーマンスは、 ユーザーのジョブ?ストリームにおけるマルチプログラミングの量、入出力構成、ストレージ構成、および処理されるワークロ ードなどの考慮事項を含む、数多くの要因に応じて変化します。したがって、個々のユーザーがここで述べられているものと 同様の結果を得られると確約するものではありません。 記述されているすべてのお客様事例は、それらのお客様がどのように IBM 製品を使用したか、またそれらのお客様が達成 した結果の実例として示されたものです。実際の環境コストおよびパフォーマンス特性は、お客様ごとに異なる場合があり ます。 IBM、IBM ロゴ、ibm.com、SmarterPlanet アイコンは、世界の多くの国で登録された International Business Machines Corporation の商標です。他の製品名およびサービス名等は、それぞれ IBM または各社の商標である場合があります。 現時点での IBM の商標リストについては、www.ibm.com/legal/copytrade.shtml をご覧ください。 Microsoft, Windows, Windows NT および Windows ロゴは Microsoft Corporation の米国およびその他の国における商標で す。