狠狠撸

SPSS Statistics Small TIPS
より効果的にご利用いただくために
1/12
IBM SPSS Statistics Small TIPS
銀行の融資業務における人工知能を利用した
データマイニング活用例
～ IBM SPSS Neural Networks ～

2/12
人工知能を利用したデータマイニング手法
with IBM SPSS Neural Networks
ニューラルネットワークとはヒトの脳の情報処理を模倣したモデリング手法のことです。代表的なデータマイニングアルゴリ
ズムのひとつで、人工知能を利用した複雑な数式を実現しています。ニューラルネットワークは、ネットワークを構成してい
るいくつかのニューロンからできており、次の図に示すように、層で編成されているため多層パーセプトロン（マルチレイヤー
パーセプトロン）とも呼ばれます。
ニューラルネットワークでは、層間のニューロンが接続されることで、データのパターンや関係をネットワークが学習できるよ
うになります。観測されたケースを１つずつ扱って、繰り返しネットワークを更新し続けることで学習を行い、学習が終わった
ネットワークに、新しい未知のデータを与えると、それまでの経験に基づいて予測を行うことができるようになります。
IBM SPSS Statistics では、多層パーセプトロン (MLP) ネットワークと放射基底関数 (RBF) ネットワークが使用できます。

3/12
それでは実際に分析してみましょう。
銀行与信
今回は銀行融資担当者が、与信の診断をするために利用するという例をご紹介します。
銀行の融資担当者は、債務不履行になる可能性がある人物を示す特徴を特定し、その特徴を使用して信用リスクの良し悪
しを識別する必要があります。過去の顧客のデータに対して、ニューラルネットワークの多層パーセプトロンのアルゴリズム
を使ってデータを学習します。データはモデルを作成するための学習用と、モデルを検証するためのホールドアウトサンプ
ルに区分します。
※以下の例で利用するデータ（bankloan.sav）は IBM SPSS Statistics にサンプルデータとして含まれています。

4/12
１．学習用と検証用のデータを準備する
ランダムシードを固定することで、ランダムな設定に関して、同じ結果を再現することができるようになります。ランダムな設
定とは、例えばランダム関数を使用する場合などが該当します。
変換＞＞乱数ジェネレータ
乱数を常に新しく生成するか、固定するかを選択できます。テストや確認をする際などに使います。
ここでは 9191972 と入力しておきます。同じデータで同じ固定値を使えば、同じ結果が得られます。
モデル作成をする際は、学習用と検証用データにデータを区分し、学習用のデータを使用してモデル作成を実施することが
一般的です。IBM SPSS Statistics では、「関数」を使って新たに変数を作成し、ケースを学習用にするか検証用にするかを
分けることができます。以下の例では、データのうち 70%を学習用に設定してみます。

5/12
変換＞＞変数の計算
目標変数は「データ区分」、数式ボックスには「rv.Bernoulli(0.7)」と入力します。
（※今回は乱数を発生させる関数の中でもベルヌーイという手法を使用しました。ベルヌーイを使って、70%の確率で１を発
生させ、それ以外は０を記録します。
ベルヌーイ関数は関数グループの「乱数」から選ぶことができます。
「データ区分」に、１のついているケースは学習用に、０のケースは検証用に使われます。
実行の結果、全体の約 70％のケースがランダムに、1.00 になります。
以下は、データ区分変数の度数分布表です。
では、このデータを使ってモデルを作成してみます。

6/12
２．ニューラルネットワークで分析を行う
分析＞＞ニューラルネットワーク＞＞多層パーセプトロン
変数タブをクリックします。
従属変数に予測する値である、不
履行経歴[不履行]変数を投入し、
因子に教育レベル[教育]変数を入
れます。そして、データ区分と不履
行予測変数以外の変数を共変量
に投入します。
データ区分タブをクリックします。
「ケースにデータ区分変数を使用する」を選
択し、データ区分変数を投入します。
これで、学習用?検証用データをデータ区分
変数で識別するようになります。

7/12
出力タブをクリックします。
「ネットワークパフォーマンス」の全ての項目にチェックを入れ、ここでは「独立変数の重要度分析」にチェックを入れ、出力結
果を実際に見てみましょう。（重要度分析は変数の数やケース数によっては時間がかかるため注意が必要です）
３．出力結果を見る
処理したケースの要約から確認しましょう。ここでは有効数の 700 ケースに対して、71.4%にあたる 500 ケースが学習用デー
タとして、残り 28.6%の 200 ケースが検証用データ（テスト）として使われたことが分かります。

8/12
ネットワーク情報では、入力層、隠れ層、出力層別の情報が確認されます。ここでは入力層のニューロンは 12 個であり、隠
れ層のニューロンが 4 個、出力層のニューロンは 2 個であることがわかります。
←
カテゴリ変数の場合、各カテゴリが１ニューロンと
してカウントされます。そのため、入力層は、左に
表示されている７個の共変数と、因子である教育
レベルの５つのカテゴリを合わせて、ニューロンの
数は１２個となります。
→
ダイヤグラム出力をみてみます。入力層に
は予測（独立）変数が含まれています
隠れ層には、観測不可能なユニット（処理
の単位=ニューロン）が含まれます。隠れ
層にあるそれぞれのユニットの値は、予測
変数の結合関数です。
出力層には、従属変数のカテゴリが含ま
れます。従属変数の不履行履歴には、不
履行：なし=0 と不履行：あり=1 の 2 つの値
が記録されています。出力層にあるそれぞ
れのユニットの値は、隠れ層の結合関数
です。
入力層隠れ層出力層
ダイヤグラム出力

9/12
分類ではネットワークを使った結果が出力されています。まず学習用ケースを使ったものでは、実際に不履行がある 122 デ
ータ（52＋70）中、70 データが不履行ありと正しく予測され、実際に不履行がない 378 データ（339＋39）中、339 データが不
履行なしと正しく予測されていることから、全体では学習用 500 データのうち、339＋70 の 409 データが正しく予測されており、
81.8%の正解の割合になっています。そして学習用で作成したモデルを検証用で当てはめたときの結果が、テストとして表示
されており、学習用と同様に結果を読み取ると、正解の割合は 78.5%になっています。
←
独立変数の重要度ではどの変数の重要度が高か
ったのかが出力されます。これは計算に時間がか
かる出力ですが、予測にあたってどの変数の影響
が大きいのかを知ることができます。
←
また、正規化された重要度のグラフでも確認できま
す。ここでは、１．現職の雇用期間２．クレジットカ
ードの負債金額３．現住所の居住年月が不履行
「あり?なし」を予測するのに重要である上位３位の
変数だということがわかりました。

10/12
累積ゲイングラフやリフトグラフを使用すると、ある特定の結果を予測するモデルの精度はどの程度なのかを視覚的に評
価することができます。
左の累積ゲイングラフは、ケースの合計数
のパーセントを目標にすることで、特定の
カテゴリ「ゲイン」のケースの総数パーセン
トを示します。例えば、不履行ありの緑ライ
ンに注目すると、ネットワークでデータセッ
トをスコアリングし、不履行「あり」と予測さ
れた全てのケースを確信度でソートした場
合（不履行「あり」の確度が高い順に並べ
る）、上位 40％が、実際に不履行がある全
ケースの約 88%を含むと期待できることを
示しています。対角線はベースラインと呼
ばれ、40%のケースを取り出せば、実際に
不履行がある全ケースの 40%が「あり、もし
くは、なし」であるという基準ラインを示して
おり、これはある意味、予測モデルを使わ
なくても予想することができるレベルのライ
ンです。ベースラインから上にあればあるほど、ゲインが大きくなり、確度の高い予測ができていることになります。
右のリフトグラフは、累積ゲイングラフから導き出すことができます。リフト値は累積ゲイン値のベースラインに対する比率に
対応している指標です。例えば、緑ラインの不履
行「あり」の 40%におけるリフトは、88%/40%（40%に
おけるゲイン 88％÷40%におけるベースライン
40%）＝2.2 になります。累積ゲイングラフの情報を
別の視点で見ることができます。

11/12
今回は銀行与信予測の例をご紹介いたしましたが、ニューラルネットワークの手法は様々な予測に使われています。
ニューラルネットワーク活用例
?商品需要予測：ニューラルネットワークを利用した商品需要予測の最適化
?商品開発：調味料の開発にニューラルネットワークを適用、缶コーヒーのにおいの官能評価
?エレベーター運転方式制御：エレベーターの最適スケジューリング制御
?自然言語処理：ニューラルネットワークによる学習を用いた自然言語の処理
?手書き数字の認識：ニューラルネットワークによる手書き数字認識システム
?顔画像認識：目、口、鼻のカテゴリを形成してニューラルネットワークで顔を認識
このようにデータを学習用、検証用に分け、人工知能を使った高度なデータマイニング手法を使いデータ予測分析を可能に
するのが、IBM SPSS Neural Networks です。
是非、現在行っていらっしゃる予測分析手法の１つに加えてみてください。

12/12
? IBM Corporation 2017. All Rights Reserved.
ワークショップ、セッション、および資料は、IBM またはセッション発表者によって準備され、それぞれ独自の見解を反映した
ものです。それらは情報提供の目的のみで提供されており、いかなる参加者に対しても法律的またはその他の指導や助言
を意図したものではなく、またそのような結果を生むものでもありません。本講演資料に含まれている情報については、完
全性と正確性を期するよう努力しましたが、「現状のまま」提供され、明示または暗示にかかわらずいかなる保証も伴わな
いものとします。本講演資料またはその他の資料の使用によって、あるいはその他の関連によって、いかなる損害が生じた
場合も、IBM は責任を負わないものとします。本講演資料に含まれている内容は、IBM またはそのサプライヤーやライセン
ス交付者からいかなる保証または表明を引きだすことを意図したものでも、IBM ソフトウェアの使用を規定する適用ライセン
ス契約の条項を変更することを意図したものでもなく、またそのような結果を生むものでもありません。
本講演資料で IBM 製品、プログラム、またはサービスに言及していても、IBM が営業活動を行っているすべての国でそれら
が使用可能であることを暗示するものではありません。本講演資料で言及している製品リリース日付や製品機能は、市場
機会またはその他の要因に基づいて IBM 独自の決定権をもっていつでも変更できるものとし、いかなる方法においても将
来の製品または機能が使用可能になると確約することを意図したものではありません。本講演資料に含まれている内容は、
参加者が開始する活動によって特定の販売、売上高の向上、またはその他の結果が生じると述べる、または暗示すること
を意図したものでも、またそのような結果を生むものでもありません。パフォーマンスは、管理された環境において標準的
な IBM ベンチマークを使用した測定と予測に基づいています。ユーザーが経験する実際のスループットやパフォーマンスは、
ユーザーのジョブ?ストリームにおけるマルチプログラミングの量、入出力構成、ストレージ構成、および処理されるワークロ
ードなどの考慮事項を含む、数多くの要因に応じて変化します。したがって、個々のユーザーがここで述べられているものと
同様の結果を得られると確約するものではありません。
記述されているすべてのお客様事例は、それらのお客様がどのように IBM 製品を使用したか、またそれらのお客様が達成
した結果の実例として示されたものです。実際の環境コストおよびパフォーマンス特性は、お客様ごとに異なる場合があり
ます。
IBM、IBM ロゴ、ibm.com、SmarterPlanet アイコンは、世界の多くの国で登録された International Business Machines
Corporation の商標です。他の製品名およびサービス名等は、それぞれ IBM または各社の商標である場合があります。
現時点での IBM の商標リストについては、www.ibm.com/legal/copytrade.shtml をご覧ください。
Microsoft, Windows, Windows NT および Windows ロゴは Microsoft Corporation の米国およびその他の国における商標で
す。

狠狠撸

银行の融资业务における人工知能を利用したデータマイニング活用例

Recommended

More Related Content

More from IBM Analytics Japan (20)

银行の融资业务における人工知能を利用したデータマイニング活用例