ݺߣ

ݺߣShare a Scribd company logo
Valutazione delle
                       Capacità Predittive
                                di un
            Fraud Management System



                                                 Marco Scattareggia


September, 13th 2011        Marco Scattareggia
Architettura di un FMS


                                                       Blacklists
                                                       Velocity & collision
                                                       High risk destinations
                                                       Unknown/ unauthorized/
                                                        suspended subscriber
                                                       Thresholds & profiling
                                                       Cross dimensions
                                                       Patterns
                                                       Stuffing
                                                       Prepaid scams (balance,
                                                              odd recharges)
                                                       Split packages
                                                       Automatic dialer
                                                       SIM gateway
                                                       NRTRDE - TAP IN, HUR
                                                       Etc.




                                                                        2
September, 13th 2011           Marco Scattareggia
Benchmarking



                            Chi è il migliore?
                            Perché?
                            Cosa fare per migliorare?
                            Come innescare un
                             Circolo Virtuoso ?




                                                         3
September, 13th 2011      Marco Scattareggia
Best Practice


      1. Riconoscimento e Consapevolezza del problema
      2. Adeguamento dell’Organizzazione
      3. Avviamento delle procedure di Prevenzione

      4. Adeguamento delle infrastrutture e delle tecnologie
         per l’Individuazione ed il Contrasto delle frodi.

      5. Collaborazione con gli altri Operatori, le Associazioni
         di Categoria, le Istituzioni Pubbliche ed i Fornitori.
      6. Innovazione continua




                                                                   4
September, 13th 2011        Marco Scattareggia
Statistica Descrittiva
                                                Ha l’obiettivo di ricavare da un insieme di
                                                dati raccolti in tabelle e grafici (troppo
  Minimo, Massimo e Range                       numerosi per poter essere esaminati sin-
    Media, Mediana e Moda                       golarmente) alcune informazioni signifi-
Varianza e Deviazione Standard                  cative per il problema studiato.




                                               Distribuzione Gaussiana della probabilità
  Frequenza




                         Non Frode                    Frode




                                                       Valore misurato
              Fattori di Skewness e Kurtosis
                                                                                      5
       September, 13th 2011             Marco Scattareggia
Fattore di sbilanciamento asimmetrico
                                            Skewness Factor

                              Frode
                  Frequenza

                                      FN                TP
                                                  Skew
                                                 Negativa
                                                                 Valore misurato

                              Not Fraud
                              Non Frode                         Soglia
                  Frequenza




                                           TN      FP

                               Skew Positiva
                                                                 Valore misurato

September, 13th 2011                       Marco Scattareggia
Fattore Curtosi sulla concentrazione




                                                               Frequenza
                                                                           Kurtosis Factor

              Kurtosis Factor
Frequenza




                                     Frode


                   FN                            TP                                   Valore misurato

                                           Valore misurato




            Non Frode
Frequenza




              TN                      FP

                                           Valore misurato
              September, 13th 2011                Marco Scattareggia
Statistica Inferenziale (Induttiva)

Laplace stabilì le regole per un ragionamento
matematico induttivo, basato sulla probabilità, che oggi
chiamiamo Bayesiano e avviò la Statistica Inferenziale




                          L’obiettivo della statistica inferenziale è fornire metodi che
                          servono ad imparare dall'esperienza, cioè a costruire
                          modelli per passare da casi particolari al caso generale.
                          Nella statistica inferenziale o induttiva, si usano tecniche
                          del calcolo delle probabilità.


                                                                                    8
   September, 13th 2011              Marco Scattareggia
Teorema di Bayes per la Probabilità delle Cause
Utilizza la “probabilità condizionata” e risponde alla domanda: “Sapendo che si è verificato l’effetto
B, qual è la probabilità che la causa sia A ?” Fornisce la probabilità della causa dato l’effetto.


                                           Tabella di Contingenza

                                Acquista       Non Acquista Probabilità Marginale
         Sesso        S            A               NA

         Uomo         U           0,40              0,30                   0,70
         Donna        D           0,10              0,20                   0,30

         Prob.Marginale           0,50              0,50                   1,00



        Probabilità Congiunta            Probabilità Marginale                   Probabilità Marginale
            P(SD  A)                P(A) = P(SU  A) + P(SD  A)          P(SU) = P(SU  A) + P(SU  NA)
                                           Causa

     Probabilità Condizionante                                        Teorema di Bayes

            P(A  SU) 0,40                                         P(ASU) x P(SU) 0,40
   P(ASU) =  =  = 0,57                          P(SUA) =  =  = 0,80
             P(SU)    0,70                                            P(ASi) x P(Si)    0,50

                                              Effetto                                                9
        September, 13th 2011                    Marco Scattareggia
Predictive Analytics
                         Business
                       understanding               Data
                                               understanding


     Model
                                                                  Data
   Refreshing
                                                               preparation


                                       Analysis
         Score                         Database
       Monitoring                                               Score
                                                               Modeling


               Model
             Deployment                         Model
                                              Evaluation
                                                                             10
September, 13th 2011                   Marco Scattareggia
Key Performance Indicator



                           KPI        SMART
Specific                specifici, chiari, non ambigui
Measurable              misurabili in modo pratico e oggettivo

Attainable              sfidanti ma realistici

Relevant                significativi per il business dell’operatore
Time bound              verificabili su periodi di tempo prestabiliti




                                                                        11
 September, 13th 2011            Marco Scattareggia
KPI di Base per un FMS

                            Matrice di Confusione
                                    Frode                         Non-Frode

Casi previsti come True Positive                              False Positive
      Frode          TP = True Positive/p                      FP = False Positive/n


Casi previsti come False Negative          True Negative
    Non-Frode       FN = False Negative /p TN = True Negative/n


                           Total Positive = p                 Total Negative = n
   Casi Totali
                                  TP + FN = 1                        FP + TN = 1


                                                                                   12
    September, 13th 2011                 Marco Scattareggia
Distribuzione delle Frodi




                                                 13
September, 13th 2011        Marco Scattareggia
KPI utili per misurare le Capacità Predittive
   p = total Frauds
   True Positive rate = True Positive / p = TP = 1 - FN
   False Negative rate = False Negative / p = FN = 1 - TP

   n = total Not Frauds
   False Positive rate = False Positive / n = FP = 1 - TN
   True Negative rate = True Negative / n = TN = 1 - FP

   Accuracy = “Total correctly classified” / “Total cases” = (TP+TN) / (p + n)
   Misclassification-Rate = "Total not correctly classified" / "Total cases" = (FN+FP) / (p + n)

   Precision = True Positive / (True Positive + False Positive)
   Recall    = True Positive / p = True Positive rate

   Hit Rate 1 = Precision
   Hit Rate 2 = Recall

   Sensitivity            = True Positive rate = Recall
   Specificity            = True Negative rate

   1 – Specificity        = False Positive rate


                                                                                         14
    September, 13th 2011                      Marco Scattareggia
Visualizzazione in forma grafica dei KPI (1/2)
     All the cases presented are fraud
 (TP=100%, FP=0%), but 50% of fraud are                     Only 37% of the cases analyzed are
       missed (TN=50%, FN=50%).                            fraud (TP=37%, FP=63%), but analyst
                                                              have seen 100% of fraud cases
                                                                   (TN=100%, FN=0%).




                                                          • Precision = TP / (TP+FP) = % di
                                                            TP presentati all’analista sul totale
                                                            dei Casi.

                                                          • Recall = TP / (TP+FN) = % di TP
                                                            individuati dal sistema sul totale dei
                                                            casi realmente esistenti.



                                                                                                 15
 September, 13th 2011                     Marco Scattareggia
Visualizzazione in forma grafica dei KPI (2/2)




                                     • Sensitivity = TP , % di Frodi
                                       presentate come frodi.

                                     • 1-Specificity = FP, % di Non-Frodi
                                       presentate come frodi.


                                     • Specificity = TN, % di Non-Frodi
                                       presentate come non frodi.




                                                                       16
 September, 13th 2011   Marco Scattareggia
Analisi delle
                                            curve ROC
                                            e della AUC




September, 13th 2011   Marco Scattareggia
Grazie !


                  marco.scattareggia@hp.com



September, 13th 2011      Marco Scattareggia

More Related Content

Valutazione Delle Capacità Predittive di un FMS

  • 1. Valutazione delle Capacità Predittive di un Fraud Management System Marco Scattareggia September, 13th 2011 Marco Scattareggia
  • 2. Architettura di un FMS  Blacklists  Velocity & collision  High risk destinations  Unknown/ unauthorized/ suspended subscriber  Thresholds & profiling  Cross dimensions  Patterns  Stuffing  Prepaid scams (balance, odd recharges)  Split packages  Automatic dialer  SIM gateway  NRTRDE - TAP IN, HUR  Etc. 2 September, 13th 2011 Marco Scattareggia
  • 3. Benchmarking  Chi è il migliore?  Perché?  Cosa fare per migliorare?  Come innescare un Circolo Virtuoso ? 3 September, 13th 2011 Marco Scattareggia
  • 4. Best Practice 1. Riconoscimento e Consapevolezza del problema 2. Adeguamento dell’Organizzazione 3. Avviamento delle procedure di Prevenzione 4. Adeguamento delle infrastrutture e delle tecnologie per l’Individuazione ed il Contrasto delle frodi. 5. Collaborazione con gli altri Operatori, le Associazioni di Categoria, le Istituzioni Pubbliche ed i Fornitori. 6. Innovazione continua 4 September, 13th 2011 Marco Scattareggia
  • 5. Statistica Descrittiva Ha l’obiettivo di ricavare da un insieme di dati raccolti in tabelle e grafici (troppo Minimo, Massimo e Range numerosi per poter essere esaminati sin- Media, Mediana e Moda golarmente) alcune informazioni signifi- Varianza e Deviazione Standard cative per il problema studiato. Distribuzione Gaussiana della probabilità Frequenza Non Frode Frode Valore misurato Fattori di Skewness e Kurtosis 5 September, 13th 2011 Marco Scattareggia
  • 6. Fattore di sbilanciamento asimmetrico Skewness Factor Frode Frequenza FN TP Skew Negativa Valore misurato Not Fraud Non Frode Soglia Frequenza TN FP Skew Positiva Valore misurato September, 13th 2011 Marco Scattareggia
  • 7. Fattore Curtosi sulla concentrazione Frequenza Kurtosis Factor Kurtosis Factor Frequenza Frode FN TP Valore misurato Valore misurato Non Frode Frequenza TN FP Valore misurato September, 13th 2011 Marco Scattareggia
  • 8. Statistica Inferenziale (Induttiva) Laplace stabilì le regole per un ragionamento matematico induttivo, basato sulla probabilità, che oggi chiamiamo Bayesiano e avviò la Statistica Inferenziale L’obiettivo della statistica inferenziale è fornire metodi che servono ad imparare dall'esperienza, cioè a costruire modelli per passare da casi particolari al caso generale. Nella statistica inferenziale o induttiva, si usano tecniche del calcolo delle probabilità. 8 September, 13th 2011 Marco Scattareggia
  • 9. Teorema di Bayes per la Probabilità delle Cause Utilizza la “probabilità condizionata” e risponde alla domanda: “Sapendo che si è verificato l’effetto B, qual è la probabilità che la causa sia A ?” Fornisce la probabilità della causa dato l’effetto. Tabella di Contingenza Acquista Non Acquista Probabilità Marginale Sesso S A NA Uomo U 0,40 0,30 0,70 Donna D 0,10 0,20 0,30 Prob.Marginale 0,50 0,50 1,00 Probabilità Congiunta Probabilità Marginale Probabilità Marginale P(SD  A) P(A) = P(SU  A) + P(SD  A) P(SU) = P(SU  A) + P(SU  NA) Causa Probabilità Condizionante Teorema di Bayes P(A  SU) 0,40 P(ASU) x P(SU) 0,40 P(ASU) =  =  = 0,57 P(SUA) =  =  = 0,80 P(SU) 0,70  P(ASi) x P(Si) 0,50 Effetto 9 September, 13th 2011 Marco Scattareggia
  • 10. Predictive Analytics Business understanding Data understanding Model Data Refreshing preparation Analysis Score Database Monitoring Score Modeling Model Deployment Model Evaluation 10 September, 13th 2011 Marco Scattareggia
  • 11. Key Performance Indicator KPI SMART Specific specifici, chiari, non ambigui Measurable misurabili in modo pratico e oggettivo Attainable sfidanti ma realistici Relevant significativi per il business dell’operatore Time bound verificabili su periodi di tempo prestabiliti 11 September, 13th 2011 Marco Scattareggia
  • 12. KPI di Base per un FMS Matrice di Confusione Frode Non-Frode Casi previsti come True Positive False Positive Frode TP = True Positive/p FP = False Positive/n Casi previsti come False Negative True Negative Non-Frode FN = False Negative /p TN = True Negative/n Total Positive = p Total Negative = n Casi Totali TP + FN = 1 FP + TN = 1 12 September, 13th 2011 Marco Scattareggia
  • 13. Distribuzione delle Frodi 13 September, 13th 2011 Marco Scattareggia
  • 14. KPI utili per misurare le Capacità Predittive  p = total Frauds  True Positive rate = True Positive / p = TP = 1 - FN  False Negative rate = False Negative / p = FN = 1 - TP  n = total Not Frauds  False Positive rate = False Positive / n = FP = 1 - TN  True Negative rate = True Negative / n = TN = 1 - FP  Accuracy = “Total correctly classified” / “Total cases” = (TP+TN) / (p + n)  Misclassification-Rate = "Total not correctly classified" / "Total cases" = (FN+FP) / (p + n)  Precision = True Positive / (True Positive + False Positive)  Recall = True Positive / p = True Positive rate  Hit Rate 1 = Precision  Hit Rate 2 = Recall  Sensitivity = True Positive rate = Recall  Specificity = True Negative rate  1 – Specificity = False Positive rate 14 September, 13th 2011 Marco Scattareggia
  • 15. Visualizzazione in forma grafica dei KPI (1/2) All the cases presented are fraud (TP=100%, FP=0%), but 50% of fraud are Only 37% of the cases analyzed are missed (TN=50%, FN=50%). fraud (TP=37%, FP=63%), but analyst have seen 100% of fraud cases (TN=100%, FN=0%). • Precision = TP / (TP+FP) = % di TP presentati all’analista sul totale dei Casi. • Recall = TP / (TP+FN) = % di TP individuati dal sistema sul totale dei casi realmente esistenti. 15 September, 13th 2011 Marco Scattareggia
  • 16. Visualizzazione in forma grafica dei KPI (2/2) • Sensitivity = TP , % di Frodi presentate come frodi. • 1-Specificity = FP, % di Non-Frodi presentate come frodi. • Specificity = TN, % di Non-Frodi presentate come non frodi. 16 September, 13th 2011 Marco Scattareggia
  • 17. Analisi delle curve ROC e della AUC September, 13th 2011 Marco Scattareggia
  • 18. Grazie ! marco.scattareggia@hp.com September, 13th 2011 Marco Scattareggia