ݺߣ

ݺߣShare a Scribd company logo
1
Università degli Studi della Calabria
Facoltà di Economia 
 
Corso di Laurea in Statistica e Informatica per le Aziende
 
Tesi di Laurea
 
Modelli di Durata:
un’analisi sull’utilizzo
del portale Web
dell’Università della Calabria
Relatori
Prof. Filippo Domma
Dott. Ing. Alfredo Garro
Candidato
Nicola Procopio
Matricola 122416
Anno Accademico 2008/2009
ObiettiviObiettivi
• Studiare le abitudini e i comportamenti degli utenti del Portale di Ateneo;
• Valutare l’adattabilità del pacchetto mixPHM nel condurre analisi su siti
Web che hanno funzione diversa dall’e – commerce;
• Valutare un possibile utilizzo futuro da parte dell’Area Informatica e
Telematica.
2
Studio PreliminareStudio Preliminare
• Modelli di durata
• Tecniche ed Algoritmi di Data Mining
• Dominio Applicativo
• Pacchetti “survival”, “cluster”, “mixPHM” per l’ambiente R
3
Modelli di DurataModelli di Durata
4
Un modello di durata fornisce la rappresentazione della lunghezza dell’intervallo di
tempo necessario affinchè alcuni fenomeni passino da uno stato ad un altro.
Gli stati vengono generalmente definiti dai valori assunti da una variabile
qualitativa durante il periodo d’osservazione.
5
CENSURA
Intervallo temporale compreso tra un istante d’origine t0 ed il momento ti in cui si
realizza l’evento.
T = ti – t0
I dati di durata presentano una caratteristica specifica che li rendono differenti da tutti
gli altri dati, questa denominata censura.
DURATA
Modelli di DurataModelli di Durata
t0 = inizio periodo osservazione L = fine periodo osservazione Verificarsi dell’evento
T = L– t0
Modelli Parametrici: Weibull
La distribuzione di Weibull [Weibull W. (1951)] è forse la più usata nelle
analisi di sopravvivenza, in tutti i campi in cui questa è stata utilizzata,
soprattutto nell’ingegneria e nelle scienze biomediche.
L’hazard della Weibull si presenta nella seguente forma
dove λ>0 e β>0 sono i parametri. Essa include la distribuzione
esponenziale, quando β=1.
Riportiamo ora la funzione di densità e quella di sopravvivenza della
distribuzione
6
Modelli di DurataModelli di Durata
L’hazard della Weibull ha tre andamenti, uno costante(esponenziale), e due
monotoni crescente e decrescente, a governare l’andamento dell’hazard è il
parametro β.
7
Diversi andamenti dell’Hazard Function di una Weibull
Modelli di DurataModelli di Durata
Data MiningData Mining
8
Il data mining si pone come processo di estrazione della conoscenza da
una grande mole di dati.
Le tre discipline scientifiche che determinano l’evoluzione del data
mining sono:
• l’informatica;
• la statistica metodologica;
• le discipline economico – aziendali, specialmente nell’ambito del
marketing.
Il Web mining è figlio del data mining, è la sua applicazione Web.
Data Mining:Data Mining:
Knowledge Discovery in DatabaseKnowledge Discovery in Database
(KDD)(KDD)
9
Knowledge discovery in database (KDD) è una procedura interattiva, iterativa che
cerca di estrarre dai dati informazioni implicite, sconosciute a priori e
potenzialmente utili.
Contesto applicativo:Contesto applicativo:
Il portale Web dell’Università dellaIl portale Web dell’Università della
CalabriaCalabria
10
Grazie alla collaborazione dell’Area Informatica e Telematica abbiamo
ottenuto l’accesso ai dati riguardanti le connessioni al sito www.unical.it,
questi sono stati usati per costruire il campione sul quale è stata
condotta la ricerca.
L’evento oggetto di studio è la connessione, rappresentata di seguito in
forma grafica.
I dati ci sono stati forniti in formato Log.
Struttura del PortaleStruttura del Portale
11
Il processo di creazione deiIl processo di creazione dei
dati targetdati target
12
Analisi mediante l’ambienteAnalisi mediante l’ambiente
statistico Rstatistico R
Il pacchetto mixPHM creato da Mair P., Hudec M. (2009) produce misture a
variabili multiple di diversi modelli parametrici ad hazard proporzionale.
Nell’utilizzo di questo pacchetto supponiamo che la distribuzione delle durate sia
una Weibull.
13
Il pacchetto mixPHM
14
Costruzione del
dataset in
formato leggibile
da mixPHM
Operazioni
preliminari su R
Calcolo del BIC
Definizione dei gruppi di
utenti in base alla
permanenza media sulla
pagina
Cluster Analysis
Survival Analysis
Analisi mediante l’ambienteAnalisi mediante l’ambiente
statistico Rstatistico R
Calcolo del BIC
In statistica, il Bayesian Information Criterion (BIC), o Schwarz Criterion è un criterio di selezione del
modello tra una classe di modelli parametrici con differente numero di parametri. La scelta del
modello che ottimizza il BIC è una forma di regolarizzazione.
La formula del BIC è
method K=2 K=3 K=4 K=5 K=6
separate 5428.964 5162.935 5084.469 5091.248 4872.499
15
Analisi mediante l’ambienteAnalisi mediante l’ambiente
statistico Rstatistico R
Ricerca Dipartime
nti
Finanziam
enti
Progetti Dottorati CNR
Cluster1 645.12847
22
2200.8622
22
55.123809
52
122.17142
9
3.251852 106.00833
33
Cluster2 65.850000
0
1.223005 0.0666666
7
3.100000 3841.1666
67
244.38333
33
Cluster3 1241.3196
970
2945.4075
76
46.787500
00
67.818182 865.03939
4
144.90333
33
Cluster4 0.5429348 1.256970 36.391666
67
1.427778 26.789583 4.3916667
Cluster5 103.35075
76
1.902273 0.6924242
4
7.903030 12.451389 9.8000000
Cluster6 26.760476
2
83.080476 6.0583333
3
15.456667 8.714583 0.7277778
Matrice della durate medie trimestrali di permanenza (in minuti) sulle diverse pagine per i diversi cluster.
16
Definizione dei Cluster secondo la permanenza media sulla pagina
Analisi mediante l’ambienteAnalisi mediante l’ambiente
statistico Rstatistico R
17
Analisi mediante l’ambienteAnalisi mediante l’ambiente
statistico Rstatistico R
Durata Notturni Interni Privati Size AVG
Silhouette
ClusterA 23.8166667 0 1 0 231 0.5721736
ClusterB 0.1833333 0 1 0 4394 0.9466942
ClusterC 150.266666
7
0 0 1 143 0.6205031
ClusterD 60.0000000 0 1 0 132 0.3796135
ClusterE 226.200000
0
0 0 0 61 0.0000000
ClusterF 81.3500000 0 1 0 136 0.3807220
AVG Silhouette Totale = 0.8263762
Nero:Privati
Azzurro: Poco Interessati 2 – Interni
Blu: Disinteressati
Rosa: Poco Interessati 1 – Interni
Verde: Molto Interessati
Rosso: Dottorandi - Interni
18
Cluster Analysis
Analisi mediante l’ambienteAnalisi mediante l’ambiente
statistico Rstatistico R
19
Clusplot
Silhouette plot
Cluster Analysis
Analisi mediante l’ambienteAnalisi mediante l’ambiente
statistico Rstatistico R
Evento = Rischio di lasciare la
pagina
Hazard function per pagine Funzione di sopravvivenza per pagine
20
Survival Analysis
Analisi mediante l’ambienteAnalisi mediante l’ambiente
statistico Rstatistico R
21
Survival Analysis: Funzione di Sopravvivenza per i gruppi
Analisi mediante l’ambienteAnalisi mediante l’ambiente
statistico Rstatistico R
22
Survival Analysis: Hazard Function per i gruppi
Analisi mediante l’ambienteAnalisi mediante l’ambiente
statistico Rstatistico R
ConclusioniConclusioni
 Comportamenti degli utenti
Incrociando i risultati della Cluster Analysis e dei Modelli di Durata si può notare che i gruppi composti da utenti interni
all’Università si connettono spesso “a vuoto”, ovvero la connessione avviene non per un bisogno o una ricerca precisa, e ciò è
evidenziato dalla permanenza sull’Home Page dell’area.
Il comportamento degli interessati durante la navigazione si distingue per la rapida discesa a zero dell’hazard nella parte
iniziale della connessione, ciò si verifica perché c’è una grande dimestichezza col portale quindi la navigazione è molto rapida
nella pagine che non interessano e raggiunto l’obiettivo della ricerca vi si soffermano per lungo tempo.
 Adattabilità del pacchetto mixPHM
Il pacchetto mixPHM (2009) e i modelli che utilizza sono stati finora applicati sui siti di e – commerce.
Possiamo affermare che con l’integrazione tra le tecniche di data mining, in particolare la Cluster Analysis, e i modelli di
durata sono stati superati i problemi riguardanti l’etichettatura dei cluster formati mediante l’algoritmo EM, quindi mixPHM
può essere adottato per l’analisi di qualsiasi sito Web senza grandi difficoltà.
L’utilizzo di R per l’analisi è una scelta azzeccata perché in pochi minuti è stato costruito il modello, inoltre un’ottima
interfaccia grafica permette di spiegare facilmente i risultati che possono essere capiti anche da chi non è pratico della
metodologia.
 Possibili utilizzi futuri
L’applicazione sviluppata nella tesi può essere interessante anche per l’Area Informatica e Telematica soprattutto alla luce
delle nuove normative in materia universitaria che premiano gli Atenei virtuosi, perché, con alcuni naturali adattamenti da
parte dei curatori del portale, mediante i modelli di durata può essere eseguita un’analisi della qualità dello stesso in maniera
molto rapida e precisa. Inoltre, studiando le abitudini degli utenti si può arrivare all’individuazione delle aree che forniscono
un servizio di alta qualità e aree che vanno curate per mantenere e migliorare l’ottimo stato di salute in cui al momento si
trova il Portale dell’Università della Calabria.
23

More Related Content

Modelli di Durata: un'analisi sull'utilizzo del portale Web dell'Università della Calabria

  • 1. 1 Università degli Studi della Calabria Facoltà di Economia    Corso di Laurea in Statistica e Informatica per le Aziende   Tesi di Laurea   Modelli di Durata: un’analisi sull’utilizzo del portale Web dell’Università della Calabria Relatori Prof. Filippo Domma Dott. Ing. Alfredo Garro Candidato Nicola Procopio Matricola 122416 Anno Accademico 2008/2009
  • 2. ObiettiviObiettivi • Studiare le abitudini e i comportamenti degli utenti del Portale di Ateneo; • Valutare l’adattabilità del pacchetto mixPHM nel condurre analisi su siti Web che hanno funzione diversa dall’e – commerce; • Valutare un possibile utilizzo futuro da parte dell’Area Informatica e Telematica. 2
  • 3. Studio PreliminareStudio Preliminare • Modelli di durata • Tecniche ed Algoritmi di Data Mining • Dominio Applicativo • Pacchetti “survival”, “cluster”, “mixPHM” per l’ambiente R 3
  • 4. Modelli di DurataModelli di Durata 4 Un modello di durata fornisce la rappresentazione della lunghezza dell’intervallo di tempo necessario affinchè alcuni fenomeni passino da uno stato ad un altro. Gli stati vengono generalmente definiti dai valori assunti da una variabile qualitativa durante il periodo d’osservazione.
  • 5. 5 CENSURA Intervallo temporale compreso tra un istante d’origine t0 ed il momento ti in cui si realizza l’evento. T = ti – t0 I dati di durata presentano una caratteristica specifica che li rendono differenti da tutti gli altri dati, questa denominata censura. DURATA Modelli di DurataModelli di Durata t0 = inizio periodo osservazione L = fine periodo osservazione Verificarsi dell’evento T = L– t0
  • 6. Modelli Parametrici: Weibull La distribuzione di Weibull [Weibull W. (1951)] è forse la più usata nelle analisi di sopravvivenza, in tutti i campi in cui questa è stata utilizzata, soprattutto nell’ingegneria e nelle scienze biomediche. L’hazard della Weibull si presenta nella seguente forma dove λ>0 e β>0 sono i parametri. Essa include la distribuzione esponenziale, quando β=1. Riportiamo ora la funzione di densità e quella di sopravvivenza della distribuzione 6 Modelli di DurataModelli di Durata
  • 7. L’hazard della Weibull ha tre andamenti, uno costante(esponenziale), e due monotoni crescente e decrescente, a governare l’andamento dell’hazard è il parametro β. 7 Diversi andamenti dell’Hazard Function di una Weibull Modelli di DurataModelli di Durata
  • 8. Data MiningData Mining 8 Il data mining si pone come processo di estrazione della conoscenza da una grande mole di dati. Le tre discipline scientifiche che determinano l’evoluzione del data mining sono: • l’informatica; • la statistica metodologica; • le discipline economico – aziendali, specialmente nell’ambito del marketing. Il Web mining è figlio del data mining, è la sua applicazione Web.
  • 9. Data Mining:Data Mining: Knowledge Discovery in DatabaseKnowledge Discovery in Database (KDD)(KDD) 9 Knowledge discovery in database (KDD) è una procedura interattiva, iterativa che cerca di estrarre dai dati informazioni implicite, sconosciute a priori e potenzialmente utili.
  • 10. Contesto applicativo:Contesto applicativo: Il portale Web dell’Università dellaIl portale Web dell’Università della CalabriaCalabria 10 Grazie alla collaborazione dell’Area Informatica e Telematica abbiamo ottenuto l’accesso ai dati riguardanti le connessioni al sito www.unical.it, questi sono stati usati per costruire il campione sul quale è stata condotta la ricerca. L’evento oggetto di studio è la connessione, rappresentata di seguito in forma grafica. I dati ci sono stati forniti in formato Log.
  • 12. Il processo di creazione deiIl processo di creazione dei dati targetdati target 12
  • 13. Analisi mediante l’ambienteAnalisi mediante l’ambiente statistico Rstatistico R Il pacchetto mixPHM creato da Mair P., Hudec M. (2009) produce misture a variabili multiple di diversi modelli parametrici ad hazard proporzionale. Nell’utilizzo di questo pacchetto supponiamo che la distribuzione delle durate sia una Weibull. 13 Il pacchetto mixPHM
  • 14. 14 Costruzione del dataset in formato leggibile da mixPHM Operazioni preliminari su R Calcolo del BIC Definizione dei gruppi di utenti in base alla permanenza media sulla pagina Cluster Analysis Survival Analysis Analisi mediante l’ambienteAnalisi mediante l’ambiente statistico Rstatistico R
  • 15. Calcolo del BIC In statistica, il Bayesian Information Criterion (BIC), o Schwarz Criterion è un criterio di selezione del modello tra una classe di modelli parametrici con differente numero di parametri. La scelta del modello che ottimizza il BIC è una forma di regolarizzazione. La formula del BIC è method K=2 K=3 K=4 K=5 K=6 separate 5428.964 5162.935 5084.469 5091.248 4872.499 15 Analisi mediante l’ambienteAnalisi mediante l’ambiente statistico Rstatistico R
  • 16. Ricerca Dipartime nti Finanziam enti Progetti Dottorati CNR Cluster1 645.12847 22 2200.8622 22 55.123809 52 122.17142 9 3.251852 106.00833 33 Cluster2 65.850000 0 1.223005 0.0666666 7 3.100000 3841.1666 67 244.38333 33 Cluster3 1241.3196 970 2945.4075 76 46.787500 00 67.818182 865.03939 4 144.90333 33 Cluster4 0.5429348 1.256970 36.391666 67 1.427778 26.789583 4.3916667 Cluster5 103.35075 76 1.902273 0.6924242 4 7.903030 12.451389 9.8000000 Cluster6 26.760476 2 83.080476 6.0583333 3 15.456667 8.714583 0.7277778 Matrice della durate medie trimestrali di permanenza (in minuti) sulle diverse pagine per i diversi cluster. 16 Definizione dei Cluster secondo la permanenza media sulla pagina Analisi mediante l’ambienteAnalisi mediante l’ambiente statistico Rstatistico R
  • 17. 17 Analisi mediante l’ambienteAnalisi mediante l’ambiente statistico Rstatistico R
  • 18. Durata Notturni Interni Privati Size AVG Silhouette ClusterA 23.8166667 0 1 0 231 0.5721736 ClusterB 0.1833333 0 1 0 4394 0.9466942 ClusterC 150.266666 7 0 0 1 143 0.6205031 ClusterD 60.0000000 0 1 0 132 0.3796135 ClusterE 226.200000 0 0 0 0 61 0.0000000 ClusterF 81.3500000 0 1 0 136 0.3807220 AVG Silhouette Totale = 0.8263762 Nero:Privati Azzurro: Poco Interessati 2 – Interni Blu: Disinteressati Rosa: Poco Interessati 1 – Interni Verde: Molto Interessati Rosso: Dottorandi - Interni 18 Cluster Analysis Analisi mediante l’ambienteAnalisi mediante l’ambiente statistico Rstatistico R
  • 19. 19 Clusplot Silhouette plot Cluster Analysis Analisi mediante l’ambienteAnalisi mediante l’ambiente statistico Rstatistico R
  • 20. Evento = Rischio di lasciare la pagina Hazard function per pagine Funzione di sopravvivenza per pagine 20 Survival Analysis Analisi mediante l’ambienteAnalisi mediante l’ambiente statistico Rstatistico R
  • 21. 21 Survival Analysis: Funzione di Sopravvivenza per i gruppi Analisi mediante l’ambienteAnalisi mediante l’ambiente statistico Rstatistico R
  • 22. 22 Survival Analysis: Hazard Function per i gruppi Analisi mediante l’ambienteAnalisi mediante l’ambiente statistico Rstatistico R
  • 23. ConclusioniConclusioni  Comportamenti degli utenti Incrociando i risultati della Cluster Analysis e dei Modelli di Durata si può notare che i gruppi composti da utenti interni all’Università si connettono spesso “a vuoto”, ovvero la connessione avviene non per un bisogno o una ricerca precisa, e ciò è evidenziato dalla permanenza sull’Home Page dell’area. Il comportamento degli interessati durante la navigazione si distingue per la rapida discesa a zero dell’hazard nella parte iniziale della connessione, ciò si verifica perché c’è una grande dimestichezza col portale quindi la navigazione è molto rapida nella pagine che non interessano e raggiunto l’obiettivo della ricerca vi si soffermano per lungo tempo.  Adattabilità del pacchetto mixPHM Il pacchetto mixPHM (2009) e i modelli che utilizza sono stati finora applicati sui siti di e – commerce. Possiamo affermare che con l’integrazione tra le tecniche di data mining, in particolare la Cluster Analysis, e i modelli di durata sono stati superati i problemi riguardanti l’etichettatura dei cluster formati mediante l’algoritmo EM, quindi mixPHM può essere adottato per l’analisi di qualsiasi sito Web senza grandi difficoltà. L’utilizzo di R per l’analisi è una scelta azzeccata perché in pochi minuti è stato costruito il modello, inoltre un’ottima interfaccia grafica permette di spiegare facilmente i risultati che possono essere capiti anche da chi non è pratico della metodologia.  Possibili utilizzi futuri L’applicazione sviluppata nella tesi può essere interessante anche per l’Area Informatica e Telematica soprattutto alla luce delle nuove normative in materia universitaria che premiano gli Atenei virtuosi, perché, con alcuni naturali adattamenti da parte dei curatori del portale, mediante i modelli di durata può essere eseguita un’analisi della qualità dello stesso in maniera molto rapida e precisa. Inoltre, studiando le abitudini degli utenti si può arrivare all’individuazione delle aree che forniscono un servizio di alta qualità e aree che vanno curate per mantenere e migliorare l’ottimo stato di salute in cui al momento si trova il Portale dell’Università della Calabria. 23