ݺߣ della mia tesi specialistica, dicembre 2009. Applicazione della Survival Analysis al contesto del Web e analisi dei log.
1 of 23
Download to read offline
More Related Content
Modelli di Durata: un'analisi sull'utilizzo del portale Web dell'Università della Calabria
1. 1
Università degli Studi della Calabria
Facoltà di Economia
Corso di Laurea in Statistica e Informatica per le Aziende
Tesi di Laurea
Modelli di Durata:
un’analisi sull’utilizzo
del portale Web
dell’Università della Calabria
Relatori
Prof. Filippo Domma
Dott. Ing. Alfredo Garro
Candidato
Nicola Procopio
Matricola 122416
Anno Accademico 2008/2009
2. ObiettiviObiettivi
• Studiare le abitudini e i comportamenti degli utenti del Portale di Ateneo;
• Valutare l’adattabilità del pacchetto mixPHM nel condurre analisi su siti
Web che hanno funzione diversa dall’e – commerce;
• Valutare un possibile utilizzo futuro da parte dell’Area Informatica e
Telematica.
2
3. Studio PreliminareStudio Preliminare
• Modelli di durata
• Tecniche ed Algoritmi di Data Mining
• Dominio Applicativo
• Pacchetti “survival”, “cluster”, “mixPHM” per l’ambiente R
3
4. Modelli di DurataModelli di Durata
4
Un modello di durata fornisce la rappresentazione della lunghezza dell’intervallo di
tempo necessario affinchè alcuni fenomeni passino da uno stato ad un altro.
Gli stati vengono generalmente definiti dai valori assunti da una variabile
qualitativa durante il periodo d’osservazione.
5. 5
CENSURA
Intervallo temporale compreso tra un istante d’origine t0 ed il momento ti in cui si
realizza l’evento.
T = ti – t0
I dati di durata presentano una caratteristica specifica che li rendono differenti da tutti
gli altri dati, questa denominata censura.
DURATA
Modelli di DurataModelli di Durata
t0 = inizio periodo osservazione L = fine periodo osservazione Verificarsi dell’evento
T = L– t0
6. Modelli Parametrici: Weibull
La distribuzione di Weibull [Weibull W. (1951)] è forse la più usata nelle
analisi di sopravvivenza, in tutti i campi in cui questa è stata utilizzata,
soprattutto nell’ingegneria e nelle scienze biomediche.
L’hazard della Weibull si presenta nella seguente forma
dove λ>0 e β>0 sono i parametri. Essa include la distribuzione
esponenziale, quando β=1.
Riportiamo ora la funzione di densità e quella di sopravvivenza della
distribuzione
6
Modelli di DurataModelli di Durata
7. L’hazard della Weibull ha tre andamenti, uno costante(esponenziale), e due
monotoni crescente e decrescente, a governare l’andamento dell’hazard è il
parametro β.
7
Diversi andamenti dell’Hazard Function di una Weibull
Modelli di DurataModelli di Durata
8. Data MiningData Mining
8
Il data mining si pone come processo di estrazione della conoscenza da
una grande mole di dati.
Le tre discipline scientifiche che determinano l’evoluzione del data
mining sono:
• l’informatica;
• la statistica metodologica;
• le discipline economico – aziendali, specialmente nell’ambito del
marketing.
Il Web mining è figlio del data mining, è la sua applicazione Web.
9. Data Mining:Data Mining:
Knowledge Discovery in DatabaseKnowledge Discovery in Database
(KDD)(KDD)
9
Knowledge discovery in database (KDD) è una procedura interattiva, iterativa che
cerca di estrarre dai dati informazioni implicite, sconosciute a priori e
potenzialmente utili.
10. Contesto applicativo:Contesto applicativo:
Il portale Web dell’Università dellaIl portale Web dell’Università della
CalabriaCalabria
10
Grazie alla collaborazione dell’Area Informatica e Telematica abbiamo
ottenuto l’accesso ai dati riguardanti le connessioni al sito www.unical.it,
questi sono stati usati per costruire il campione sul quale è stata
condotta la ricerca.
L’evento oggetto di studio è la connessione, rappresentata di seguito in
forma grafica.
I dati ci sono stati forniti in formato Log.
12. Il processo di creazione deiIl processo di creazione dei
dati targetdati target
12
13. Analisi mediante l’ambienteAnalisi mediante l’ambiente
statistico Rstatistico R
Il pacchetto mixPHM creato da Mair P., Hudec M. (2009) produce misture a
variabili multiple di diversi modelli parametrici ad hazard proporzionale.
Nell’utilizzo di questo pacchetto supponiamo che la distribuzione delle durate sia
una Weibull.
13
Il pacchetto mixPHM
14. 14
Costruzione del
dataset in
formato leggibile
da mixPHM
Operazioni
preliminari su R
Calcolo del BIC
Definizione dei gruppi di
utenti in base alla
permanenza media sulla
pagina
Cluster Analysis
Survival Analysis
Analisi mediante l’ambienteAnalisi mediante l’ambiente
statistico Rstatistico R
15. Calcolo del BIC
In statistica, il Bayesian Information Criterion (BIC), o Schwarz Criterion è un criterio di selezione del
modello tra una classe di modelli parametrici con differente numero di parametri. La scelta del
modello che ottimizza il BIC è una forma di regolarizzazione.
La formula del BIC è
method K=2 K=3 K=4 K=5 K=6
separate 5428.964 5162.935 5084.469 5091.248 4872.499
15
Analisi mediante l’ambienteAnalisi mediante l’ambiente
statistico Rstatistico R
16. Ricerca Dipartime
nti
Finanziam
enti
Progetti Dottorati CNR
Cluster1 645.12847
22
2200.8622
22
55.123809
52
122.17142
9
3.251852 106.00833
33
Cluster2 65.850000
0
1.223005 0.0666666
7
3.100000 3841.1666
67
244.38333
33
Cluster3 1241.3196
970
2945.4075
76
46.787500
00
67.818182 865.03939
4
144.90333
33
Cluster4 0.5429348 1.256970 36.391666
67
1.427778 26.789583 4.3916667
Cluster5 103.35075
76
1.902273 0.6924242
4
7.903030 12.451389 9.8000000
Cluster6 26.760476
2
83.080476 6.0583333
3
15.456667 8.714583 0.7277778
Matrice della durate medie trimestrali di permanenza (in minuti) sulle diverse pagine per i diversi cluster.
16
Definizione dei Cluster secondo la permanenza media sulla pagina
Analisi mediante l’ambienteAnalisi mediante l’ambiente
statistico Rstatistico R
20. Evento = Rischio di lasciare la
pagina
Hazard function per pagine Funzione di sopravvivenza per pagine
20
Survival Analysis
Analisi mediante l’ambienteAnalisi mediante l’ambiente
statistico Rstatistico R
21. 21
Survival Analysis: Funzione di Sopravvivenza per i gruppi
Analisi mediante l’ambienteAnalisi mediante l’ambiente
statistico Rstatistico R
22. 22
Survival Analysis: Hazard Function per i gruppi
Analisi mediante l’ambienteAnalisi mediante l’ambiente
statistico Rstatistico R
23. ConclusioniConclusioni
Comportamenti degli utenti
Incrociando i risultati della Cluster Analysis e dei Modelli di Durata si può notare che i gruppi composti da utenti interni
all’Università si connettono spesso “a vuoto”, ovvero la connessione avviene non per un bisogno o una ricerca precisa, e ciò è
evidenziato dalla permanenza sull’Home Page dell’area.
Il comportamento degli interessati durante la navigazione si distingue per la rapida discesa a zero dell’hazard nella parte
iniziale della connessione, ciò si verifica perché c’è una grande dimestichezza col portale quindi la navigazione è molto rapida
nella pagine che non interessano e raggiunto l’obiettivo della ricerca vi si soffermano per lungo tempo.
Adattabilità del pacchetto mixPHM
Il pacchetto mixPHM (2009) e i modelli che utilizza sono stati finora applicati sui siti di e – commerce.
Possiamo affermare che con l’integrazione tra le tecniche di data mining, in particolare la Cluster Analysis, e i modelli di
durata sono stati superati i problemi riguardanti l’etichettatura dei cluster formati mediante l’algoritmo EM, quindi mixPHM
può essere adottato per l’analisi di qualsiasi sito Web senza grandi difficoltà.
L’utilizzo di R per l’analisi è una scelta azzeccata perché in pochi minuti è stato costruito il modello, inoltre un’ottima
interfaccia grafica permette di spiegare facilmente i risultati che possono essere capiti anche da chi non è pratico della
metodologia.
Possibili utilizzi futuri
L’applicazione sviluppata nella tesi può essere interessante anche per l’Area Informatica e Telematica soprattutto alla luce
delle nuove normative in materia universitaria che premiano gli Atenei virtuosi, perché, con alcuni naturali adattamenti da
parte dei curatori del portale, mediante i modelli di durata può essere eseguita un’analisi della qualità dello stesso in maniera
molto rapida e precisa. Inoltre, studiando le abitudini degli utenti si può arrivare all’individuazione delle aree che forniscono
un servizio di alta qualità e aree che vanno curate per mantenere e migliorare l’ottimo stato di salute in cui al momento si
trova il Portale dell’Università della Calabria.
23