際際滷

際際滷Share a Scribd company logo
Fattorizzazioni matriciali non
negative per lanalisi dei dati
nellEducational Data Mining
Department of MathematicsDepartment of Mathematics
University of BariUniversity of BariNicoletta Del Buono
Gabriella Casalino
Ciro Castiello
Corrado Mencar
Introduzione
Analisi dei dati: attivit di ricerca ed estrazione
di informazioni da un dataset
Analisi dei dati: attivit di ricerca ed estrazione
di informazioni da un dataset
Problematiche:
 Inesattezza dei dati raccolti
 Interazione tra le variabili che caratterizzano i dati
 Informazioni ambigue e sovrapposte
Inadeguatezza nel trasmettere conoscenzaInadeguatezza nel trasmettere conoscenza
2
E-learning
Dati generati dallinterazione teaching-learning
 Punteggi riportati dagli studenti
 Risposte fornite ai questionari on-line
 Eventi negli Intelligent Tutoring Systems
I dati grezzi non sono in grado di trasmettere conoscenza
esplicita e diretta agli attori del sistema educazionale
I dati grezzi non sono in grado di trasmettere conoscenza
esplicita e diretta agli attori del sistema educazionale
3
Educational Data Mining (EDM)
Attivit:
 Raggruppare informazioni omogenee
 Scoprire relazioni tra gli argomenti di test
 Evidenziare fattori latenti nei meccanismi di apprendimento
Scopi:
 Rilevare categorie concettuali non direttamente osservabili
 Realizzare forme di apprendimento individualizzato basate
sulle performance dello studente
Tecniche di estrazione di conoscenza dai dati in scenari
di e-learning
Tecniche di estrazione di conoscenza dai dati in scenari
di e-learning
4
Teorie nellEDM
Risposte a specifici test sono manifestazioni di
fattori latenti non immediatamente
osservabili ma ricavabili indirettamente
Risposte a specifici test sono manifestazioni di
fattori latenti non immediatamente
osservabili ma ricavabili indirettamente
 Teoria Classica dei Test (CTT)
 Valuta le performance di un soggetto in funzione del
punteggio totale ai test
 Teoria di risposta agli Item (IRT)
 Modello statistico-matematico
 Valuta le performance di un soggetto in funzione della
misura delle sue abilit relative a fattori latenti
 Valuta le domande del test
5
Fattorizzazioni matriciali non negative
(NMF)
 Lee e Seung 1997
 Decomposizione di un dataset mediante fattori latenti pi湛
interpretabili
 Permettono una rappresentazione ridotta dei dati utilizzando
combinazioni lineari additive di basi non negative
 Non negativit preservata
 Rappresentazione basata sulle parti: parti combinate additivamente
per formare lintero
Nelle-learning:
 Quesiti influiscono positivamente sugli argomenti
 Abilit degli studenti sono valori positivi
Nelle-learning:
 Quesiti influiscono positivamente sugli argomenti
 Abilit degli studenti sono valori positivi
6
Formalizzazione matematica delle
NMF
 Dato un dataset iniziale espresso mediante una
matrice X di dimensioni nm
 Ogni colonna 竪 un vettore n-dimensionale non-
negativo del database originario (m vettori)
 NMF consiste nellapprossimazione di X
mediante il prodotto di due matrici a rango
ridotto
X  WH
matrice delle basi
(nr )
matrice di
codifica(rm)
Fattorizzazione
matriciale non
negativa
7
Semantica della NMF nelle-learning
8
NMF per il calcolo della Q-matrix
Q-matrix (Tatsuoka, 1983) evidenzia le
relazioni tra gli item che costituiscono un test
e gli skill coinvolti nel processo cognitivo
Q-matrix (Tatsuoka, 1983) evidenzia le
relazioni tra gli item che costituiscono un test
e gli skill coinvolti nel processo cognitivo
NMF per estrarre automaticamente Q-matrix da
score matrix (Desmarais et al., 2012)
NMF per estrarre automaticamente Q-matrix da
score matrix (Desmarais et al., 2012)
9
Esempio illustrativo
SAT dataset
 297 studenti, 40 domande
 Matematica, Biologia, Storia mondiale, Francese
10
Fattori latenti
La decomposizione a valori singolari (SVD)
applicata alla score matrix ha confermato la
presenza di 4 fattori latenti
11
Risultati della NMF
Matrice delle basi W
(Q-matrix)
Matrice di codifica H
0.5
1
1.5
2
2.5
3
3.5
4
4.5
2 4 6 8 10
12
Q-matrix ottenute con diversi algoritmi NMF
Q-matrix ottenute con diverse inizializzazioni
Parametri di configurazione della
NMF
13
Conclusioni e sviluppi futuri
 La NMF pu嘆 estrarre automaticamente
informazioni latenti da score matrix
 Fattori latenti possono essere interpretati come
skill
 E possibile utilizzare i risultati forniti dalla NMF
per raffinare la progettazione dei test e attuare
processi formativi individualizzati.
 Inclusione di forme di conoscenza addizionali
per guidare il processo di fattorizzazione 14

More Related Content

Didamatica2012 - slides

  • 1. Fattorizzazioni matriciali non negative per lanalisi dei dati nellEducational Data Mining Department of MathematicsDepartment of Mathematics University of BariUniversity of BariNicoletta Del Buono Gabriella Casalino Ciro Castiello Corrado Mencar
  • 2. Introduzione Analisi dei dati: attivit di ricerca ed estrazione di informazioni da un dataset Analisi dei dati: attivit di ricerca ed estrazione di informazioni da un dataset Problematiche: Inesattezza dei dati raccolti Interazione tra le variabili che caratterizzano i dati Informazioni ambigue e sovrapposte Inadeguatezza nel trasmettere conoscenzaInadeguatezza nel trasmettere conoscenza 2
  • 3. E-learning Dati generati dallinterazione teaching-learning Punteggi riportati dagli studenti Risposte fornite ai questionari on-line Eventi negli Intelligent Tutoring Systems I dati grezzi non sono in grado di trasmettere conoscenza esplicita e diretta agli attori del sistema educazionale I dati grezzi non sono in grado di trasmettere conoscenza esplicita e diretta agli attori del sistema educazionale 3
  • 4. Educational Data Mining (EDM) Attivit: Raggruppare informazioni omogenee Scoprire relazioni tra gli argomenti di test Evidenziare fattori latenti nei meccanismi di apprendimento Scopi: Rilevare categorie concettuali non direttamente osservabili Realizzare forme di apprendimento individualizzato basate sulle performance dello studente Tecniche di estrazione di conoscenza dai dati in scenari di e-learning Tecniche di estrazione di conoscenza dai dati in scenari di e-learning 4
  • 5. Teorie nellEDM Risposte a specifici test sono manifestazioni di fattori latenti non immediatamente osservabili ma ricavabili indirettamente Risposte a specifici test sono manifestazioni di fattori latenti non immediatamente osservabili ma ricavabili indirettamente Teoria Classica dei Test (CTT) Valuta le performance di un soggetto in funzione del punteggio totale ai test Teoria di risposta agli Item (IRT) Modello statistico-matematico Valuta le performance di un soggetto in funzione della misura delle sue abilit relative a fattori latenti Valuta le domande del test 5
  • 6. Fattorizzazioni matriciali non negative (NMF) Lee e Seung 1997 Decomposizione di un dataset mediante fattori latenti pi湛 interpretabili Permettono una rappresentazione ridotta dei dati utilizzando combinazioni lineari additive di basi non negative Non negativit preservata Rappresentazione basata sulle parti: parti combinate additivamente per formare lintero Nelle-learning: Quesiti influiscono positivamente sugli argomenti Abilit degli studenti sono valori positivi Nelle-learning: Quesiti influiscono positivamente sugli argomenti Abilit degli studenti sono valori positivi 6
  • 7. Formalizzazione matematica delle NMF Dato un dataset iniziale espresso mediante una matrice X di dimensioni nm Ogni colonna 竪 un vettore n-dimensionale non- negativo del database originario (m vettori) NMF consiste nellapprossimazione di X mediante il prodotto di due matrici a rango ridotto X WH matrice delle basi (nr ) matrice di codifica(rm) Fattorizzazione matriciale non negativa 7
  • 8. Semantica della NMF nelle-learning 8
  • 9. NMF per il calcolo della Q-matrix Q-matrix (Tatsuoka, 1983) evidenzia le relazioni tra gli item che costituiscono un test e gli skill coinvolti nel processo cognitivo Q-matrix (Tatsuoka, 1983) evidenzia le relazioni tra gli item che costituiscono un test e gli skill coinvolti nel processo cognitivo NMF per estrarre automaticamente Q-matrix da score matrix (Desmarais et al., 2012) NMF per estrarre automaticamente Q-matrix da score matrix (Desmarais et al., 2012) 9
  • 10. Esempio illustrativo SAT dataset 297 studenti, 40 domande Matematica, Biologia, Storia mondiale, Francese 10
  • 11. Fattori latenti La decomposizione a valori singolari (SVD) applicata alla score matrix ha confermato la presenza di 4 fattori latenti 11
  • 12. Risultati della NMF Matrice delle basi W (Q-matrix) Matrice di codifica H 0.5 1 1.5 2 2.5 3 3.5 4 4.5 2 4 6 8 10 12
  • 13. Q-matrix ottenute con diversi algoritmi NMF Q-matrix ottenute con diverse inizializzazioni Parametri di configurazione della NMF 13
  • 14. Conclusioni e sviluppi futuri La NMF pu嘆 estrarre automaticamente informazioni latenti da score matrix Fattori latenti possono essere interpretati come skill E possibile utilizzare i risultati forniti dalla NMF per raffinare la progettazione dei test e attuare processi formativi individualizzati. Inclusione di forme di conoscenza addizionali per guidare il processo di fattorizzazione 14

Editor's Notes

  1. Buon pomeriggio, sono Gabriella Casalino e vi presento un lavoro dal titolo Fattorizzazioni matriciali nn negative per lanalisi dei dati nelleducational data mining frutto della collaborazione di docenti del dipartimento di informatica, Ciro Castiello e Corrado Mencar, e del dipartimento di matematica, Nicoletta Del Buono.
  2. Lanalisi dei dati, intesa come lattivit finalizzata alla ricerca ed estrazione di informazioni da un dataset, 竪 un processo tanto complesso quanto essenziale in svariati campi, Tuttavia i risultati di tale attivit possono essere inficiati da due problematiche: -Linesattezza dei dati, dovuta agli strumenti fisici e alle metodologie di raccolta dei dati La presenza di interazioni tra le variabili che caratterizzano i dati che fa si che le informazioni risultino ambigue e sovapposte Quindi inadatte ad esprimere la conoscenza contenuta in essi.
  3. Questa problematica 竪 fortemente sentita in contesti come quello dellelearning in cui i 竪 necessario gestire grandi quantit di informazioni generate dallinterazione teaching-learning come: -I punteggi riportati dagli studenti, -le risposte fornite ai questionari online -e in generale gli eventi memorizzati dagli Intelligent Tutoring systems Tali dati per la loro natura sintetica non sono in grado di trasmettere conoscenza esplicita e diretta agli attori di un sistema educazionale
  4. Leducational datamining 竪 una disciplina emergente che studia tecniche di estrazione di conoscenza dai dati in scenari di e-learning al fine di: -raggruppare le informazioni omogenee, -scoprire eventuali relazioni tra gli argomenti di test Evidenziare fattori latenti nei meccanismi di apprendimento. Lo scopo di tali tecniche 竪 quello di rilevare categorie concettuali non direttamente osservabili nei dati, ma derivabili da essi che permettano di realizzare forme di apprendimento individualizzato basate sulle performance dello studente.
  5. alla base delle teorie di analisi dei dati nel contesto di e-learning vi 竪 lidea che le risposte degli utenti a specifici test o questionari sono manifestazioni di fattori latenti non immediatamente osservabili da tali risultati, ma ricavabili indirettamente, ad esempio mediante tecniche di data mining. In particolare due teorie matematiche influenzano la scelta del metodo pi湛 opportuno per analizzare dati di e-learning: -La teoria classica dei test, -e la teoria di risposta agli item. -Nella prima la variabile dipendente 竪 il punteggio totale ottenuto da un soggetto ad un test, che permette di valutarne le performance, -nel secondo si fa uso di un modello statistico matematico che: mediante lanalisi delle abilit di un soggetto, che sono misurate in funzione dei fattori latenti presenti nei dati, ne permette la valutazione delle performance, ma al tempo stesso permette di valutare le domande presenti nel test.
  6. In questo lavoro proponiamo limpiego di un particolare metodo matematico, le fattorizzazioni matriciali non negative, il cui utilizzo contribuisce ad unefficace analisi dei dati. La fattorizzzione matriciale non negativa, proposta da Lee e Seung nel 1997, ha riscontrato particolare interesse nellultimo decennio poich辿 permette di decomporre un dataset mediante lutilizzo di fattori latenti automaticamente estratti da esso, la cui interpretazione 竪 pi湛 immediata rispetto ai dati grezzi. Le NMF inoltre permettono di ottenere una rappresentazione dei dati ridotta, detta basata sulle parti, utilizzando solo componenti additive, propriet utile quando si ha a che fare con ingenti quantit di dati. Ci嘆 trova riscontro nella rappresentazione fisica della realt in cui le quantit coinvolte non possono essere negative, e le parti sono combinate additivamente per formare lintero. In particolare tale caratteristica 竪 utile nel contesto di elearning in cui non ha senso parlare di quesiti che influiscono in modo negativo sugli argomenti o di studenti che mostrano abilit negative in particolari aree.
  7. Il problema matematico pu嘆 essere eunciato come segue:: Dato un dataset iniziale espresso con una matrice di dimensioni nxm in cui gli elementi sono disposti per colonne, La NMF trova una decomposizione approssimata dei dati in due matrici: la matrice delle basi W (che descrive i fattori latenti), e la matrice di codifica H che ne permette una combinazione lineare per ricomporre i dati originari, entrambe contenenti solo valori non-negativi. Il numero r di fattori latenti, 竪 un parametro del problema
  8. Nel contesto delle-learning particolari dataset sono le score-matrix, matrici che registrano i punteggi ottenuti dagli esaminandi interrogati su questiti (che chiameremo genericamente items). In particolare in figura la score-matrix 竪 indicata con X e gli elementi xij sono quantit non-negative che indicano il punteggio che un generico studente j ottiene per uno specifico item i. A partire da una score matrix 竪 possibile condurre unanalisi tesa ad individuare i fattori latenti, skills, coinvolti nel processo di apprendimento. La figura schematizza la semantica della fattorizzazione in questo contesto, la matrice iniziale di dati X che rappresenta le competenze di ciascuno studente coinvolto nel test mediante le sue risposte agli item Viene decomposta in due matrici W e H che rappresentano rispettivamente le relazioni items-skill e skill-studenti. Gli skill sono rappresentati quindi dalle colonne di W, che combinate con i valori presenti in H permettono di approssimare la score-matrix. Quindi 竪 possibile interpretare i valori in H come il grado di rilevanza con cui uno studente ha acquisito un particolare skill.
  9. La Q-matrix, proposta da Tatsuoka nel 83, 竪 una matrice di incidenza item-skill che evidenzia le relazioni tra gli item che costituiscono un test e gli skill che si ipotizza siano coinvolti nel processo cognitivo che induce gli studenti a rispondere ad un certo modo ai quesiti del test. SI assume che uno studente risponda correttamente ad un quesito solo se in possesso dello skil rilevante per quello specifico item. Tuttavia il processo di costruzione della Q-matrix 竪 iterativo e al crescere del numero di esaminandi, skills e items, diventa molto lungo e costoso da effettuare manualmente, inoltre poich辿 gli skills non si manifestano esplicitamente la costruzione di una Q-matrix 竪 un processo non banale. Desmar竪 propone lutilizzo delle fattorizzazioni non negative per estrarre automaticamente le Q matrix a partire da una score matrix.
  10. Per mostrare un esempio concreto di applicazione della NMF in un contesto di e-learning, si 竪 preso in esame un sottoinsieme del dataset SAT che memorizza i quesiti e le risposte dei test dingresso standardizzati utilizzati dai college americani. In particolare i dati presi in considerazione sono composti all'esito dell'esame di 297 studenti su 40 domande (item) relative a solo quattro argomenti: Matematica (item 1-10), Biologia (item 11-20), Storia mondiale (item 21-30), Francese (item 31-40). Item contigui corrispondono al medesimo argomento. Il dataset 竪 sotto forma forma di score matrix binaria, in cui sulle righe sono rappresentate le domande, e sulle colonne gli studenti. Ogni elemento 竪 pari a 1 o 0 se alla domanda corrispondente lo studente ha risposto in maniera corretta o sbagliata, nellimmagine i pixel blu indicano un fallimento dellesaminando nel corrispondente item, mentre i pixel rossi indicano un successo.
  11. Sebbene la conoscenza a priori dei dati suggerisca la presenza di 4 skill, 竪 stata effettuata una verifica condotta mediante lapplicazione della SVD alla score matrix. Dal relativo scree plot 竪 possibile osservare che sia plausibile discernere nei dati la presenza di 4 fattori latenti, dei quali tuttavia solo due risultano distinguibili in modo evidente.
  12. Lapplicazione della NMF alla score matrix descritta in precedenza ha prodotto le due matrici W e H . La figura rappresenta la matrice delle basi W Per una migliore visualizzazione, i quattro skill sono disposti su ogni riga, mentre sulle colonne gli item. La tonalit di colore di ciascuna cella indica il peso di ogni skill nel caratterizzare litem corrispondente: tonalit rosse corrispondono a pesi Maggiori, blu a pesi minori. Dalla figura si evince come gli skill 1 e 2 (pi湛 in basso nella figura) siano prevalentemente determinati da gruppi contigui di item, e gli skill 3 e 4 siano caratterizzati da item sparsi nel dataset Poich辿 item contigui rappresentano quesiti relativi allo stesso argomento (a gruppi di 10), ne consegue che gli skill 1 e 2 sono semanticamente allineati con gli argomenti relativi a due gruppi di item contigui (in particolare Matematica e Francese), mentre gli skill 3 e 4 sono definiti da una composizione di argomenti (Biologia e Storia mondiale). (ci嘆 竪 in linea con lanalisi preliminare effettuata mediante SVD). Questa discrepanza tra skill e argomenti 竪 significativa: poich辿 la score matrix riporta il punteggio di ciascuno studente per ogni item, la Q-matrix risultante indica che due dei 4 skill combaciano con due argomenti, mentre i rimanenti due stanno a indicare abilit miste che non possono essere semanticamente inquadrate in uno degli argomenti noti a priori. Questo risultato potrebbe fare ipotizzare una riorganizzazione dei corsi al fine di rendere pi湛 affini gli argomenti con gli skill (ma potrebbe valere anche l'argomento contrario rendere gli skill maggiormente interdisciplinari). La Figura a sinistra invece illustra la matrice H che, per maggior chiarezza, 竪 ridotta alle sue prime 10 colonne. Come precedentemente osservato, tale matrice individua i gradi di rilevanza con cui uno studente ha acquisito un particolare skill e permette, quindi, di evidenziare quali sono gli skill nei quali ciascuno studente 竪 pi湛 o meno preparato. Anche in questo caso a tonalit rosse corrispondono gradi di rilevanza maggiori. Ad esempio si pu嘆 osservare che molti studenti hanno unelevata abilit rispetto allo skill 1 (che coincide con l'argomento Matematica). I gradi di rilevanza associati a ciascuno studente possono essere utilizzati per raggruppare gli studenti sulla base degli skill in cui sono pi湛 o meno abili. O al contrario possono essere raggruppati in base agli skill in cui sono meno abili al fine di organizzare corsi di recupero.
  13. Il calcolo delle matrici W e H (e dunque degli skill) non 竪 univoco. Da un punto di vista tecnico, ci嘆 significa che modifiche ai parametri di configurazione dell'algoritmo NMF possono portare a risultati differenti. Fra i parametri di configurazione vi sono le matrici iniziali che si utilizzano per avviare lalgoritmo di fattorizzazione, e vincoli addizionali che si impongono alle matrici fattorizzate W e H (come ad esempio lortogonalit o la sparsit) Mentre nel primo caso come si pu嘆 osservare dalle immagini non evidenziano differenze significative nei risultati ottenuti (a meno di permutazioni di riga che non ne modificano la semantica). Imponendo, invece, che le matrici W e H soddisfino vincoli addizionali si possono rilevare differenze significative nei risultati finali poich辿 di fatto tali vincoli introducono conoscenza all'interno del processo di fattorizzazione.
  14. Concludendo La NMF pu嘆 estrarre informazioni latenti dai dati che rappresentano i risultati ottenuti dagli studenti su un insieme di test, che unanalisi manuale non sarebbe in grado di individuare e che tali fattori possono essere interpretati come skill, non necessariamente coincidenti con gli argomenti su cui i test sono formulati. E possibile utilizzare i risultati forniti dalla NMF per raffinare la progettazione dei test e attuare processi formativi individualizzati. Sviluppi futuri della ricerca potranno riguardare linclusione di forme di conoscenza addizionali per guidare il processo di fattorizzazione