Gabriella Casalino, Ciro Castiello, Nicoletta Del Buono et al. (2012) Fattorizzazioni matriciali non negative per l'analisi dei dati nell'Educational Data Mining. In DIDAMATICA 2012.
DIDAMATICA 2012, informatica per la didattica, Taranto, 14-16 Maggio 2012
1 of 14
Download to read offline
More Related Content
Didamatica2012 - slides
1. Fattorizzazioni matriciali non
negative per lanalisi dei dati
nellEducational Data Mining
Department of MathematicsDepartment of Mathematics
University of BariUniversity of BariNicoletta Del Buono
Gabriella Casalino
Ciro Castiello
Corrado Mencar
2. Introduzione
Analisi dei dati: attivit di ricerca ed estrazione
di informazioni da un dataset
Analisi dei dati: attivit di ricerca ed estrazione
di informazioni da un dataset
Problematiche:
Inesattezza dei dati raccolti
Interazione tra le variabili che caratterizzano i dati
Informazioni ambigue e sovrapposte
Inadeguatezza nel trasmettere conoscenzaInadeguatezza nel trasmettere conoscenza
2
3. E-learning
Dati generati dallinterazione teaching-learning
Punteggi riportati dagli studenti
Risposte fornite ai questionari on-line
Eventi negli Intelligent Tutoring Systems
I dati grezzi non sono in grado di trasmettere conoscenza
esplicita e diretta agli attori del sistema educazionale
I dati grezzi non sono in grado di trasmettere conoscenza
esplicita e diretta agli attori del sistema educazionale
3
4. Educational Data Mining (EDM)
Attivit:
Raggruppare informazioni omogenee
Scoprire relazioni tra gli argomenti di test
Evidenziare fattori latenti nei meccanismi di apprendimento
Scopi:
Rilevare categorie concettuali non direttamente osservabili
Realizzare forme di apprendimento individualizzato basate
sulle performance dello studente
Tecniche di estrazione di conoscenza dai dati in scenari
di e-learning
Tecniche di estrazione di conoscenza dai dati in scenari
di e-learning
4
5. Teorie nellEDM
Risposte a specifici test sono manifestazioni di
fattori latenti non immediatamente
osservabili ma ricavabili indirettamente
Risposte a specifici test sono manifestazioni di
fattori latenti non immediatamente
osservabili ma ricavabili indirettamente
Teoria Classica dei Test (CTT)
Valuta le performance di un soggetto in funzione del
punteggio totale ai test
Teoria di risposta agli Item (IRT)
Modello statistico-matematico
Valuta le performance di un soggetto in funzione della
misura delle sue abilit relative a fattori latenti
Valuta le domande del test
5
6. Fattorizzazioni matriciali non negative
(NMF)
Lee e Seung 1997
Decomposizione di un dataset mediante fattori latenti pi湛
interpretabili
Permettono una rappresentazione ridotta dei dati utilizzando
combinazioni lineari additive di basi non negative
Non negativit preservata
Rappresentazione basata sulle parti: parti combinate additivamente
per formare lintero
Nelle-learning:
Quesiti influiscono positivamente sugli argomenti
Abilit degli studenti sono valori positivi
Nelle-learning:
Quesiti influiscono positivamente sugli argomenti
Abilit degli studenti sono valori positivi
6
7. Formalizzazione matematica delle
NMF
Dato un dataset iniziale espresso mediante una
matrice X di dimensioni nm
Ogni colonna 竪 un vettore n-dimensionale non-
negativo del database originario (m vettori)
NMF consiste nellapprossimazione di X
mediante il prodotto di due matrici a rango
ridotto
X WH
matrice delle basi
(nr )
matrice di
codifica(rm)
Fattorizzazione
matriciale non
negativa
7
9. NMF per il calcolo della Q-matrix
Q-matrix (Tatsuoka, 1983) evidenzia le
relazioni tra gli item che costituiscono un test
e gli skill coinvolti nel processo cognitivo
Q-matrix (Tatsuoka, 1983) evidenzia le
relazioni tra gli item che costituiscono un test
e gli skill coinvolti nel processo cognitivo
NMF per estrarre automaticamente Q-matrix da
score matrix (Desmarais et al., 2012)
NMF per estrarre automaticamente Q-matrix da
score matrix (Desmarais et al., 2012)
9
11. Fattori latenti
La decomposizione a valori singolari (SVD)
applicata alla score matrix ha confermato la
presenza di 4 fattori latenti
11
12. Risultati della NMF
Matrice delle basi W
(Q-matrix)
Matrice di codifica H
0.5
1
1.5
2
2.5
3
3.5
4
4.5
2 4 6 8 10
12
13. Q-matrix ottenute con diversi algoritmi NMF
Q-matrix ottenute con diverse inizializzazioni
Parametri di configurazione della
NMF
13
14. Conclusioni e sviluppi futuri
La NMF pu嘆 estrarre automaticamente
informazioni latenti da score matrix
Fattori latenti possono essere interpretati come
skill
E possibile utilizzare i risultati forniti dalla NMF
per raffinare la progettazione dei test e attuare
processi formativi individualizzati.
Inclusione di forme di conoscenza addizionali
per guidare il processo di fattorizzazione 14
Editor's Notes
Buon pomeriggio, sono Gabriella Casalino e vi presento un lavoro dal titolo Fattorizzazioni matriciali nn negative per lanalisi dei dati nelleducational data mining frutto della collaborazione di docenti del dipartimento di informatica, Ciro Castiello e Corrado Mencar, e del dipartimento di matematica, Nicoletta Del Buono.
Lanalisi dei dati, intesa come lattivit finalizzata alla ricerca ed estrazione di informazioni da un dataset, 竪 un processo tanto complesso quanto essenziale in svariati campi,
Tuttavia i risultati di tale attivit possono essere inficiati da due problematiche:
-Linesattezza dei dati, dovuta agli strumenti fisici e alle metodologie di raccolta dei dati
La presenza di interazioni tra le variabili che caratterizzano i dati che fa si che le informazioni risultino ambigue e sovapposte
Quindi inadatte ad esprimere la conoscenza contenuta in essi.
Questa problematica 竪 fortemente sentita in contesti come quello dellelearning in cui i 竪 necessario gestire grandi quantit di informazioni generate dallinterazione teaching-learning come:
-I punteggi riportati dagli studenti,
-le risposte fornite ai questionari online
-e in generale gli eventi memorizzati dagli Intelligent Tutoring systems
Tali dati per la loro natura sintetica non sono in grado di trasmettere conoscenza esplicita e diretta agli attori di un sistema educazionale
Leducational datamining 竪 una disciplina emergente che studia tecniche di estrazione di conoscenza dai dati in scenari di e-learning al fine di:
-raggruppare le informazioni omogenee,
-scoprire eventuali relazioni tra gli argomenti di test
Evidenziare fattori latenti nei meccanismi di apprendimento.
Lo scopo di tali tecniche 竪 quello di rilevare categorie concettuali non direttamente osservabili nei dati, ma derivabili da essi che permettano di realizzare forme di apprendimento individualizzato basate sulle performance dello studente.
alla base delle teorie di analisi dei dati nel contesto di e-learning vi 竪 lidea che
le risposte degli utenti a specifici test o questionari sono manifestazioni di fattori latenti non immediatamente osservabili da tali risultati, ma ricavabili indirettamente, ad esempio mediante tecniche di data mining.
In particolare due teorie matematiche influenzano la scelta del metodo pi湛 opportuno per analizzare dati di e-learning:
-La teoria classica dei test,
-e la teoria di risposta agli item.
-Nella prima la variabile dipendente 竪 il punteggio totale ottenuto da un soggetto ad un test, che permette di valutarne le performance,
-nel secondo si fa uso di un modello statistico matematico che:
mediante lanalisi delle abilit di un soggetto, che sono misurate in funzione dei fattori latenti presenti nei dati, ne permette la valutazione delle performance, ma al tempo stesso permette di valutare le domande presenti nel test.
In questo lavoro proponiamo limpiego di un particolare metodo matematico, le fattorizzazioni matriciali non negative, il cui utilizzo contribuisce ad unefficace analisi dei dati.
La fattorizzzione matriciale non negativa, proposta da Lee e Seung nel 1997, ha riscontrato particolare interesse nellultimo decennio poich辿 permette di decomporre un dataset mediante lutilizzo di fattori latenti automaticamente estratti da esso, la cui interpretazione 竪 pi湛 immediata rispetto ai dati grezzi.
Le NMF inoltre permettono di ottenere una rappresentazione dei dati ridotta, detta basata sulle parti, utilizzando solo componenti additive, propriet utile quando si ha a che fare con ingenti quantit di dati.
Ci嘆 trova riscontro nella rappresentazione fisica della realt in cui le quantit coinvolte non possono essere negative, e le parti sono combinate additivamente per formare lintero.
In particolare tale caratteristica 竪 utile nel contesto di elearning in cui non ha senso parlare di quesiti che influiscono in modo negativo sugli argomenti o di studenti che mostrano abilit negative in particolari aree.
Il problema matematico pu嘆 essere eunciato come segue::
Dato un dataset iniziale espresso con una matrice di dimensioni nxm in cui gli elementi sono disposti per colonne,
La NMF trova una decomposizione approssimata dei dati in due matrici:
la matrice delle basi W (che descrive i fattori latenti),
e la matrice di codifica H che ne permette una combinazione lineare per ricomporre i dati originari,
entrambe contenenti solo valori non-negativi.
Il numero r di fattori latenti, 竪 un parametro del problema
Nel contesto delle-learning particolari dataset sono le score-matrix, matrici che registrano i punteggi ottenuti dagli esaminandi interrogati su questiti (che chiameremo genericamente items).
In particolare in figura la score-matrix 竪 indicata con X e gli elementi xij sono quantit non-negative che indicano il punteggio che un generico studente j ottiene per uno specifico item i.
A partire da una score matrix 竪 possibile condurre unanalisi tesa ad individuare i fattori latenti, skills, coinvolti nel processo di apprendimento.
La figura schematizza la semantica della fattorizzazione in questo contesto,
la matrice iniziale di dati X che rappresenta le competenze di ciascuno studente coinvolto nel test mediante le sue risposte agli item
Viene decomposta in due matrici W e H che rappresentano rispettivamente le relazioni items-skill e skill-studenti.
Gli skill sono rappresentati quindi dalle colonne di W, che combinate con i valori presenti in H permettono di approssimare la score-matrix.
Quindi 竪 possibile interpretare i valori in H come il grado di rilevanza con cui uno studente ha acquisito un particolare skill.
La Q-matrix, proposta da Tatsuoka nel 83, 竪 una matrice di incidenza item-skill che evidenzia le relazioni tra gli item che costituiscono un test e gli skill che si ipotizza siano coinvolti nel processo cognitivo che induce gli studenti a rispondere ad un certo modo ai quesiti del test.
SI assume che uno studente risponda correttamente ad un quesito solo se in possesso dello skil rilevante per quello specifico item.
Tuttavia il processo di costruzione della Q-matrix 竪 iterativo e al crescere del numero di esaminandi, skills e items, diventa molto lungo e costoso da effettuare manualmente, inoltre poich辿 gli skills non si manifestano esplicitamente la costruzione di una Q-matrix 竪 un processo non banale.
Desmar竪 propone lutilizzo delle fattorizzazioni non negative per estrarre automaticamente le Q matrix a partire da una score matrix.
Per mostrare un esempio concreto di applicazione della NMF in un contesto di e-learning, si 竪 preso in esame un sottoinsieme del dataset SAT che memorizza i quesiti e le risposte dei test dingresso standardizzati utilizzati dai college americani.
In particolare i dati presi in considerazione sono composti all'esito dell'esame di 297 studenti su 40 domande (item) relative a solo quattro argomenti: Matematica (item 1-10), Biologia (item 11-20), Storia mondiale (item
21-30), Francese (item 31-40). Item contigui corrispondono al medesimo argomento.
Il dataset 竪 sotto forma forma di score matrix binaria, in cui sulle righe sono rappresentate le domande, e sulle colonne gli studenti.
Ogni elemento 竪 pari a 1 o 0 se alla domanda corrispondente lo studente ha risposto in maniera corretta o sbagliata, nellimmagine i pixel blu indicano un fallimento dellesaminando nel corrispondente item, mentre i pixel rossi indicano un successo.
Sebbene la conoscenza a priori dei dati suggerisca la presenza di 4 skill, 竪 stata effettuata una verifica condotta mediante
lapplicazione della SVD alla score matrix.
Dal relativo scree plot 竪 possibile osservare che sia plausibile discernere nei dati la presenza di 4 fattori latenti, dei quali tuttavia solo
due risultano distinguibili in modo evidente.
Lapplicazione della NMF alla score matrix descritta in precedenza ha prodotto le due matrici W e H .
La figura rappresenta la matrice delle basi W
Per una migliore visualizzazione, i quattro skill sono disposti su ogni riga, mentre sulle colonne gli item.
La tonalit di colore di ciascuna cella indica il peso di ogni skill nel caratterizzare litem corrispondente: tonalit rosse corrispondono a pesi
Maggiori, blu a pesi minori.
Dalla figura si evince come gli skill 1 e 2 (pi湛 in basso nella figura) siano prevalentemente determinati da gruppi contigui di item, e gli skill 3 e 4
siano caratterizzati da item sparsi nel dataset
Poich辿 item contigui rappresentano quesiti relativi allo stesso argomento (a gruppi di 10), ne consegue che gli skill 1 e 2 sono semanticamente allineati con gli argomenti relativi a due gruppi di item contigui (in particolare Matematica e Francese), mentre gli skill 3 e 4 sono definiti da una composizione di argomenti (Biologia e Storia mondiale).
(ci嘆 竪 in linea con lanalisi preliminare effettuata mediante SVD).
Questa discrepanza tra skill e argomenti 竪 significativa: poich辿 la score matrix riporta il punteggio di ciascuno studente per ogni item, la Q-matrix risultante indica che due dei 4 skill combaciano con due argomenti, mentre i rimanenti due stanno a indicare abilit miste che non possono essere semanticamente inquadrate in uno degli argomenti noti a priori.
Questo risultato potrebbe fare ipotizzare una riorganizzazione dei corsi al fine di rendere pi湛 affini gli argomenti con gli skill (ma potrebbe valere anche l'argomento contrario rendere gli skill maggiormente interdisciplinari).
La Figura a sinistra invece illustra la matrice H che, per maggior chiarezza, 竪 ridotta alle sue prime 10 colonne.
Come precedentemente osservato, tale matrice individua i gradi di rilevanza con cui uno studente ha acquisito un particolare skill e
permette, quindi, di evidenziare quali sono gli skill nei quali ciascuno studente 竪 pi湛 o meno preparato.
Anche in questo caso a tonalit rosse corrispondono gradi di rilevanza maggiori. Ad esempio si pu嘆 osservare che molti studenti hanno unelevata abilit rispetto allo skill 1 (che coincide con l'argomento Matematica).
I gradi di rilevanza associati a ciascuno studente possono essere utilizzati per raggruppare gli studenti sulla base degli skill in cui sono pi湛 o meno abili.
O al contrario possono essere raggruppati in base agli skill in cui sono meno abili al fine di organizzare corsi di recupero.
Il calcolo delle matrici W e H (e dunque degli skill) non 竪 univoco.
Da un punto di vista tecnico, ci嘆 significa che modifiche ai parametri di configurazione dell'algoritmo NMF possono portare a risultati differenti.
Fra i parametri di configurazione vi sono le matrici iniziali che si utilizzano per avviare lalgoritmo di fattorizzazione, e vincoli addizionali che si impongono alle matrici fattorizzate W e H (come ad esempio lortogonalit o la sparsit)
Mentre nel primo caso come si pu嘆 osservare dalle immagini non evidenziano differenze significative nei risultati ottenuti (a meno di permutazioni di riga che non ne modificano la semantica).
Imponendo, invece, che le matrici W e H soddisfino vincoli addizionali si possono rilevare differenze significative nei risultati finali poich辿 di fatto tali vincoli introducono conoscenza all'interno del processo di fattorizzazione.
Concludendo
La NMF pu嘆 estrarre informazioni latenti dai dati che rappresentano i risultati ottenuti dagli studenti su un insieme di test, che unanalisi manuale non sarebbe in grado di individuare
e che tali fattori possono essere interpretati come skill, non necessariamente coincidenti con gli argomenti su cui i test sono formulati.
E possibile utilizzare i risultati forniti dalla NMF per raffinare la progettazione dei test e attuare processi formativi individualizzati.
Sviluppi futuri della ricerca potranno riguardare linclusione di forme di conoscenza addizionali per guidare il processo di fattorizzazione