際際滷

際際滷Share a Scribd company logo
Il mondo Enel visto da Twitter.
Tweet Analysis e Topic Extraction.
Andrea Capozio
26 marzo 2014
Questo lavoro si pone lobiettivo di analizzare e comprendere le tematiche
trattate sul social network Twitter riguardanti il gruppo Enel.
I risultati di seguito riportati sono stati realizzati mediante tecniche di Text
Mining, utilizzando il software statistico R 1.
Keywords: Enel, Twitter, Tweet, Text Mining, R, Hashtag, Cluster
1
R `e un linguaggio di programmazione funzionale, ottimizzato per esplorare dataset medianti approcci
di tipo statistico. http://www.r-project.org
1
Enel e Twitter
1 La collezione di dati
I dati di partenza della seguente analisi sono costituiti da 237 tweet in lingua italiana,
ottenuti mediante le API2 di Twitter. Il periodo temporale considerato va dal 01-01-2014
al 15-03-2014.
E interessante iniziare lanalisi in oggetto osservando la provenienza geogra鍖ca dei
tweet in esame (Figura 1). Per ciascun tweet, laddove disponibili, sono state analizzate
le rispettive coordinate geogra鍖che (latitudine e longitudine) e mediante lausilio delle
API di Google Maps `e stato possibile assegnare ad un tweet una posizione sulla cartina;
tuttavia per pi`u della met`a dei tweet non `e stato possibile disporre di questo tipo di
informazione.
La maggior parte di essi ha origine in Italia (57 tweet), in particolare nelle regioni
centrali e del nord Italia (da notare la scarsa presenza di tweet meridionali); tuttavia
occorre segnalare la presenza di alcuni tweet di origine straniera, provenienti in particolare
dalla Germania, dalla Tanzania, dagli USA e dalla Russia.
Figura 1: Origine dei Tweet Enel nel mondo.
2
Le API messe a disposizione da Twitter consentono di interrogare il servizio di micro-blogging con
varie modalit`a per recuperare insiemi di tweet immessi dagli utenti. Per questa analisi si `e fatto uso
della search API, ricercando i tweet contenenti lhashtag #Enel.
2
Enel e Twitter
1.1 Analisi Esplorativa
Per evitare che le analisi compiute possano essere in鍖ciate dalla rumorosit`a dei dati,
come prima operazione, i tweet sono stati opportunamente elaborati. In particolare, per
ognuno di essi, si `e provveduto a:
 esprimere tutte le parole solo con caratteri minuscoli;
 rimuovere le stopwords3;
 rimuovere la punteggiatura;
 rimuovere eventuali numeri;
 rimuovere eventuali spazi in eccesso.
1.2 Analisi della word cloud
Al 鍖ne di valutare con facilit`a i termini maggiormente ricorrenti, `e stata realizzata una
word cloud dellinsieme dei tweet precedentemente elaborato. Una word cloud `e una
rappresentazione gra鍖ca di dati testuali, usata in particolare per la visualizzazione di
parole chiave sul web o di testo in forma libera. Le modalit`a di visualizzazione di una
word cloud variano a seconda della particolare necessit`a.
Il criterio adottato in questo elaborato consente una rapida visione dei termini mag-
giormente frequenti in un testo: viene dapprima assegnata una dimensione al font per la
rappresentazione di ciascuna parola in maniera direttamente proporzionale alla frequenza
della stessa; successivamente i termini vengono collocati, a partire dal centro della cloud,
seguendo lordine decrescente delle frequenze.
La word cloud estratta dal corpus di tweet `e mostrata in Figura 2; analizzandola `e
possibile notare subito la presenza maggioritaria di termini a鍖erenti il mondo del business
Enel quali energia, rinnovabili, geotermia, zolfo. Continuando lanalisi si pu`o osservare la
presenza di numerosi termini economici miliardi, risultati, euro, produttivit`a, dividendo
che indicano lutilizzo di Twitter come mezzo di di鍖usione di news economiche relative
allazienda.
Unampia classe di parole inoltre si riferisce ad avvenimenti legati al mondo Enel non
associabili al lato economico o produttivo. In particolare sono numerosi i riferimenti alla
dispersione di polvere di carbone a Brindisi e al relativo processo (in corso nel periodo
considerato). I termini maggiormente signi鍖cativi sono: carbone, digos, processo, brindisi.
In鍖ne occorre segnalare la signi鍖cativa presenza di termini legati ad alcune partnership
di Enel, come ad esempio quella con il celebre programma televisivo Masterchef che ha
visto lo svolgimento di eventi in alcuni Punto Enel (Firenze, Milano, Torino).
3
Termini che ricorrono spesso in una lingua come ad esempio gli articoli, le preposizioni e le congiunzioni.
3
Enel e Twitter
Figura 2: Word cloud relativa allhashtag #Enel.
2 Analisi dei Topic
A seguito della precedente analisi introduttiva, il passo successivo riguarda lo studio degli
argomenti maggiormente discussi nei tweet in esame.
Per questo tipo di studio sono stati seguiti due modalit`a: la prima consiste nellanalisi
degli hashtag4 presenti nei tweet in esame; la seconda modalit`a `e basata invece su una
tecnica di clustering applicata allinsieme di tweet.
2.1 Analisi degli Hashtag
Considerato il limite di 140 caratteri per un singolo tweet, `e sorta la necessit`a di esprimere
concetti o eventi nel modo pi`u breve e conciso possibile ma al tempo stesso esplicativo e
chiaro. A tale scopo (ma anche altri5) `e stato introdotto lutilizzo degli hashtag: mediante
questo strumento, chi scrive un tweet indica in maniera esplicita ed essenziale largomento
di cui desidera parlare, facendo cos`脹 economia dei caratteri a disposizione.
Mediante tale approccio, basato su questa peculiarit`a di Twitter, `e stato possibile
determinare immediatamente gli argomenti che vengono associati ad Enel. Una volta
estratti dalla collezione gli hashtag che concorrono con lhashtag #Enel, ci si `e avvalsi
nuovamente di una word cloud per la loro rappresentazione (Figura 3).
4
Parole o combinazioni di parole concatenate precedute dal simbolo cancelletto #.
5
Ad esempio, inserendo un hashtag in un tweet, si crea un collegamento ipertestuale verso tutti i tweet
che contengono il medesimo tag.
4
Enel e Twitter
Figura 3: Word Cloud Co-Hashtag Enel
Spiccano hashtag legati allargomento carbone a Brindisi. In particolare risulta assai
signi鍖cativa lassociazione di questo evento al caso analogo che ha coinvolto la Tirreno
Power a Vado Ligure. Si notano infatti gli hashtag #processo, #siamotuttiparteo鍖esa,
#noalcarbone, #brindisi, #denuncia, #tirrenopower. In seconda istanza si rilevano
hashtag a鍖erenti il lato produttivo di Enel: #carbone, #biomasse, #e鍖cienzaenergetica,
#rinnovabili. In鍖ne si osserva la presenza di hashtag riferiti alla partecipazione di
personaggi dello show televisivo Masterchef ad eventi organizzati in vari Punto Enel
(#cracco, #milano) e alla partnership di Enel con il museo Macro di Roma (#macro,
#鍖aviabarca).
2.2 Analisi dei Cluster
Il secondo approccio considerato per lo studio dei topic consiste nellutilizzo di un
algoritmo di clustering gerarchico di tipo bottom up6. A di鍖erenza dellanalisi per
hashtag, nella quale si sfrutta uno strumento nativo del mondo Twitter (Sezione 2.1), il
clustering si con鍖gura come una metodologia classica per questo tipo di studi.
6
Si intende un clustering di tipo agglomerativo. Si parte dallassunzione che ogni elemento costituisca
un cluster a s`e; successivamente i singoli cluster vengono fusi ricorsivamente in cluster pi`u grandi
secondo criteri di similiturdine inizialmente stabiliti.
5
Enel e Twitter
Tipicamente i risultati di clustering gerarchico sono visualizzati mediante una rappre-
sentazione ad albero detta appunto dendrogramma.
Figura 4: Dendrogramma estratto dai Tweet Enel
Ciascuna foglia dellalbero corrisponde ad un singolo elemento dellinsieme considerato;
risalendo lalbero alcune foglie iniziano a fondersi in rami 鍖no ad arrivare alla radice
dellalbero. Prima avviene la fusione tra due gruppi (due foglie, una foglia e un ramo
oppure due rami), allora maggiore `e la similitudine tra di essi (secondo la metrica
stabilita inizialmente). Il livello gerarchico dei cluster `e indicato sullasse delle ordinate
del dendrogramma, mentre sullasse delle ascisse `e misurata la distanza logica tra i
cluster seconda la metrica utilizzata. Una volta costruito lalbero, lultimo passo consiste
nellidenti鍖care i cluster. A seconda del numero di cluster desiderato, si stabilisce una
quota sullasse delle ordinate e si traccia una linea orizzontale passante per essa, cos`脹
facendo i gruppi di osservazioni sotto di essa costituiscono i cluster7.
Il dendrogramma estratto `e mostrato nella Figura 4. Nel nostro caso la quota sullasse
delle ordinate `e stata scelta al 鍖ne di ottenere 3 cluster, rappresentati dai rettangoli rossi
7
Tale operazione pu`o essere eseguita pi`u volte al 鍖ne di ottenere una divisione ottimale. Talvolta pu`o
risultare semplice stabilire laltezza della linea da tracciare, individuando ad occhio il giusto numero
di cluster, mentre a volte tale scelta non `e cos`脹 semplice.
6
Enel e Twitter
in 鍖gura.
Anche con questo approccio vengono riscontrati aspetti economici-produttivi a conferma
di un utilizzo informativo del Social Network per divulgare risultati legati allattivit`a di
Enel.
Nuovamente vengono messe in evidenza la questione carbone nello stabilimento Enel
di Brindisi (e il riferimento al caso analogo della Tirreno Power di Vado Ligure) e la
partnership tra Enel e Masterchef in vari Punto Enel dItalia.
Un aspetto non rilevato nellanalisi mediante hashtag `e lutilizzo di Twitter per la
di鍖usione di notizie legate alle opportunit`a di assunzione.
2.3 Osservazioni
A seguito dellanalisi esplorativa delle frequenze delle singole parole presenti nei dati in
esame (Sezione 1.2) erano gi`a emerse alcune caratteristiche riguardanti la natura dei
tweet (鍖nanziaria, produttiva, attualit`a, commenti) e i due approcci precedentemente
seguiti (hashtag e clustering) hanno confermato in pieno queste tendenze. Data la
natura dei dati in questione (messaggi di breve lunghezza), lanalisi degli hashtag si
rivela estremamente competitiva con gli algoritmi di clustering (altamente performanti
su un testo strutturato); infatti entrambi gli approcci delineano gli stessi tre topic
principali: la partnership Enel-Masterchef, la questione carbone a Brindisi e i risultati
economici-produttivi di Enel.
Le di鍖erenze tra i due approcci sono principalmente due: a di鍖erenza del cluster, con
gli hashtag viene sottolineata la partnership tra il Macro di Roma ed Enel; daltra parte
il cluster pone laccento sulle opportunit`a di lavoro e assunzioni nellazienda.
3 Conclusioni
Alla luce di questa analisi `e possibile concludere che i tweet riguardanti lEnel presentano
molteplici nature; in particolare si segnalano tweet in larga parte riguardanti vari eventi
attinenti lEnel (processi penali, partnership) e tweet a stampo economico-energetico. Un
aspetto da non sottovalutare `e la possibile di鍖usione di opinioni e associazioni negative
legate al nome Enel; a tal proposito risulta emblematico laccostamento di Enel alla
Tirreno Power per la questione carbone a Brindisi. Ed altrettanto signi鍖cativa `e la
predilezione dei classici mezzi di informazione da parte di Enel per tale argomento, a
discapito di nuovi canali quali i Social Network come Twitter.
Considerato il carattere multinazionale dellazienda (in parte gi`a emerso nel corso
dellanalisi), unulteriore analisi potrebbe essere quella di analizzare i tweet legati al
mondo Enel in lingua spagnola e inglese, al 鍖ne di integrare in modo completo quanto
fatto in questo elaborato.
7
Enel e Twitter
Riferimenti bibliogra鍖ci
[1] G. James, D. Witten, T. Hastie, R. Tibshirani (2013). An Introduction to Statistical
Learning: with Applications in R. Springer Texts in Statistics.
[2] J. Adler (2012). R in a Nutshell: A Desktop Quick Reference. OReilly (2nd Edition).
[3] M. A. Russell (2011). Mining the Social Web: Analyzing Data from Facebook,
Twitter, LinkedIn and other Social Media Site. OReilly.
8

More Related Content

Tweet Analysis with Text Mining Algorithms

  • 1. Il mondo Enel visto da Twitter. Tweet Analysis e Topic Extraction. Andrea Capozio 26 marzo 2014 Questo lavoro si pone lobiettivo di analizzare e comprendere le tematiche trattate sul social network Twitter riguardanti il gruppo Enel. I risultati di seguito riportati sono stati realizzati mediante tecniche di Text Mining, utilizzando il software statistico R 1. Keywords: Enel, Twitter, Tweet, Text Mining, R, Hashtag, Cluster 1 R `e un linguaggio di programmazione funzionale, ottimizzato per esplorare dataset medianti approcci di tipo statistico. http://www.r-project.org 1
  • 2. Enel e Twitter 1 La collezione di dati I dati di partenza della seguente analisi sono costituiti da 237 tweet in lingua italiana, ottenuti mediante le API2 di Twitter. Il periodo temporale considerato va dal 01-01-2014 al 15-03-2014. E interessante iniziare lanalisi in oggetto osservando la provenienza geogra鍖ca dei tweet in esame (Figura 1). Per ciascun tweet, laddove disponibili, sono state analizzate le rispettive coordinate geogra鍖che (latitudine e longitudine) e mediante lausilio delle API di Google Maps `e stato possibile assegnare ad un tweet una posizione sulla cartina; tuttavia per pi`u della met`a dei tweet non `e stato possibile disporre di questo tipo di informazione. La maggior parte di essi ha origine in Italia (57 tweet), in particolare nelle regioni centrali e del nord Italia (da notare la scarsa presenza di tweet meridionali); tuttavia occorre segnalare la presenza di alcuni tweet di origine straniera, provenienti in particolare dalla Germania, dalla Tanzania, dagli USA e dalla Russia. Figura 1: Origine dei Tweet Enel nel mondo. 2 Le API messe a disposizione da Twitter consentono di interrogare il servizio di micro-blogging con varie modalit`a per recuperare insiemi di tweet immessi dagli utenti. Per questa analisi si `e fatto uso della search API, ricercando i tweet contenenti lhashtag #Enel. 2
  • 3. Enel e Twitter 1.1 Analisi Esplorativa Per evitare che le analisi compiute possano essere in鍖ciate dalla rumorosit`a dei dati, come prima operazione, i tweet sono stati opportunamente elaborati. In particolare, per ognuno di essi, si `e provveduto a: esprimere tutte le parole solo con caratteri minuscoli; rimuovere le stopwords3; rimuovere la punteggiatura; rimuovere eventuali numeri; rimuovere eventuali spazi in eccesso. 1.2 Analisi della word cloud Al 鍖ne di valutare con facilit`a i termini maggiormente ricorrenti, `e stata realizzata una word cloud dellinsieme dei tweet precedentemente elaborato. Una word cloud `e una rappresentazione gra鍖ca di dati testuali, usata in particolare per la visualizzazione di parole chiave sul web o di testo in forma libera. Le modalit`a di visualizzazione di una word cloud variano a seconda della particolare necessit`a. Il criterio adottato in questo elaborato consente una rapida visione dei termini mag- giormente frequenti in un testo: viene dapprima assegnata una dimensione al font per la rappresentazione di ciascuna parola in maniera direttamente proporzionale alla frequenza della stessa; successivamente i termini vengono collocati, a partire dal centro della cloud, seguendo lordine decrescente delle frequenze. La word cloud estratta dal corpus di tweet `e mostrata in Figura 2; analizzandola `e possibile notare subito la presenza maggioritaria di termini a鍖erenti il mondo del business Enel quali energia, rinnovabili, geotermia, zolfo. Continuando lanalisi si pu`o osservare la presenza di numerosi termini economici miliardi, risultati, euro, produttivit`a, dividendo che indicano lutilizzo di Twitter come mezzo di di鍖usione di news economiche relative allazienda. Unampia classe di parole inoltre si riferisce ad avvenimenti legati al mondo Enel non associabili al lato economico o produttivo. In particolare sono numerosi i riferimenti alla dispersione di polvere di carbone a Brindisi e al relativo processo (in corso nel periodo considerato). I termini maggiormente signi鍖cativi sono: carbone, digos, processo, brindisi. In鍖ne occorre segnalare la signi鍖cativa presenza di termini legati ad alcune partnership di Enel, come ad esempio quella con il celebre programma televisivo Masterchef che ha visto lo svolgimento di eventi in alcuni Punto Enel (Firenze, Milano, Torino). 3 Termini che ricorrono spesso in una lingua come ad esempio gli articoli, le preposizioni e le congiunzioni. 3
  • 4. Enel e Twitter Figura 2: Word cloud relativa allhashtag #Enel. 2 Analisi dei Topic A seguito della precedente analisi introduttiva, il passo successivo riguarda lo studio degli argomenti maggiormente discussi nei tweet in esame. Per questo tipo di studio sono stati seguiti due modalit`a: la prima consiste nellanalisi degli hashtag4 presenti nei tweet in esame; la seconda modalit`a `e basata invece su una tecnica di clustering applicata allinsieme di tweet. 2.1 Analisi degli Hashtag Considerato il limite di 140 caratteri per un singolo tweet, `e sorta la necessit`a di esprimere concetti o eventi nel modo pi`u breve e conciso possibile ma al tempo stesso esplicativo e chiaro. A tale scopo (ma anche altri5) `e stato introdotto lutilizzo degli hashtag: mediante questo strumento, chi scrive un tweet indica in maniera esplicita ed essenziale largomento di cui desidera parlare, facendo cos`脹 economia dei caratteri a disposizione. Mediante tale approccio, basato su questa peculiarit`a di Twitter, `e stato possibile determinare immediatamente gli argomenti che vengono associati ad Enel. Una volta estratti dalla collezione gli hashtag che concorrono con lhashtag #Enel, ci si `e avvalsi nuovamente di una word cloud per la loro rappresentazione (Figura 3). 4 Parole o combinazioni di parole concatenate precedute dal simbolo cancelletto #. 5 Ad esempio, inserendo un hashtag in un tweet, si crea un collegamento ipertestuale verso tutti i tweet che contengono il medesimo tag. 4
  • 5. Enel e Twitter Figura 3: Word Cloud Co-Hashtag Enel Spiccano hashtag legati allargomento carbone a Brindisi. In particolare risulta assai signi鍖cativa lassociazione di questo evento al caso analogo che ha coinvolto la Tirreno Power a Vado Ligure. Si notano infatti gli hashtag #processo, #siamotuttiparteo鍖esa, #noalcarbone, #brindisi, #denuncia, #tirrenopower. In seconda istanza si rilevano hashtag a鍖erenti il lato produttivo di Enel: #carbone, #biomasse, #e鍖cienzaenergetica, #rinnovabili. In鍖ne si osserva la presenza di hashtag riferiti alla partecipazione di personaggi dello show televisivo Masterchef ad eventi organizzati in vari Punto Enel (#cracco, #milano) e alla partnership di Enel con il museo Macro di Roma (#macro, #鍖aviabarca). 2.2 Analisi dei Cluster Il secondo approccio considerato per lo studio dei topic consiste nellutilizzo di un algoritmo di clustering gerarchico di tipo bottom up6. A di鍖erenza dellanalisi per hashtag, nella quale si sfrutta uno strumento nativo del mondo Twitter (Sezione 2.1), il clustering si con鍖gura come una metodologia classica per questo tipo di studi. 6 Si intende un clustering di tipo agglomerativo. Si parte dallassunzione che ogni elemento costituisca un cluster a s`e; successivamente i singoli cluster vengono fusi ricorsivamente in cluster pi`u grandi secondo criteri di similiturdine inizialmente stabiliti. 5
  • 6. Enel e Twitter Tipicamente i risultati di clustering gerarchico sono visualizzati mediante una rappre- sentazione ad albero detta appunto dendrogramma. Figura 4: Dendrogramma estratto dai Tweet Enel Ciascuna foglia dellalbero corrisponde ad un singolo elemento dellinsieme considerato; risalendo lalbero alcune foglie iniziano a fondersi in rami 鍖no ad arrivare alla radice dellalbero. Prima avviene la fusione tra due gruppi (due foglie, una foglia e un ramo oppure due rami), allora maggiore `e la similitudine tra di essi (secondo la metrica stabilita inizialmente). Il livello gerarchico dei cluster `e indicato sullasse delle ordinate del dendrogramma, mentre sullasse delle ascisse `e misurata la distanza logica tra i cluster seconda la metrica utilizzata. Una volta costruito lalbero, lultimo passo consiste nellidenti鍖care i cluster. A seconda del numero di cluster desiderato, si stabilisce una quota sullasse delle ordinate e si traccia una linea orizzontale passante per essa, cos`脹 facendo i gruppi di osservazioni sotto di essa costituiscono i cluster7. Il dendrogramma estratto `e mostrato nella Figura 4. Nel nostro caso la quota sullasse delle ordinate `e stata scelta al 鍖ne di ottenere 3 cluster, rappresentati dai rettangoli rossi 7 Tale operazione pu`o essere eseguita pi`u volte al 鍖ne di ottenere una divisione ottimale. Talvolta pu`o risultare semplice stabilire laltezza della linea da tracciare, individuando ad occhio il giusto numero di cluster, mentre a volte tale scelta non `e cos`脹 semplice. 6
  • 7. Enel e Twitter in 鍖gura. Anche con questo approccio vengono riscontrati aspetti economici-produttivi a conferma di un utilizzo informativo del Social Network per divulgare risultati legati allattivit`a di Enel. Nuovamente vengono messe in evidenza la questione carbone nello stabilimento Enel di Brindisi (e il riferimento al caso analogo della Tirreno Power di Vado Ligure) e la partnership tra Enel e Masterchef in vari Punto Enel dItalia. Un aspetto non rilevato nellanalisi mediante hashtag `e lutilizzo di Twitter per la di鍖usione di notizie legate alle opportunit`a di assunzione. 2.3 Osservazioni A seguito dellanalisi esplorativa delle frequenze delle singole parole presenti nei dati in esame (Sezione 1.2) erano gi`a emerse alcune caratteristiche riguardanti la natura dei tweet (鍖nanziaria, produttiva, attualit`a, commenti) e i due approcci precedentemente seguiti (hashtag e clustering) hanno confermato in pieno queste tendenze. Data la natura dei dati in questione (messaggi di breve lunghezza), lanalisi degli hashtag si rivela estremamente competitiva con gli algoritmi di clustering (altamente performanti su un testo strutturato); infatti entrambi gli approcci delineano gli stessi tre topic principali: la partnership Enel-Masterchef, la questione carbone a Brindisi e i risultati economici-produttivi di Enel. Le di鍖erenze tra i due approcci sono principalmente due: a di鍖erenza del cluster, con gli hashtag viene sottolineata la partnership tra il Macro di Roma ed Enel; daltra parte il cluster pone laccento sulle opportunit`a di lavoro e assunzioni nellazienda. 3 Conclusioni Alla luce di questa analisi `e possibile concludere che i tweet riguardanti lEnel presentano molteplici nature; in particolare si segnalano tweet in larga parte riguardanti vari eventi attinenti lEnel (processi penali, partnership) e tweet a stampo economico-energetico. Un aspetto da non sottovalutare `e la possibile di鍖usione di opinioni e associazioni negative legate al nome Enel; a tal proposito risulta emblematico laccostamento di Enel alla Tirreno Power per la questione carbone a Brindisi. Ed altrettanto signi鍖cativa `e la predilezione dei classici mezzi di informazione da parte di Enel per tale argomento, a discapito di nuovi canali quali i Social Network come Twitter. Considerato il carattere multinazionale dellazienda (in parte gi`a emerso nel corso dellanalisi), unulteriore analisi potrebbe essere quella di analizzare i tweet legati al mondo Enel in lingua spagnola e inglese, al 鍖ne di integrare in modo completo quanto fatto in questo elaborato. 7
  • 8. Enel e Twitter Riferimenti bibliogra鍖ci [1] G. James, D. Witten, T. Hastie, R. Tibshirani (2013). An Introduction to Statistical Learning: with Applications in R. Springer Texts in Statistics. [2] J. Adler (2012). R in a Nutshell: A Desktop Quick Reference. OReilly (2nd Edition). [3] M. A. Russell (2011). Mining the Social Web: Analyzing Data from Facebook, Twitter, LinkedIn and other Social Media Site. OReilly. 8