際際滷

際際滷Share a Scribd company logo
Ricerca semantica: annotazioni manuali e automatiche per l'Archivio storico de La Stampa Andrea Bolioli 27 ottobre 2014, Bolzano - Bozen 
1
Ovvero, dalle pagine alle infografiche 
Come si costruisce 
un motore di ricerca semantico 
per un archivio storico ? 
Trasformando 
i contenuti testuali 
in dati analizzabili.
Dietro le quinte del processo (making of) 
Microfilm 
Copia digitale e OCR 
Indicizzazione full text 
Annnotazione semantica 
e infografiche 
1 
2 
3
Cosa abbiamo ottenuto ? Alcuni numeri 
4.800.000 
Articoli annotati automaticamente dal 1910 al 2005 
113.000 
Nomi di persona riconosciuti (PER con freq > 10) 
10.200 
Nomi di entit geopolitiche 
(GPE con freq > 10) 
6.500 
Nomi di organizzazioni 
(ORG con freq > 10) 
1.020 
Autori degli articoli 
(Author con freq > 10)
Dietro le quinte: la piattaforma di sviluppo 
http://lastampa.celi.it/lastampa-archivio/ accesso riservato
Dietro le quinte: la dashboard 
Fig: 
facet, annotazioni, tag
Dietro le quinte: la dashboard 
Fig: citazioni delle persone in prima pagina
Dietro le quinte: la dashboard 
Fig: citazioni delle persone in tutte le pagine
Come abbiamo fatto ? 
Selezione dei corpora di training e test: selezionare un campione significativo partendo da 12 milioni di articoli dal 1867 al 2005 
Annotazione manuale dei corpora: interfaccia web collaborativa per annotare velocemente 
Analisi degli errori di OCR: report e statistiche 
Annotazione automatica: classificatori automatici SVM (Support Vector Machine) e a regole linguistiche (pattern matching) 
Verifiche di accuratezza dei risultati e correzioni
Quali difficolt abbiamo incontrato ? 
Errori di OCR: 
la quantit di errori di OCR 竪 considerevole. Abbiamo annotato circa 16000 errori (e correzioni) in 900 articoli. 
Alcuni esempi: 
dustin hoflman, hoftman, holfman, hollman, hotfman, hotlman (dustin hoffmann) , pohtica (politica), poh (poli), de (dc) , pei (pci), doc um e nto (documento) , re- latore (relatore) 
Fig: distribuzione dei tipi di errore per anno
Difficolt ? Dimensioni ed estensione temporale 
12 milioni di articoli e un periodo temporale di quasi 150 anni. 
Non esistevano casi analoghi in Italia di analisi semantica di testi su un intervallo cos狸 ampio. 
Es. delle citazioni di "Verdi" : persona, via, piazza, scuola, nave, teatro, orchestra, ecc. 
Fig: distribuzione delle citazioni 
di alcuni personaggi storici
Che cosa 竪 utile per un archivio digitale ? 
Annotazione automatica, validazione degli esperti, 
annotazione manuale in crowdsourcing (per correggere gli errori di OCR e annotare le entit rilevanti). 
Integrazione di thesauri e ontologie (concetti, sinonimi e altre relazioni semantiche), espansione delle queries (ad es. scuola media <-> scuola secondaria di primo grado; edificio religioso del 700 -> Basilica di Superga), ricerca multilingue e cross- lingue. 
Esplorazione visuale e infografiche (grafi, grafici, timelines)
Che cosa 竪 utile per un archivio digitale ? 
Usabilit, accessibilit, semplicit
Che cosa 竪 (utile per) un archivio ? 
"L'archivio 竪 anche ci嘆 che fa s狸 che tutte queste cose dette non si accumulino all'infinito in una moltitudine amorfa, non si iscrivano in una linearit senza fratture, e non scompaiano solo per casuali accidentualit esterne; ma che si raggruppino in figure distinte, si compongano le une con le altre secondo molteplici rapporti, si conservino o si attenuino secondo regolarit specifiche." 
Michel Foucault (1969) 
L'archeologia del sapere / 
Die Arch辰ologie des Wissens 
"Aber das Archiv ist auch das, was bewirkt, da all diese gesagten 
Dinge sich nicht bis ins Unendliche in einer amorphen Vielzahl anh辰ufen, auch nicht allein schon bei zuf辰lligen 辰ueren Umst辰nden verschwinden.[]"
Grazie per l'attenzione ! 
Per maggiori informazioni: 
Andrea Bolioli 
bolioli@cross-library.com info@celi.it 
@CrossLib @CELI_NLP 
15

More Related Content

Europeana Newspapers LFT Infoday Bolioli

  • 1. Ricerca semantica: annotazioni manuali e automatiche per l'Archivio storico de La Stampa Andrea Bolioli 27 ottobre 2014, Bolzano - Bozen 1
  • 2. Ovvero, dalle pagine alle infografiche Come si costruisce un motore di ricerca semantico per un archivio storico ? Trasformando i contenuti testuali in dati analizzabili.
  • 3. Dietro le quinte del processo (making of) Microfilm Copia digitale e OCR Indicizzazione full text Annnotazione semantica e infografiche 1 2 3
  • 4. Cosa abbiamo ottenuto ? Alcuni numeri 4.800.000 Articoli annotati automaticamente dal 1910 al 2005 113.000 Nomi di persona riconosciuti (PER con freq > 10) 10.200 Nomi di entit geopolitiche (GPE con freq > 10) 6.500 Nomi di organizzazioni (ORG con freq > 10) 1.020 Autori degli articoli (Author con freq > 10)
  • 5. Dietro le quinte: la piattaforma di sviluppo http://lastampa.celi.it/lastampa-archivio/ accesso riservato
  • 6. Dietro le quinte: la dashboard Fig: facet, annotazioni, tag
  • 7. Dietro le quinte: la dashboard Fig: citazioni delle persone in prima pagina
  • 8. Dietro le quinte: la dashboard Fig: citazioni delle persone in tutte le pagine
  • 9. Come abbiamo fatto ? Selezione dei corpora di training e test: selezionare un campione significativo partendo da 12 milioni di articoli dal 1867 al 2005 Annotazione manuale dei corpora: interfaccia web collaborativa per annotare velocemente Analisi degli errori di OCR: report e statistiche Annotazione automatica: classificatori automatici SVM (Support Vector Machine) e a regole linguistiche (pattern matching) Verifiche di accuratezza dei risultati e correzioni
  • 10. Quali difficolt abbiamo incontrato ? Errori di OCR: la quantit di errori di OCR 竪 considerevole. Abbiamo annotato circa 16000 errori (e correzioni) in 900 articoli. Alcuni esempi: dustin hoflman, hoftman, holfman, hollman, hotfman, hotlman (dustin hoffmann) , pohtica (politica), poh (poli), de (dc) , pei (pci), doc um e nto (documento) , re- latore (relatore) Fig: distribuzione dei tipi di errore per anno
  • 11. Difficolt ? Dimensioni ed estensione temporale 12 milioni di articoli e un periodo temporale di quasi 150 anni. Non esistevano casi analoghi in Italia di analisi semantica di testi su un intervallo cos狸 ampio. Es. delle citazioni di "Verdi" : persona, via, piazza, scuola, nave, teatro, orchestra, ecc. Fig: distribuzione delle citazioni di alcuni personaggi storici
  • 12. Che cosa 竪 utile per un archivio digitale ? Annotazione automatica, validazione degli esperti, annotazione manuale in crowdsourcing (per correggere gli errori di OCR e annotare le entit rilevanti). Integrazione di thesauri e ontologie (concetti, sinonimi e altre relazioni semantiche), espansione delle queries (ad es. scuola media <-> scuola secondaria di primo grado; edificio religioso del 700 -> Basilica di Superga), ricerca multilingue e cross- lingue. Esplorazione visuale e infografiche (grafi, grafici, timelines)
  • 13. Che cosa 竪 utile per un archivio digitale ? Usabilit, accessibilit, semplicit
  • 14. Che cosa 竪 (utile per) un archivio ? "L'archivio 竪 anche ci嘆 che fa s狸 che tutte queste cose dette non si accumulino all'infinito in una moltitudine amorfa, non si iscrivano in una linearit senza fratture, e non scompaiano solo per casuali accidentualit esterne; ma che si raggruppino in figure distinte, si compongano le une con le altre secondo molteplici rapporti, si conservino o si attenuino secondo regolarit specifiche." Michel Foucault (1969) L'archeologia del sapere / Die Arch辰ologie des Wissens "Aber das Archiv ist auch das, was bewirkt, da all diese gesagten Dinge sich nicht bis ins Unendliche in einer amorphen Vielzahl anh辰ufen, auch nicht allein schon bei zuf辰lligen 辰ueren Umst辰nden verschwinden.[]"
  • 15. Grazie per l'attenzione ! Per maggiori informazioni: Andrea Bolioli bolioli@cross-library.com info@celi.it @CrossLib @CELI_NLP 15