際際滷

際際滷Share a Scribd company logo
Realizzazione di un Add-on per Google Docs
per estrazione interattiva di pattern sintattici
Relatore
Alberto Bartoli
Correlatore
Eric Medvet
Candidato
Lorenzo Gasparini
1 di 14
Descrizione del problema
 Dato un documento di testo si vogliono individuare ed estrarre
tutte le occorrenze di un determinato pattern sintattico
 Esempi: Indirizzi IP (XXX.XXX.XXX.XXX), Date (DD/MM/YYYY),
E-mail (alias@domain.ext)
2 di 14
Motivazione di base
Figura: RegEx (sempli鍖cata) per indirizzo IP
 Gli strumenti per speci鍖care ed estrarre pattern da documenti
testuali esistono gi (e.g. RegEx), perch竪 un nuovo approccio?
 La curva di apprendimento di tali strumenti 竪 ripida, non sono alla
portata degli utenti comuni
 Idea: lutente fornisce degli esempi di entit da estrarre e da non
estrarre, lalgoritmo deduce il pattern e lo estrae dal testo
3 di 14
Obiettivo della tesi
 Implementare un algoritmo di estrazione delle entit basato sulla
sintassi, sotto forma di Add-on per Google Docs
 Lalgoritmo 竪 stato sviluppato nel laboratorio di Machine Learning,
ed 竪 risultato in media il migliore in un confronto con altri
algoritmi su 10 dataset
 Lalgoritmo si basa sullactive learning: genera un estrattore sulla
base degli esempi forniti dallutente; sceglie lesempio che deve
aggiungere lutente per migliorare lestrattore
4 di 14
Google Docs
 Nasce nel 2006, 竪 una piattaforma online di elaborazione testi
 Consente agli utenti di creare e modi鍖care documenti direttamente
nel browser e di collaborare con altri utenti in tempo reale
5 di 14
Add-on per Google Docs
 Dal 2014 竪 possibile sviluppare componenti aggiuntivi che
permettono di ampliare le funzionalit della piattaforma
 Un Add-on 竪 composto da un insieme di 鍖le
HTML/Javascript/CSS e di script Google Apps Script, il quale:
  basato su Javascript
 Viene eseguito dai server di Google
6 di 14
Interfaccia Add-on
 Per aprire lAdd-on, si apre un documento di testo Google Docs e
si preme Start nella relativa voce del men湛
7 di 14
Interfaccia Add-on
 Laggiunta di nuovi esempi avviene mediante la selezione del testo
ed il click sul relativo pulsante Add
 Gli esempi vengono evidenziati con colori diversi per unindicazione
visuale istantanea
8 di 14
Interfaccia Add-on
 Extract avvia la costruzione
dellestrattore in base agli
esempi forniti
 Il comportamento
dellestrattore 竪 mostrato
dal sistema
 Viene formulata una query
allo scopo di ottenere un
nuovo esempio (active
learning)
9 di 14
Esportazione estrazioni
 Cliccando su Export 竪
possibile esportare le
attuali estrazioni
suggerite in un nuovo
documento
 Si aprir una 鍖nestra
modale con un link al
nuovo documento
contenente le estrazioni
10 di 14
Dettagli implementativi
Nome 鍖le Righe Contenuto
EntityExtractor.gs 561 Motore dellalgoritmo
Main.gs 507 Gestione interazione utente
Set.gs 54 Struttura dati insieme
Sidebar.css.html 67 CSS Sidebar
Sidebar.html 61 HTML Sidebar
Sidebar.js.html 322 Javascript Sidebar
Store.gs 53 Gestore memorizzazione dati server
TextRange.gs 34 Struttura dati annotazione
11 di 14
Limiti della piattaforma e sviluppi futuri
 Google Docs 竪 una piattaforma proprietaria che presenta dei limiti
intriseci:
 Le evidenziature sono permanenti, modi鍖cano la struttura del
documento
 Non 竪 possibile gestire levento di chiusura dellAdd-on, impedendo
lesecuzione di azioni di pulizia del documento
 Lo spazio di archiviazione lato server 竪 ristretto, ci嘆 rende di鍖cile
implementare meccanismi di cache atti a diminuire il carico
computazionale dellalgoritmo
 Soluzione:
 Migrazione a piattaforma web standalone o GUI desktop
12 di 14
Demo
Dimostrazione
13 di 14
Fine
Grazie per lattenzione.
14 di 14

More Related Content

Realizzazione di un Add-on per Google Docs per estrazione interattiva di pattern sintattici

  • 1. Realizzazione di un Add-on per Google Docs per estrazione interattiva di pattern sintattici Relatore Alberto Bartoli Correlatore Eric Medvet Candidato Lorenzo Gasparini 1 di 14
  • 2. Descrizione del problema Dato un documento di testo si vogliono individuare ed estrarre tutte le occorrenze di un determinato pattern sintattico Esempi: Indirizzi IP (XXX.XXX.XXX.XXX), Date (DD/MM/YYYY), E-mail (alias@domain.ext) 2 di 14
  • 3. Motivazione di base Figura: RegEx (sempli鍖cata) per indirizzo IP Gli strumenti per speci鍖care ed estrarre pattern da documenti testuali esistono gi (e.g. RegEx), perch竪 un nuovo approccio? La curva di apprendimento di tali strumenti 竪 ripida, non sono alla portata degli utenti comuni Idea: lutente fornisce degli esempi di entit da estrarre e da non estrarre, lalgoritmo deduce il pattern e lo estrae dal testo 3 di 14
  • 4. Obiettivo della tesi Implementare un algoritmo di estrazione delle entit basato sulla sintassi, sotto forma di Add-on per Google Docs Lalgoritmo 竪 stato sviluppato nel laboratorio di Machine Learning, ed 竪 risultato in media il migliore in un confronto con altri algoritmi su 10 dataset Lalgoritmo si basa sullactive learning: genera un estrattore sulla base degli esempi forniti dallutente; sceglie lesempio che deve aggiungere lutente per migliorare lestrattore 4 di 14
  • 5. Google Docs Nasce nel 2006, 竪 una piattaforma online di elaborazione testi Consente agli utenti di creare e modi鍖care documenti direttamente nel browser e di collaborare con altri utenti in tempo reale 5 di 14
  • 6. Add-on per Google Docs Dal 2014 竪 possibile sviluppare componenti aggiuntivi che permettono di ampliare le funzionalit della piattaforma Un Add-on 竪 composto da un insieme di 鍖le HTML/Javascript/CSS e di script Google Apps Script, il quale: basato su Javascript Viene eseguito dai server di Google 6 di 14
  • 7. Interfaccia Add-on Per aprire lAdd-on, si apre un documento di testo Google Docs e si preme Start nella relativa voce del men湛 7 di 14
  • 8. Interfaccia Add-on Laggiunta di nuovi esempi avviene mediante la selezione del testo ed il click sul relativo pulsante Add Gli esempi vengono evidenziati con colori diversi per unindicazione visuale istantanea 8 di 14
  • 9. Interfaccia Add-on Extract avvia la costruzione dellestrattore in base agli esempi forniti Il comportamento dellestrattore 竪 mostrato dal sistema Viene formulata una query allo scopo di ottenere un nuovo esempio (active learning) 9 di 14
  • 10. Esportazione estrazioni Cliccando su Export 竪 possibile esportare le attuali estrazioni suggerite in un nuovo documento Si aprir una 鍖nestra modale con un link al nuovo documento contenente le estrazioni 10 di 14
  • 11. Dettagli implementativi Nome 鍖le Righe Contenuto EntityExtractor.gs 561 Motore dellalgoritmo Main.gs 507 Gestione interazione utente Set.gs 54 Struttura dati insieme Sidebar.css.html 67 CSS Sidebar Sidebar.html 61 HTML Sidebar Sidebar.js.html 322 Javascript Sidebar Store.gs 53 Gestore memorizzazione dati server TextRange.gs 34 Struttura dati annotazione 11 di 14
  • 12. Limiti della piattaforma e sviluppi futuri Google Docs 竪 una piattaforma proprietaria che presenta dei limiti intriseci: Le evidenziature sono permanenti, modi鍖cano la struttura del documento Non 竪 possibile gestire levento di chiusura dellAdd-on, impedendo lesecuzione di azioni di pulizia del documento Lo spazio di archiviazione lato server 竪 ristretto, ci嘆 rende di鍖cile implementare meccanismi di cache atti a diminuire il carico computazionale dellalgoritmo Soluzione: Migrazione a piattaforma web standalone o GUI desktop 12 di 14