Realizzazione di un Add-on per Google Docs per estrazione interattiva di pattern sintattici - 際際滷show
1 of 14
Download to read offline
More Related Content
Realizzazione di un Add-on per Google Docs per estrazione interattiva di pattern sintattici
1. Realizzazione di un Add-on per Google Docs
per estrazione interattiva di pattern sintattici
Relatore
Alberto Bartoli
Correlatore
Eric Medvet
Candidato
Lorenzo Gasparini
1 di 14
2. Descrizione del problema
Dato un documento di testo si vogliono individuare ed estrarre
tutte le occorrenze di un determinato pattern sintattico
Esempi: Indirizzi IP (XXX.XXX.XXX.XXX), Date (DD/MM/YYYY),
E-mail (alias@domain.ext)
2 di 14
3. Motivazione di base
Figura: RegEx (sempli鍖cata) per indirizzo IP
Gli strumenti per speci鍖care ed estrarre pattern da documenti
testuali esistono gi (e.g. RegEx), perch竪 un nuovo approccio?
La curva di apprendimento di tali strumenti 竪 ripida, non sono alla
portata degli utenti comuni
Idea: lutente fornisce degli esempi di entit da estrarre e da non
estrarre, lalgoritmo deduce il pattern e lo estrae dal testo
3 di 14
4. Obiettivo della tesi
Implementare un algoritmo di estrazione delle entit basato sulla
sintassi, sotto forma di Add-on per Google Docs
Lalgoritmo 竪 stato sviluppato nel laboratorio di Machine Learning,
ed 竪 risultato in media il migliore in un confronto con altri
algoritmi su 10 dataset
Lalgoritmo si basa sullactive learning: genera un estrattore sulla
base degli esempi forniti dallutente; sceglie lesempio che deve
aggiungere lutente per migliorare lestrattore
4 di 14
5. Google Docs
Nasce nel 2006, 竪 una piattaforma online di elaborazione testi
Consente agli utenti di creare e modi鍖care documenti direttamente
nel browser e di collaborare con altri utenti in tempo reale
5 di 14
6. Add-on per Google Docs
Dal 2014 竪 possibile sviluppare componenti aggiuntivi che
permettono di ampliare le funzionalit della piattaforma
Un Add-on 竪 composto da un insieme di 鍖le
HTML/Javascript/CSS e di script Google Apps Script, il quale:
basato su Javascript
Viene eseguito dai server di Google
6 di 14
7. Interfaccia Add-on
Per aprire lAdd-on, si apre un documento di testo Google Docs e
si preme Start nella relativa voce del men湛
7 di 14
8. Interfaccia Add-on
Laggiunta di nuovi esempi avviene mediante la selezione del testo
ed il click sul relativo pulsante Add
Gli esempi vengono evidenziati con colori diversi per unindicazione
visuale istantanea
8 di 14
9. Interfaccia Add-on
Extract avvia la costruzione
dellestrattore in base agli
esempi forniti
Il comportamento
dellestrattore 竪 mostrato
dal sistema
Viene formulata una query
allo scopo di ottenere un
nuovo esempio (active
learning)
9 di 14
10. Esportazione estrazioni
Cliccando su Export 竪
possibile esportare le
attuali estrazioni
suggerite in un nuovo
documento
Si aprir una 鍖nestra
modale con un link al
nuovo documento
contenente le estrazioni
10 di 14
11. Dettagli implementativi
Nome 鍖le Righe Contenuto
EntityExtractor.gs 561 Motore dellalgoritmo
Main.gs 507 Gestione interazione utente
Set.gs 54 Struttura dati insieme
Sidebar.css.html 67 CSS Sidebar
Sidebar.html 61 HTML Sidebar
Sidebar.js.html 322 Javascript Sidebar
Store.gs 53 Gestore memorizzazione dati server
TextRange.gs 34 Struttura dati annotazione
11 di 14
12. Limiti della piattaforma e sviluppi futuri
Google Docs 竪 una piattaforma proprietaria che presenta dei limiti
intriseci:
Le evidenziature sono permanenti, modi鍖cano la struttura del
documento
Non 竪 possibile gestire levento di chiusura dellAdd-on, impedendo
lesecuzione di azioni di pulizia del documento
Lo spazio di archiviazione lato server 竪 ristretto, ci嘆 rende di鍖cile
implementare meccanismi di cache atti a diminuire il carico
computazionale dellalgoritmo
Soluzione:
Migrazione a piattaforma web standalone o GUI desktop
12 di 14