Conferenza tenuta presso la ex SSAB da Stefano De Luca e Paola De Caro (Evodevo) il 12-03-2015 nell'ambito del 9. ciclo "Biblioteche libri documenti: dall'informazione alla conoscenza", a.a. 2014-2015, Prof.ssa M.T. Biagetti
1 of 55
Downloaded 60 times
More Related Content
Ontologie per i linked open data / Stefano De Luca, Paola De Caro, Claudia Corcione
2. info su www.evodevo.it
EVODEVO: CHI SIAMO
Evodevo 竪 azienda di innovazione
per progetti Enterprise per clienti istituzionali e privati
Fornisce consulenza specializzata sulle tematiche dei dati e modelli
3. info su www.evodevo.it
FOCUS: KNOWLEDGE EXTRACTION AND VISUALIZATION
Big Data
GISSemantica
Personale altamente specializzato sulle tematiche
indicate
Ontologi ed esperti di meta-dati e knowledge
management
Statistici e matematici
Informatici e GIS
Focus su estrazione e visualizzazione della conoscenza attraverso
data and text mining,
tecnologie semantiche,
GIS (sistemi geografici)
Realizzazione di
portali di accesso e uso di dati
sistemi di supporto delle decisioni
gestione della conoscenza ed open
data
I nostri prodotti e servizi sono specializzati su:
Open Data
Semantic web e sistemi intelligenti
Knowledge management
Sistemi geografici (GIS, GIScience)
Sistemi di supporto alle indagini
Data Visualization
Business intelligence e Location intelligence
Sistemi di supporto alle decisioni
Data mining e text mining
6. info su www.evodevo.it
PUBBLICAZIONE DEI DATI
Realizzazione degli open data INPS
Sviluppo di una metodologia OD
Organizzatori Open Government Summit 2012
Azienda invitata G8 UK per trasparenza e OD e Open Data Charter
Supporto alla redazione di documenti normativi
Sviluppo di applicazioni web e mobile su OD
Citati come caso di eccellenza dalla World Bank
OD per Comuni (pubblicazione e riuso)
Sviluppato prodotto di trasformazione e pubblicazione,
OpenDataGround
Membri Open Knowledge Foundation (OKF)
Soci fondatori e consiglieri dell Istituto Italiano Open Data
7. info su www.evodevo.it
IL WEB
Lattuale web 竪 rivolto alle PERSONE
Il focus 竪 su:
Contenuti (testi, immagini, video)
Pagine che raccolgono i contenuti
Collegamenti tra pagine: hyperlink
Esistono degli standard per definire come 束costruire損 il web, ad es:
HTML: per la definizione delle pagine
HTTP: protocollo di comunicazione per ricevere pagine e chiederne di nuove
Gli standard sono definiti e controllati dal W3C, World Wide Web Consortium
8. info su www.evodevo.it
IL SEMANTIC WEB
Alla fine degli anni 90 il 束padre損 del web, Tim Berners-Lee ha proposto
lestensione dal WEB al SEMANTIC WEB
Il semantic web 竪 rivolto ai SOFTWARE
Lidea di fondo 竪 che agenti software intelligenti possano 束leggere損 il web e
usare le informazioni per interagire tra loro e il web per rispondere a dei compiti
9. info su www.evodevo.it
an extension of the current web in which
information is given well-defined meaning,
better enabling computers and people to work in
cooperation
a set of connected applications forming
a consistent logical web of data
11. info su www.evodevo.it
ONTOLOGIE
La base del semantic web. E un oggetto composto da:
Un vocabolario usato per descrivere un dominio (ambito)
Unesplicita specificazione del significato inteso per il vocabolario
Spesso include informazioni di classificazione
Vincoli che catturino la conoscenza tacita (background knowledge) del
dominio
Una buona ontologia dovrebbe:
Catturare il signicato condiviso di un dominio
Forire un modello formale ed usabile della macchine (software)
12. info su www.evodevo.it
LINGUAGGI DELLE ONTOLOGIE: RDF, RDFS
Si 竪 creato un linguaggio che permettesse di definire le
risorse
Il primo di questi linguaggi 竪 RDF (Resource Description
Framework , aumentato successivamente da RDFS (RDF
Schema)
Permettono di definire:
Classi e propriet
Sub/super-classi (e propriet )
Range e domain ( delle properties)
stato un buon inizio, ma troppo debole per descrivere le risorse
in dettaglio e consentire la possibilit di dedurre nuove
informazioni
13. info su www.evodevo.it
LINGUAGGI DELLE ONTOLOGIE:
OWL - WEB ONTOLOGY LANGUAGE
RDF 竪 stato esteso per creare un linguaggio che fosse capace
di descrivere un dominio e di permettere un reale reasoning
Il reasoning (ragionamento automatico) 竪 la capacit di
estrarre nuova conoscenza a partire dalle informazioni che si
hanno a disposizione
Il nuovo linguaggio si chiama WEB ONTOLOGY LANGUAGE
(OWL)
Esiste in diverse versioni, progressivamente pi湛 complesse:
OWL-LITE: semplice da implementare ma poco espressivo
e oramai praticamente deprecato
OWL-DL: basato sulla logica descrittiva, finalizzato
soprattutto al reasoning
OWL-FULL: massima espressivit rispetto alla descrizione
di un dominio di conoscenza, pertanto meno adatto al
reasoning (problema della indecidibilit)
La versione attuale 竪 OWL 2,
15. info su www.evodevo.it
LA BASE DELLE ONTOLOGIE: LE TRIPLE
Le ontologie rappresentano ogni
informazione sotto forma di TRIPLE
composte da:
SOGGETTO
RELAZIONE
OGGETTO
Nellesempio di lato,
rappresentiamo il fatto che Evodevo
si occupa di ontologie
Evodevo
Ontologie
Si occupa di
16. info su www.evodevo.it
LA BASE DELLE ONTOLOGIE: LE TRIPLE /2
Usando le triple, si possono
aggiungere altri fatti
Nella figura abbiamo esteso il
fatto precedente con altre
informazioni (altri due fatti)
Evodevo
Ontologie
Si occupa di
Azienda
(is-a)
Intelligenza artificiale
parte di (part-of)
17. info su www.evodevo.it
RIFERIMENTI ASSOLUTI
Le ontologie ereditano molto dalle reti semantiche
Aggiungono a queste un concetto essenziale
OGNI ELEMENTO IN UNA ONTOLOGIA DEVE ESSERE UNICO SU TUTTO IL WEB
Questo vuol dire che non basta comporre una tripla dicendo
<evodevo, 竪, Azienda>
Perch辿 sia evodevo che azienda sono ambigui sulla rete: qualcuno potrebbe
definire un altro evodevo o un altro modo di intendere azienda
Il ragionamento che sta dietro questo problema 竪 che LE ONTOLOGIE SI
POSSONO UNIRE TRA DI LORO e quindi ogni elemento deve essere UNICO
18. info su www.evodevo.it
RIFERIMENTI ASSOLUTI: LE URI
Per rendere unici gli elementi, si usano le URI (Uniform Resource Identifier) o
meglio ancora IRI (Internationalized Resource Identifier), che sono URI con
caratteri internazionali
Questo vuol dire che la tripla
<evodevo, 竪, Azienda>
Diventa:
<http://www.evodevo.it/ontology#Evodevo,
http://www.w3.org/1999/02/22-rdf-syntax-ns#type,
http://www.evodevo.it/ontology#Azienda>
Abbiamo colorato in arancione le parti di prefisso, la componente che con il
nome rende unico il riferimento
19. info su www.evodevo.it
URI NON URL
Ogni elemento di unontologia RDF o OWL dovr quindi essere definito con una
URI
Le URI sono molto simili agli indirizzi che usiamo sul web, i cosidetti URL (Uniform
Resource Locator):
http://www.evodevo.it/
http://it.wikipedia.org/wiki/Ontologia_(informatica)
mailto:info@evodevo.it
Le URI per嘆 non devono puntare a qualcosa che esista davvero su Internet
Se cercate una URI tramite il browser potreste non trovare nulla
20. info su www.evodevo.it
FATTI E DEFINIZIONI
Le ontologie sono composte da fatti e definizioni
Le definizioni compongono la TBOX (Terminological Box)
Es. le persone sono umani, le ruote fanno parte di unautomobile
I fatti compongono la ABOX (Assertional Box):
Claudia e Paola sono persone
Stefano guida una Volvo
La somma delle due parti 竪 unontologia completa
22. info su www.evodevo.it
COSA SONO GLI OPEN DATA
Nati come variante semplice del semantic web
Il semantic web chiede di pubblicare i dati in formato ontologico pochi lo
hanno fatto
Con gli open data lidea 竪:
pubblicate i dati in qualunque formato!
Gli open data sono dati accompagnati da:
licenza che li renda riusabili senza limiti, anche per scopi commerciali
Metadati che permettano di trovarli e capirli
23. info su www.evodevo.it
OPEN DATA ED OPEN GOVERNMENT
Gli open data sono legati ai principi dellopen government
Per questo sono stati sposati principalmente dalle pubbliche amministrazioni
25. info su www.evodevo.it
I CINQUE LIVELLI OPEN DATA
dati in formato testo (.PDF, .TXT)
dati disponibili in struttura proprietaria (.XLS)
dati disponibili in formato non-proprietario (.CSV, .XML)
dati strutturati con URL ed URI
dati collegati (linked data) in formato semantico
(RDF /OWL + link)
26. info su www.evodevo.it
ESEMPIO DI OPEN DATA: LE BIBLIOTECHE DEL COMUNE DI
FIRENZE
I dati vengono pubblicati sul web
Sono scaricabili in almeno uno dei formati open
Questi dati possono essere usati per mera consultazione o elaborati
Chi li scarica li pu嘆 usare per:
Analisi
Statistiche
Costruire applicazioni
Integrarli con altri dati
Vediamo ad es. come si distribuiscono i dati delle Biblioteche di Firenze
27. info su www.evodevo.it
COSA E COME PUBBLICARE
La Legge n. 221/2012, con modificazioni, del Decreto legge n. 179 del 18 Ottobre 2012,
denominato Decreto Crescita 2.0 stabilisce per le PA lobbligo di:
pubblicazione sul sito web di una sezione 束Amministrazione trasparente損 in cui esporre in
formato open informazioni relative a somme di danaro superiori a 1000 , erogate a qualsiasi
titolo
pubblicazione del catalogo dei dati, delle banche dati e dei metadati in loro possesso e i
regolamenti che ne disciplinano laccesso e il riutilizzo
principio dellOpen Data by default, ovvero che i dati si intendono rilasciati come dati aperti se
non hanno unespressa adozione di licenza.
il D.lgs 33/2013 detto Decreto trasparenza ha imposto dei requisiti fondamentali per i dati sulla
trasparenza:
Elenco dei dati con obbligo di pubblicazione per la trasparenza, anche per un maggiore
controllo sulle prestazioni erogate dalla PA
accessibilit, riuso, formato leggibili i dalle macchine, metadati, licenza, formati destinati alla
fruizione del pubblico.
Rispetto per il trattamento dei dati personali.
28. info su www.evodevo.it
ESEMPIO DI USO: INCIDENTI STRADALI LOROS LOCAL ROAD
SAFETY
Evodevo ha realizzato una piattaforma
per lanalisi degli incidenti stradali
Inizialmente creata per la Polizia, 竪 stata
successivamente evoluta
Consente di avere informazioni su:
Dati degli incidenti
Strade e incroci pi湛 pericolosi
Ragioni della pericolosit
Differenze nel tempo (orari, giorni
della settimana, feriale/festivo etc.)
Previsione futura del rischio stradale
Disponibile plugin per integrare i dati
messi a disposizione da ISTAT tramite
SISTAN
Presentato alla XI Conferenza Nazionale
dellISTAT come caso di eccellenza
31. info su www.evodevo.it
LINKED OPEN DATA: PROBLEMATICHE E OBIETTIVI
I motivi per cui incentivare lo sviluppo e lutilizzo dei Linked Open Data possono essere
analizzati da due punti di vista:
Interoperabilit semantica, per una maggiore condivisione e riutilizzo delle
informazioni.
Nuova conoscenza, dedotta ed esplicitata dal collegamento delle informazioni.
32. info su www.evodevo.it
BEST PRACTICE LOD NELLE PUBBLICHE AMMINISTRAZIONI
Sfruttamento del proprio patrimonio informativo
Collegamento dei propri dati con quelli di altre amministrazioni
Deduzione di nuova conoscenza attraverso il collegamento di dati e informazioni
Dati e metadati in ununica struttura e linguaggio, in RDF/OWL
Riutilizzo automatico dei dati attraverso software
Scelta di metodologie specifiche per gli open data e linked open data (ODMC, Open Data
Management Cycle, Evodevo Open Process)
Web of data
33. info su www.evodevo.it
E-GOV, AMMINISTRAZIONI E LOD
Interesse crescente da parte delle pubbliche amministrazioni verso
linteroperabilit semantica, anche attraverso la pubblicazioni di:
Studio sulle best practices e raccomandazioni nell'uso delle Persistent URI (con
iniziative che riguardano i Linked Open Data e il Semantic Web) (AGID, 2012)
Interoperabilit semantica attraverso i Linked Open Data (AGID, 2012)
Linee Guida Nazionali Per La Valorizzazione Del Patrimonio Informativo Pubblico
(AGID 2013)
e-GLU 2.0 (Gruppo di Lavoro per lUsabilit, 2014).
34. info su www.evodevo.it
VANTAGGI DEI LINKED OPEN DATA RISPETTO AGLI OPEN DATA
I LOD sono pi湛 potenti in quanto:
possibile collegare i dati e le ontologie tra di loro (linked)
possibile distribuirli tramite un punto di accesso real-time (end point sparql) su
cui operare interrogazioni ed ottenere i dati anche in altri formati
35. info su www.evodevo.it
LINKED!
Ai dati di una ontologia si
possono unire dati di altre
ontologie
Cos狸 gli open data permettono
di muoversi da unontologia
allaltra, con una grande
ricchezza informativa
Si usa lecosistema delle
ontologie
A fianco uno schema molto
parziale delle ontologie
publiche e i loro collegamenti
36. info su www.evodevo.it
ESEMPIO DI CONNESSIONE: UNIRE AI PROPRI DATI QUELLI DI
DBPEDIA (WIKIPEDIA)
Evodevo
Roma
Ha sede in
Dbpedia:Roma
Same as
Dbpedia:Lazio
dbpedia-owl:administrativeDistrict
is dbpedia-owl:city of
dbpedia-
it:Biblioteca_Nazionale_
Centrale_di_Roma
dbpedia-
owl:ArchitecturalStructure
Is a
110 120 130 150 160
190 210 230 260 270
300
dbpprop-it:tempmax
45. info su www.evodevo.it
RISPOSTA METODOLOGICA AL PROBLEMA
DELLINTEROPERABILITA:
STANDARDIZZARE TUTTI I LIVELLI DI INTEROPERABILITA
Livello sintattico-strutturale della risorsa: linguaggio di rappresentazione (es. RDF/OWL,
standard W3C) e linguaggio che modella la struttura della risorsa (es. RDF DATA CUBE
Vocabulary, standard W3C);
Livello lessicale delle dimensioni, attributi e misure : nome o tipo di dimensioni, misure,
attributi (tipici di risorse statistiche), standardizzati con insiemi di metadati statistici
standard come SDMX;
Livello dei valori delle dimensioni, attributi e misure : valore delle dimensioni, misure,
attributi, attinti dove possibile da basi di conoscenza note come lo stesso SDMX o Dbpedia
ecc..
Livello lessicale dei metadati delle risorse: tipologia di metadati con cui descrivere una
risorsa, standardizzati tramite vocabolari riconosciuti come Dublin core, SKOS, FOAF ecc..
Livello dei valori dei metadati delle risorse : contenuto dei metadati, come il titolo,
lautore, la data di pubblicazione;
Livello dei valori dei metadati semantici : gli argomenti trattati nelle risorse,
standardizzati quando possibile, con basi di conoscenza in formato semantico come
Dbpedia, FreeBase, UKAT ecc..
47. info su www.evodevo.it
MODELLARE LA CONOSCENZA PER AUMENTARE
LINTEROPERABILIT DEI LOD INPS
I dataset INPS hanno una struttura simile alle
tabelle OLAP, ovvero sono dati
multidimensionali;
Le tabelle OLAP sono trasformate in grafi
OWL attraverso RDF Data Cube Vocabulary.
Questo approccio consente la conversione di
dati multidimensionali mantenendo le
relazioni tra le dimensioni, le misure e gli
attributi.
LObservation 竪 il fenomeno da descrivere,
espresso dal valore della cella, definito
attraverso le relazioni con dimensioni, misure
e attributi.
49. info su www.evodevo.it
RISPOSTA METODOLOGICA AL PROBLEMA DI DEDURRE NUOVA
CONOSCENZA
STRUTTURA A GRAFO: la struttura stessa dei dati permette di navigarli e
trovare nuovi collegamenti non esplicitati dai produttori dei dati;
COLLEGAMENTI ESTERNI: i livelli di standardizzazione permettono di collegare i
dati con altre informazioni esterne e dunque dedurre nuovi fatti da tali legami;
REGOLE LOGICHE: la creazione di restrizioni e regole (causa-effetto) per
organizzare la conoscenza a seconda degli scopi da raggiungere;
REASONING: i meccanismi di deduzione logica permettono di verificare le
regole e riclassificare le informazioni, scoprendone di nuove.
50. info su www.evodevo.it
SCOPERTA DI NUOVA DEDUZIONE DA LINKED
CLOSED DATA
Evodevo Fraud Detection System
Strumento per la ricerca di sospetti di frodi allinterno di un sistema.
Dal DB relazionale al DB semantico.
Creazione di unontologia per la modellazione dei dati.
Creazione di regole personalizzate (SWRL) per lindividuazione di soggetti
perseguibili per frode, in base allambito di applicazione.
Possibilit di azioni inferenziali sulla base di conoscenza.
51. info su www.evodevo.it
DECISION SUPPORT SYSTEM (DSS) AD USO
DEL COMUNE DI FIRENZE
Il sistema consente di:
Utilizzare i dati gi in possesso del
Comune.
Trasformare i dati in formato
semantico.
Conservare i dati in triple (N-
triple).
Definire regole per
lindividuazione di fasce di
sospetto.
Classificare gli utenti in base al
grado di sospetto.
Interrogare il sistema con
interfaccia user-friendly, collegato
all endpoint SPARQL del triple
store.
52. info su www.evodevo.it
ESEMPIO DI REGOLA PER SCOPRIRE NUOVE
INFORMAZIONI
Possibili evasori fiscali nel Comune di Firenze
Dato un cittadino iscritto all A.I.R.E* C:
C 竪 possibile Evasore di grado Alto se
C possiede utenza elettrica U
and C ha consumo annuo superiore alla soglia S
and C possiede richieste di occupazione del suolo pubblico R
* AIRE = Associazione Italiani Residenti allEstero
53. info su www.evodevo.it
SCOPRIRE NUOVE INFORMAZIONI PER NUOVE
ANALISI
Con il collegamento tra linked (closed) data e linked (open) data, si possono dedurre nuove
informazioni.
Esempio di reasoning geografico per il Comune di Firenze:
Con i dati dei consumi delle utenze dei
cittadini e i dati geografici di
localizzazione dei cittadini e dei quartieri
si pu嘆 capire quali di essi sono fuori
soglia dei consumi relativi a quel
quartiere
54. info su www.evodevo.it
SITOGRAFIA
Standard per il Semantic Web: http://www.w3.org/standards/semanticweb/
Vocabolari e ontologie RDF/OWL: http://lov.okfn.org/dataset/lov/
Specifiche tecniche Data Cube Vocabulary: http://www.w3.org/TR/vocab-data-cube/
Linee Guida per utilizzare il protocollo SDMX: http://sdmx.org/wp-content/uploads/2009/01/00_sdmx_content-
oriented_guidelines_2009.pdf
Semantic Web Tutorial: http://www.w3.org/People/Ivan/CorePresentations/SWTutorial/
Strumenti:
http://protege.stanford.edu/
https://github.com/dbpedia-spotlight/dbpedia-spotlight/wiki
http://lodlive.it/
http://stardog.com/
http://virtuoso.openlinksw.com/
http://www.oracle.com/us/products/database/options/spatial/overview/index.html
http://logd.tw.rpi.edu/technology/csv2rdf4lod
Casi d'uso:
http://www.inps.it/portale/default.aspx?iIDLink=43&bi=08&link=Open+Data
http://dati.camera.it/it/linked-data/
http://dati.senato.it/23
http://www.opensanita.it/open-data/2014-02-14-11-44-29
http://www.opensanita.it/naviga-dati/
http://digital-agenda-data.eu/
http://www.opencoesione.gov.it
http://parlamentocasadivetro.openpolis.it
54
55. info su www.evodevo.it
55
RIFERIMENTI
Per informazioni:
Stefano De Luca s.deluca@evodevo.it
Paola De Caro p.decaro@evodevo.it
Claudia Corcione c.corcione@evodevo.it
Evodevo srl
Via dei Castelli Romani 12a
00040 Pomezia (Roma)
Tel. 06 9108509
info@evodevo.it
www.evodevo.it