際際滷

際際滷Share a Scribd company logo
OntoPiA e il knowledge Graph della
Pubblica Amministrazione Italiana
Giorgia Lodi
Meetup #AperiTech di GraphRM
Data is a network
A single road only takes us to places between two locations; roads real value
comes from being part of a network. Data works in the same way: it is not just
having more data that unlocks its value, but linking it together. Data is not
individual datasets, it is a network
2
Standard del Web Semantico
3	
href link non tipato)
Risorse: Documenti Web
HTML con link non tipati (href)
Standard del Web Semantico
4	
E se facessimo la stessa cosa con i dati?
href link non tipato)
Risorse: Documenti Web
HTML con link non tipati (href)
5	
2007
Linked Open Data Cloud
Linked Open Data Cloud
6	
28 giugno
2018
Standard Web Semantico: RDF
7	
≒ Un modello per I dati nel web dove I dati sono espressi sottoforma di Triple
≒ Soggetto Predicato Oggetto
≒ Ogni entit 竪 identificata univocamente da un URI (Uniform Resource Identifier)
≒ Il Soggetto e il Predicato hanno sempre un URI
≒ LOggetto pu嘆 anche essere un valore predefinito (Literale)
≒ Le triple sono interconnesse quando condividono la stessa entit
≒ Il risultato 竪 un grafo interconnesso di triple (Linked Data)
dpedia:Rome
dbpedia:Italy
dbpedia:country foaf:homepage
Roma
http://www.italia.it/en/home.html
Potete provare a navigare
http://dbpedia.org/page/Rome
Vantaggi dellRDF
≒ E un modello di rappresentazione dei dati pensato per il Web
≒ E basato su standard del Web
≒ Consente nativamente di abilitare lintegrazione tra I dati
≒ Fornisce un meccanismo per risolvere lidentiti delle cose
≒ Nativamente fornisce meccanismi per garantire
interoperabilit semantica
≒ E usato insieme al linguaggio per interrogare I dati (i.e.,
SPARQL)
≒ I dati sono cos狸 associati a delle API che facilitano
linterrogazione da parte delle macchine
Ma non li usa nessuno!!
9
Ma non li usa nessuno!!
10
Ma non li usa nessuno!!
11
Ma non li usa nessuno!!
12	
Google
knowledge
graph
Ma non li usa nessuno!!
13
Da dove iniziare?
Nel 2012 AgID
pubblicava le linee
guida per
Interoperabilit
semantica
attraverso I Linked
Open Data
OntoPiA  la rete di ontologie e
vocabolari controllati della Pubblica
Amministrazione
Meetup #AperiTech di GraphRM
16	
Cos竪 OntoPiA e a cosa serve
≒ Definisce un linguaggio comune per linterscambio di dati
(interoperabilit semantica)
≒ Definisce un modello formale, elaborabile da dispositivi digitali e
leggibile da umani (i.e., superamento della logica delle specifiche
scritte in soli file PDF!)
≒ Apre la strada alla creazione di dati nativamente collegati, i.e.,
fornisce gli schemi dati per creare, interrogare il grafo della
conoscenza (knowledge graph) della PA italiana
≒ ONTOLOGIA: una specifica formale ed
esplicita di rappresentazione
(concettualizzazione) condivisa di un
dominio di conoscenza, definita sulla
base di requisiti specifici
≒ VOCABOLARIO CONTROLLATO: una serie
di termini e codici standard predefiniti e
autorizzati, preselezionati al fine di
indicizzare e recuperare informazioni
.
17
17	
OntoPiA- rete di ontologie e vocabolari controllati
18	
FACILITARE LO SVILUPPO
DI NUOVI SISTEMI
INFORMATIVI
	
AGEVOLARE LO SCAMBIO DI
DATI
ABILITARE LINTEGRAZIONE
TRA DATI PROVENIENTI DA
SORGENTI DIVERSE
STANDARDIZZAZIONE DEI
DATI (APERTI)
OntoPiA  perch辿?
19	
OntoPiA e i principi del modello FAIR
≒ Findable: si usano URI permanenti per identificare concetti e relazioni
nella rete di ontologie e termini nei vocabolari controllati
≒ Accessible: si utilizzano protocolli standard aperti per laccesso sul
Web (i.e. HTTP(S)) and per linterrogazione dei dati (i.e. SPARQL)
≒ Interoperable: si utilizzano protocolli standard aperti per modellare i
dati i.e. RDF e OWL
≒ Reusable: tutte le ontologie e i vocabolari controllati sono pubblici,
rilasciati secondo una licenza aperta (CC-BY 4.0) e sono collegati ad
altre ontologie standard (de facto) disponibili nel Web dei Dati
Pi湛 serializzazioni disponibili
RDF/XML, RDF/turtle, JSON-LD
URI in inglese e persistenti  uso di w3id.org
https://w3id.org/italia/onto/ , https://w3id.org/italia/controlled-vocabulary/
https://w3id.org/italia/data/.
Riuso indiretto di ontologie esistenti
Multilinguismo (etichette e descrizioni in ITA e ENG)
Navigazione html delle ontologie e dei vocabolari e interrogazione via
SPARQL
http://ontopia.daf.teamdigitale.it/sparql
o
Agile eXtreme Design, Ontology Design Pattern
F
A
I
R
OntoPiA - Principi
.
21
21	
OntoPiA  Approccio tecnico in a nutshell
Vocabolari
controllati
Ontologie Profilo
Applicativo
Italiano
(AP_IT)
Classe Propriet
Restrizione
Concetto
Ontologie e vocabolari controllati esterni del Web Semantico
Allineamenti esterni (aligns)
Componente
Ontologia
coinvoltaIn
associataA
importa
closeMatch, exactMatch,
relatedMatch, sameAs
importa
subClassOf, subPropertyOf, equivalent*
Versioning
23
23	
OntoPiA  Stack ontologico
24	
OntoPiA vista come rete
.
25
25	
Lattuale OntoPiA in numeri
25 ONTOLOGIE PUBBLICATE 1 IN FASE DI SVILUPPO
2 IN FASE DI REVISIONE 2 ONTOLOGIE PER METADATI
264 CLASSES
22 VOCABOLARI CONTROLLATI
1 MAPPING TRA DUE VOCABOLARI CONTROLLATI
~10800 AXIOMS
26	
OntoPiA-UI
Navigazione
HTML via LODE
(open source)
Navigazione HTML
via LodView
(open source) Interrogazione
machine-to-machine
via SPARQL endpoint
Visualizzazione
grafica (WebOWL)
https://github.com/italia/OntoPiA-UI
Esempio di interrogazioni sui dati
≒ COLLABORAZIONE CON CENTRI DI RICERCA
STLab  Semantic Technologies Laboratory del CNR, Sapienza
Universit di Roma
≒ COLLABORAZIONE CON PUBBLICHE AMMINISTRAZIONI
e.g.,ISTAT, MIBAC, Regione Piemonte, ANAC, Comuni di
Palermo e Udine, Provincia Autonoma di Trento
≒ COINVOLGIMENTO DEGLI UTENTI FINALI
Disponibile su Github: chiunque pu嘆 SEMPRE commentare e/o
proporre cambiamenti e correzioni
https://github.com/italia/daf-ontologie-vocabolari-controllati
.
28
28	
OntoPiA- coinvolgimento PA e utenti
OntoNetHub
≒ Unapplicazione web implementata per la gestione della rete di
ontologie
≒ Consente operazione di caricamento, cancellazione e
indicizzazione degli elementi delle ontologie della rete
≒ Progettata come estensione di Apache Stanbol e rilasciata come
container Docker
https://github.com/teamdigitale/ontonethub
OntoPiA  chi la usa
≒ DAF - Catalogo ontologie e vocabolari
controllati
≒ DAF semantic tagging
≒ Harvesting di metadati
≒ Alcuni interessanti riusi da PA e Aziende
30
DAF  Data & Analytics Framework
Meetup #AperiTech di GraphRM
DAF  Data & Analytics Framework
≒ Sistema legale
≒ presupposti normativi alle attivit di valorizzazione del patrimonio informativo
pubblico, preservando la privacy
≒ Gruppo di specialisti (data scientist + data engineer)
≒ disegna la strategia, usa ed evolve la piattaforma
≒ analizza i dati, creando storie e data application
≒ supporta le PA
≒ Piattaforma Nazionale Digitale dei Dati
≒ conserva, integra e standardizza i dati delle PA
≒ Implementa meccanismi di apprendimento automatico
≒ Redistribuisce dati (API) e li visualizza (portale dei dati)
Data & Analytics Framework
https://dataportal.daf.teamdigitale.it/
34
34	
OntoPiA  Catalogo versione Alpha
35
35	
Federazione di cataloghi usando OntoPiA
35
Ministero Beni e Attivit culturali
http://dati.beniculturali.it/
Regione Toscana  piattaforma CKAN
http://dati.toscana.it/catalog.rdf Comune di Palermo  piattaforma
proprietaria
https://opendata.comune.palermo.it/
dcat/dcat.php
DCAT-AP_IT  estensione
per CKAN implementata
sullontologia di
metadatazione di OntoPiA
Uso del vocabolario
controllato delle licenze
DAF
Creare il knowledge graph dal DAF 
Data & Analytics Framework
Meetup #AperiTech di GraphRM
Gestione flusso per triplificazione
37
Script R2RML
E nostra intenzione
pubblicare i
mapping
presumibilmente
nel repo delle
ontologie
Gestione Flusso per triplificazione
39
Gestione Flusso per triplificazione
40
Gestione Flusso per triplificazione
41
Primi risultati preliminari
≒ Linked Open Data dellarchivio storico dei comuni utilizzando 3 dataset
≒ Tabella dei Comuni ANPR (storico)  file principale
≒ Dataset degli ultimi Comuni dItalia di ISTAT
≒ Dataset dellarchivio storico dei Comuni
Il dataset finale 竪 modellato secondo lontologia CLV-AP_IT (Core Location
Vocabulary  Italian Application Profile)
≒ Linked Open Data preliminari dellIndice della Pubblica Amministrazione
≒ Il Dataset 竪 collegato al precedente
Il dataset 竪 modellato secondo lontologia COV-AP_IT (Core Organization
Vocabulary  Italian Application Profile)
Non ancora pubblicati nello SPARQL endpoint - nelle prossime settimane
43
43	
Attuali e futuri lavori
SVILUPPO ONTOLOGIE
Stabilizzazione di alcune ontologie
Definizione di nuove sulla base degli ecosistemi del piano triennale
Definizione della documentazione online
PRODUZIONE E PUBBLICAZIONE DEI LINKED (OPEN) DATA
Produzione di altri Linked Open Data per estendere lattuale knowledge
graph
SVILUPPO CATALOGO ONTOLOGIE
Abilitare la ricerca generale e per singoli elementi delle ontologie, in
questultimo caso via indicizzatore gi disponibile OntonetHub
Grazie per lattenzione!
Meetup #AperiTech di GraphRM

More Related Content

Il "Knowledge Graph" della Pubblica Amministrazione Italiana

  • 1. OntoPiA e il knowledge Graph della Pubblica Amministrazione Italiana Giorgia Lodi Meetup #AperiTech di GraphRM
  • 2. Data is a network A single road only takes us to places between two locations; roads real value comes from being part of a network. Data works in the same way: it is not just having more data that unlocks its value, but linking it together. Data is not individual datasets, it is a network 2
  • 3. Standard del Web Semantico 3 href link non tipato) Risorse: Documenti Web HTML con link non tipati (href)
  • 4. Standard del Web Semantico 4 E se facessimo la stessa cosa con i dati? href link non tipato) Risorse: Documenti Web HTML con link non tipati (href)
  • 6. Linked Open Data Cloud 6 28 giugno 2018
  • 7. Standard Web Semantico: RDF 7 ≒ Un modello per I dati nel web dove I dati sono espressi sottoforma di Triple ≒ Soggetto Predicato Oggetto ≒ Ogni entit 竪 identificata univocamente da un URI (Uniform Resource Identifier) ≒ Il Soggetto e il Predicato hanno sempre un URI ≒ LOggetto pu嘆 anche essere un valore predefinito (Literale) ≒ Le triple sono interconnesse quando condividono la stessa entit ≒ Il risultato 竪 un grafo interconnesso di triple (Linked Data) dpedia:Rome dbpedia:Italy dbpedia:country foaf:homepage Roma http://www.italia.it/en/home.html Potete provare a navigare http://dbpedia.org/page/Rome
  • 8. Vantaggi dellRDF ≒ E un modello di rappresentazione dei dati pensato per il Web ≒ E basato su standard del Web ≒ Consente nativamente di abilitare lintegrazione tra I dati ≒ Fornisce un meccanismo per risolvere lidentiti delle cose ≒ Nativamente fornisce meccanismi per garantire interoperabilit semantica ≒ E usato insieme al linguaggio per interrogare I dati (i.e., SPARQL) ≒ I dati sono cos狸 associati a delle API che facilitano linterrogazione da parte delle macchine
  • 9. Ma non li usa nessuno!! 9
  • 10. Ma non li usa nessuno!! 10
  • 11. Ma non li usa nessuno!! 11
  • 12. Ma non li usa nessuno!! 12 Google knowledge graph
  • 13. Ma non li usa nessuno!! 13
  • 14. Da dove iniziare? Nel 2012 AgID pubblicava le linee guida per Interoperabilit semantica attraverso I Linked Open Data
  • 15. OntoPiA la rete di ontologie e vocabolari controllati della Pubblica Amministrazione Meetup #AperiTech di GraphRM
  • 16. 16 Cos竪 OntoPiA e a cosa serve ≒ Definisce un linguaggio comune per linterscambio di dati (interoperabilit semantica) ≒ Definisce un modello formale, elaborabile da dispositivi digitali e leggibile da umani (i.e., superamento della logica delle specifiche scritte in soli file PDF!) ≒ Apre la strada alla creazione di dati nativamente collegati, i.e., fornisce gli schemi dati per creare, interrogare il grafo della conoscenza (knowledge graph) della PA italiana
  • 17. ≒ ONTOLOGIA: una specifica formale ed esplicita di rappresentazione (concettualizzazione) condivisa di un dominio di conoscenza, definita sulla base di requisiti specifici ≒ VOCABOLARIO CONTROLLATO: una serie di termini e codici standard predefiniti e autorizzati, preselezionati al fine di indicizzare e recuperare informazioni . 17 17 OntoPiA- rete di ontologie e vocabolari controllati
  • 18. 18 FACILITARE LO SVILUPPO DI NUOVI SISTEMI INFORMATIVI AGEVOLARE LO SCAMBIO DI DATI ABILITARE LINTEGRAZIONE TRA DATI PROVENIENTI DA SORGENTI DIVERSE STANDARDIZZAZIONE DEI DATI (APERTI) OntoPiA perch辿?
  • 19. 19 OntoPiA e i principi del modello FAIR ≒ Findable: si usano URI permanenti per identificare concetti e relazioni nella rete di ontologie e termini nei vocabolari controllati ≒ Accessible: si utilizzano protocolli standard aperti per laccesso sul Web (i.e. HTTP(S)) and per linterrogazione dei dati (i.e. SPARQL) ≒ Interoperable: si utilizzano protocolli standard aperti per modellare i dati i.e. RDF e OWL ≒ Reusable: tutte le ontologie e i vocabolari controllati sono pubblici, rilasciati secondo una licenza aperta (CC-BY 4.0) e sono collegati ad altre ontologie standard (de facto) disponibili nel Web dei Dati
  • 20. Pi湛 serializzazioni disponibili RDF/XML, RDF/turtle, JSON-LD URI in inglese e persistenti uso di w3id.org https://w3id.org/italia/onto/ , https://w3id.org/italia/controlled-vocabulary/ https://w3id.org/italia/data/. Riuso indiretto di ontologie esistenti Multilinguismo (etichette e descrizioni in ITA e ENG) Navigazione html delle ontologie e dei vocabolari e interrogazione via SPARQL http://ontopia.daf.teamdigitale.it/sparql o Agile eXtreme Design, Ontology Design Pattern F A I R OntoPiA - Principi
  • 21. . 21 21 OntoPiA Approccio tecnico in a nutshell Vocabolari controllati Ontologie Profilo Applicativo Italiano (AP_IT) Classe Propriet Restrizione Concetto Ontologie e vocabolari controllati esterni del Web Semantico Allineamenti esterni (aligns) Componente Ontologia coinvoltaIn associataA importa closeMatch, exactMatch, relatedMatch, sameAs importa subClassOf, subPropertyOf, equivalent*
  • 23. 23 23 OntoPiA Stack ontologico
  • 25. . 25 25 Lattuale OntoPiA in numeri 25 ONTOLOGIE PUBBLICATE 1 IN FASE DI SVILUPPO 2 IN FASE DI REVISIONE 2 ONTOLOGIE PER METADATI 264 CLASSES 22 VOCABOLARI CONTROLLATI 1 MAPPING TRA DUE VOCABOLARI CONTROLLATI ~10800 AXIOMS
  • 26. 26 OntoPiA-UI Navigazione HTML via LODE (open source) Navigazione HTML via LodView (open source) Interrogazione machine-to-machine via SPARQL endpoint Visualizzazione grafica (WebOWL) https://github.com/italia/OntoPiA-UI
  • 28. ≒ COLLABORAZIONE CON CENTRI DI RICERCA STLab Semantic Technologies Laboratory del CNR, Sapienza Universit di Roma ≒ COLLABORAZIONE CON PUBBLICHE AMMINISTRAZIONI e.g.,ISTAT, MIBAC, Regione Piemonte, ANAC, Comuni di Palermo e Udine, Provincia Autonoma di Trento ≒ COINVOLGIMENTO DEGLI UTENTI FINALI Disponibile su Github: chiunque pu嘆 SEMPRE commentare e/o proporre cambiamenti e correzioni https://github.com/italia/daf-ontologie-vocabolari-controllati . 28 28 OntoPiA- coinvolgimento PA e utenti
  • 29. OntoNetHub ≒ Unapplicazione web implementata per la gestione della rete di ontologie ≒ Consente operazione di caricamento, cancellazione e indicizzazione degli elementi delle ontologie della rete ≒ Progettata come estensione di Apache Stanbol e rilasciata come container Docker https://github.com/teamdigitale/ontonethub
  • 30. OntoPiA chi la usa ≒ DAF - Catalogo ontologie e vocabolari controllati ≒ DAF semantic tagging ≒ Harvesting di metadati ≒ Alcuni interessanti riusi da PA e Aziende 30
  • 31. DAF Data & Analytics Framework Meetup #AperiTech di GraphRM
  • 32. DAF Data & Analytics Framework ≒ Sistema legale ≒ presupposti normativi alle attivit di valorizzazione del patrimonio informativo pubblico, preservando la privacy ≒ Gruppo di specialisti (data scientist + data engineer) ≒ disegna la strategia, usa ed evolve la piattaforma ≒ analizza i dati, creando storie e data application ≒ supporta le PA ≒ Piattaforma Nazionale Digitale dei Dati ≒ conserva, integra e standardizza i dati delle PA ≒ Implementa meccanismi di apprendimento automatico ≒ Redistribuisce dati (API) e li visualizza (portale dei dati)
  • 33. Data & Analytics Framework https://dataportal.daf.teamdigitale.it/
  • 34. 34 34 OntoPiA Catalogo versione Alpha
  • 35. 35 35 Federazione di cataloghi usando OntoPiA 35 Ministero Beni e Attivit culturali http://dati.beniculturali.it/ Regione Toscana piattaforma CKAN http://dati.toscana.it/catalog.rdf Comune di Palermo piattaforma proprietaria https://opendata.comune.palermo.it/ dcat/dcat.php DCAT-AP_IT estensione per CKAN implementata sullontologia di metadatazione di OntoPiA Uso del vocabolario controllato delle licenze DAF
  • 36. Creare il knowledge graph dal DAF Data & Analytics Framework Meetup #AperiTech di GraphRM
  • 37. Gestione flusso per triplificazione 37
  • 38. Script R2RML E nostra intenzione pubblicare i mapping presumibilmente nel repo delle ontologie
  • 39. Gestione Flusso per triplificazione 39
  • 40. Gestione Flusso per triplificazione 40
  • 41. Gestione Flusso per triplificazione 41
  • 42. Primi risultati preliminari ≒ Linked Open Data dellarchivio storico dei comuni utilizzando 3 dataset ≒ Tabella dei Comuni ANPR (storico) file principale ≒ Dataset degli ultimi Comuni dItalia di ISTAT ≒ Dataset dellarchivio storico dei Comuni Il dataset finale 竪 modellato secondo lontologia CLV-AP_IT (Core Location Vocabulary Italian Application Profile) ≒ Linked Open Data preliminari dellIndice della Pubblica Amministrazione ≒ Il Dataset 竪 collegato al precedente Il dataset 竪 modellato secondo lontologia COV-AP_IT (Core Organization Vocabulary Italian Application Profile) Non ancora pubblicati nello SPARQL endpoint - nelle prossime settimane
  • 43. 43 43 Attuali e futuri lavori SVILUPPO ONTOLOGIE Stabilizzazione di alcune ontologie Definizione di nuove sulla base degli ecosistemi del piano triennale Definizione della documentazione online PRODUZIONE E PUBBLICAZIONE DEI LINKED (OPEN) DATA Produzione di altri Linked Open Data per estendere lattuale knowledge graph SVILUPPO CATALOGO ONTOLOGIE Abilitare la ricerca generale e per singoli elementi delle ontologie, in questultimo caso via indicizzatore gi disponibile OntonetHub
  • 44. Grazie per lattenzione! Meetup #AperiTech di GraphRM