際際滷

際際滷Share a Scribd company logo
Povezani odprti podatki SURS?
Katja nuderl, oktober 2018
#PodatkiSoZakon
Potrebne so prilagoditve
Svet podatkov
Linked Open Data (LOD): Zakaj?
 Web of Documents  Web of Data
 Human readable  Machine readable
 Script/language dependant  Universal
 Semantika ni samoumevna (primer: Jaguar kot
転ival, avto ali Mac OS 10.2?)
 Povezljivost, decentralizacija, vejezinost
Linked Open Data: Standardi
 W3C standard
 Strojna berljivost
 Podatkovni model: RDF (graf, trojice)
 Formati: RDF/XML, Notation-3 (N3), Turtle, N-
Triples, RDFa, RDF/JSON
 Orodja: SPARQL
 Standardizacija metapodatkov (semantini
splet)
RDF trojica (triple):
Alfred
Hitchcock
Pshycho
SUBJEKT OBJEKT
predikat
je ustvaril
link link link
Stopnja anketne brezposelnosti v 3.
etrtletju 2017 je bila 6,3-odstotna
Primer podatkov SURS:
6,3
Stopnja
anketne
brezpo-
selnosti
2017
Q03
konni
podatki
30. 11.
2017
%
 z RDF grafom podatek dobi nedvoumen kontekst.
SI-STAT
tabela MP
PK
SURS
ILO /
Eurostat:
Unemploy-
ment rate
SLO
PC-Axis
PDF
doku-
ment
Geonames:
Slovenia
Definicije
Prilo転nosti za statistini urad
 Krepitev ugleda SURS kot vira uradnih stat. pod.
 Notranja koherentnost in bolj邸a integracija podatkov in
metapodatkov
 Enoten pogled na podatke
 Odkrivanje napak in mo転nost izbolj邸av v procesih
 Fleksibilna diseminacija podatkov
 Inovativna storitev za uporabnike
 Neodvisnost od uporabni邸kih re邸itev
 Povezovanje z viri podatkov v dr転avi in izven
 SURS kot uvajalec standardov
Mednarodne aktivnosti
 DIGICOM: Strategy for Linked Open Data for
Statistics
 ESSnet: Linked Open Statistics (nov. 2017  apr. 2019)
 ISA2 projekt
 2016.06 Sharing statistical production and dissemination services and
solutions in the European Statistical System
 2018.03 Improving statistical data and metadata discoverability and analysis
 Priporoila ZN  Open Data na podroju
Sustainable Develompent Goals (SDGs)
 Ponovna uporaba informacij javnega znaaja
(Direktiva 2003/98/EC in 2013/37/EU, ZDIJZ-E)
Opposite of hype
Dobre prakse
 Z端rich: LOSD der Stadt Z端rich
 Irska: Linked Data Service for Census 2011
 Francija: http://rdf.insee.fr/
 Statistics.gov.scot
 ISTAT LinkedOpenData portal
 FSO Switzerland: Linked Data Pilot
 Poljska: Development of Guidelines for
Publishing Statistical Data as Linked Open
Data. 2018
Kako zaeti? Preizkus
koncepta in
lastno
uenje
Ustvarimo majhen
lasten povezan
svet,
邸ele nato ga
poveujemo in se
povezujemo z
zunanjim
Znanja na strani
uporabnikov ne
smemo
podcenjevati!
Sledenje
priporoilom
ESSnet
Povezani odprti podatki SURS?
Towards a Strategy for Linked Open Data for Statistics
Predlogi:
1. Oblikovanje primera znotraj SURS: Izbor testnih
podatkov, zasnova RDF grafa z ad-hoc ontologijo
2. Sodelovanje s 邸tudenti: Prevod enostavnega
primera obstojeih podatkov v RDF s
predstavitvijo uporabljenih metapodatkovnih
standardov [tehnologija]
3. Sodelovanje z uporabniki (razvijalci): Oblikovanje
predloga uporabe izbranih podatkov [vsebina]
4. Sodelovanje z raziskovalci: Izgradnja splo邸nih
ontologij in postopkov kreiranja URI-jev [LOD
pilot?]
First Step
Potrebna je odloitev

More Related Content

Povezani odprti podatki SURS?

  • 1. Povezani odprti podatki SURS? Katja nuderl, oktober 2018 #PodatkiSoZakon
  • 4. Linked Open Data (LOD): Zakaj? Web of Documents Web of Data Human readable Machine readable Script/language dependant Universal Semantika ni samoumevna (primer: Jaguar kot 転ival, avto ali Mac OS 10.2?) Povezljivost, decentralizacija, vejezinost
  • 5. Linked Open Data: Standardi W3C standard Strojna berljivost Podatkovni model: RDF (graf, trojice) Formati: RDF/XML, Notation-3 (N3), Turtle, N- Triples, RDFa, RDF/JSON Orodja: SPARQL Standardizacija metapodatkov (semantini splet)
  • 6. RDF trojica (triple): Alfred Hitchcock Pshycho SUBJEKT OBJEKT predikat je ustvaril link link link
  • 7. Stopnja anketne brezposelnosti v 3. etrtletju 2017 je bila 6,3-odstotna Primer podatkov SURS:
  • 8. 6,3 Stopnja anketne brezpo- selnosti 2017 Q03 konni podatki 30. 11. 2017 % z RDF grafom podatek dobi nedvoumen kontekst. SI-STAT tabela MP PK SURS ILO / Eurostat: Unemploy- ment rate SLO PC-Axis PDF doku- ment Geonames: Slovenia
  • 10. Prilo転nosti za statistini urad Krepitev ugleda SURS kot vira uradnih stat. pod. Notranja koherentnost in bolj邸a integracija podatkov in metapodatkov Enoten pogled na podatke Odkrivanje napak in mo転nost izbolj邸av v procesih Fleksibilna diseminacija podatkov Inovativna storitev za uporabnike Neodvisnost od uporabni邸kih re邸itev Povezovanje z viri podatkov v dr転avi in izven SURS kot uvajalec standardov
  • 11. Mednarodne aktivnosti DIGICOM: Strategy for Linked Open Data for Statistics ESSnet: Linked Open Statistics (nov. 2017 apr. 2019) ISA2 projekt 2016.06 Sharing statistical production and dissemination services and solutions in the European Statistical System 2018.03 Improving statistical data and metadata discoverability and analysis Priporoila ZN Open Data na podroju Sustainable Develompent Goals (SDGs) Ponovna uporaba informacij javnega znaaja (Direktiva 2003/98/EC in 2013/37/EU, ZDIJZ-E)
  • 13. Dobre prakse Z端rich: LOSD der Stadt Z端rich Irska: Linked Data Service for Census 2011 Francija: http://rdf.insee.fr/ Statistics.gov.scot ISTAT LinkedOpenData portal FSO Switzerland: Linked Data Pilot Poljska: Development of Guidelines for Publishing Statistical Data as Linked Open Data. 2018
  • 14. Kako zaeti? Preizkus koncepta in lastno uenje Ustvarimo majhen lasten povezan svet, 邸ele nato ga poveujemo in se povezujemo z zunanjim Znanja na strani uporabnikov ne smemo podcenjevati! Sledenje priporoilom ESSnet
  • 16. Towards a Strategy for Linked Open Data for Statistics
  • 17. Predlogi: 1. Oblikovanje primera znotraj SURS: Izbor testnih podatkov, zasnova RDF grafa z ad-hoc ontologijo 2. Sodelovanje s 邸tudenti: Prevod enostavnega primera obstojeih podatkov v RDF s predstavitvijo uporabljenih metapodatkovnih standardov [tehnologija] 3. Sodelovanje z uporabniki (razvijalci): Oblikovanje predloga uporabe izbranih podatkov [vsebina] 4. Sodelovanje z raziskovalci: Izgradnja splo邸nih ontologij in postopkov kreiranja URI-jev [LOD pilot?]

Editor's Notes

  • #3: Uvajanje povezanih odprtih podatkov je glede na sedanji nain objavljanja podatkov podobna sprememba (tako tehnolo邸ko kot v nainu razmi邸ljanja), kot je bil prehod iz objav na papirju v objavljanje v elektronski obliki. Gre za spremembo, ki se v svetu 転e dogaja, na nas pa je odloitev, kdaj se bomo temu prilagodili. Ta trenutek 邸e ne moremo poznati pomena, ker ne vemo, kako bo 邸el razvoj lahko da bodo ez nekaj let poskusi zaustavljeni ali pa bo prikljuitev nuja. Ta hip tega 邸e ne vemo. Kar je pomembno, so prilo転nosti, ki jih prikljuevanje prina邸a. e jih 転elimo izkoristiti, bo treba nameniti tudi nekaj virov (kadrovskih znotraj SURS in finannih za vkljuevanje zunanjih ekspertov)
  • #4: Velika koliina podatkov na spletu, omejene sposobnosti uporabnikov (branje), vse ve je uporabe umetne inteligence za analizo in prikaz podatkov
  • #6: Tehnologija obstaja in je v uporabi. Ovire pri dosedanjih projektih niso tehnolo邸ke, temve vsebinske narave tu lahko priakujemo te転ave tudi na SURS, vendar je to hkrati prilo転nost, da se dosedanje dileme, ki jih 転e dolgo poznamo, tudi re邸ijo.
  • #7: Zapletenost RDF podatkovnega modela je ironino v tem, da se nam zdi preve enostaven. Govorimo o prikazu podatkov v obliki grafa in sicer vse elemente in povezave med njimi opredelimo kot trojice (triples). Na primeru enega stavka je primer preprost in te転ko si predstavljamo, da bi s tako poenostavljenim modelom lahko ponazorili nekaj tako kompleksnega, kot so vsi statistini podatki. Ko govorimo o Linked open data, je vsak element v trojici zapisan kot http povezava do mesta na svetovnem spletu, kjer je ta objekt oz. povezava opredeljen (v skladu z veljavnimi standardi). Lahko si tudi predstavljamo, da ima vsak element trojice (to pomeni, da tudi vsak statistini podatek) svojo spletno stran.
  • #8: Pa poglejmo samo poskus ponazoritve enega primera iz na邸ih objav.
  • #9: Osnovni metapodatki o pomenu zapisanega podatka Metapodatki o objavi Povezane informacije in vsebine Mednarodni kontekst (Geonames data providers!) Pomembna razlika v nainu objave podatkov: Metapodatki so vezani na vsako celico v tabeli, vsak podatek. Povezave omogoajo poizvedbe in interpretacijo podatkov po sistemu "Follow your nose" hodi po sledi (klikanje linkov) Opredeliti je potrebno isto vsak objekt in vsako povezavo med temi objekti, kar je zahteven proces, ki pa ima tudi veliko prednosti predvsem za nadaljevanje dela (gradnja uporabni邸kih vmesnikov, aplikacij, avtomatizacija posodabljanja posameznih elementov spletne strani, arhiviranje )
  • #10: Tako temeljitega popisa metapodatkov na SURS 邸e nikoli nismo naredili - ni ve vpra邸anj, kaj sodi v sistem metapodatkov in kaj ne ter na kateri ravni definirati osnovno entiteto definirati je potrebno vse objekte ter vse relacije med njimi in to enoznano. Primer SURS: Uporaba 邸ifranta podroij izobra転evanj po KLASIUS v SI-STAT tabelah v metapodatkih ni nikjer navedeno niti da gre za standardno klasifikacijo niti ni povezave do ve informacij o klasifikaciji kljub temu, da je bilo veliko asa in truda vlo転enega v poenotenje tabel z uporabo KLASIUS.
  • #11: 3. Vnaprej se moramo zavedati, da bomo s takim nainom objave podatkov dali naprednim uporabnikom nove mo転nosti za odkrivanje napak. Jasno je treba povedati, da se zavedamo, da so v podatkih lahko tudi napake ter da je na邸 namen te napake odpraviti ter izbolj邸ati procese. Nekaj napak se bo pokazalo 転e ob sami pripravi podatkov v LOD obliki za objavo, ne pa vse. Glede na API-je: Dostop do podatkov preko API-jev temelji na vnaprej邸nji analizi (oz. predvidevanju) uporabni邸kih zahtev. Odpiranje povezanih podatkov uporabnikom omogoa, da podatke samostojno povezujejo na nove naine, ki si jih vnaprej nismo niti zamislili - tako znotraj na邸ih kot z zunanjimi bazami podatkov.
  • #13: V nasprotju z nekdanjimi "hypi" npr. socialna omre転ja oz. obstojeimi: Big data, blockchain, se pri Linked Open Data veliko ne govori, veina jih opozarja na te転ave in potrebo po uvajanju standardov, na drugi strani pa nastajajo re邸itve, ki s prej邸njimi tehnologijami niso bile mo転ne
  • #14: Seznam najbr転 ne vkljuuje vsega, kar se je na tem podroju naredilo
  • #15: http://slides.com/ktk/fso-linked-data-pilot vicarji: dobili primer podatkov v RDF
  • #16: Glede na kompleksnost predvidenih re邸itev ni niti smiselno niti mo転no, da konni rezultat predvidimo vnaprej. Potrebno je zaeti na manj邸ih primerih, jih testirati, se kaj nauiti, spremeniti zasnovo e je potrebno in 邸ele nato nadaljevati.
  • #17: Strate邸ki pogled: "Start small, think big." Pilotni projekti Usklajevanja z Eurostatom in ESS Prilagajanje glede na odziv in potrebe uporabnikov Podpora vodstva Kadri in sposobnosti: Potrebna bodo nova tehnina znanja Zunanji izvajalci + nadgrajevanje znanj znotraj urada Kompetence na podroju statistike, IT in diseminacije Notranja skupina za LOD Podatki in metapodatki: Osnova so povezani metapodatki ifranti, koncepti in klasifikacije Spo邸tovanje veljavnih standardov Identificirati najbolj primerne podatke Pretvarjanje podatkov v povezane odprte pod. Poiskati najustreznej邸i nain z vidika arhitekture Velika sprememba je fokus diseminacije (iz tabele na podatek) Upravljanje Koordinacija znotraj urada Sodelovanje z izvajalci Sodelovanje na nacionalni ravni Sodelovanje v okviru ESS Tehnologija in infrastruktura: Evalvacija obstojeih orodij Uporaba standardnega nabora orodij ESS Izgradnja portala odprtih podatkov z orodji za dostop do podatkov (SPARQL)