Predstavitev predloga pilotnega projekta na podroju povezanih odprtih podatkov za vodstvo SURS dne 18. 12. 2018
Presentation for executives - decision on implementing LOD or not at the Statistical Office of the Republic of Slovenia (SURS)
4. Linked Open Data (LOD): Zakaj?
Web of Documents Web of Data
Human readable Machine readable
Script/language dependant Universal
Semantika ni samoumevna (primer: Jaguar kot
転ival, avto ali Mac OS 10.2?)
Povezljivost, decentralizacija, vejezinost
10. Prilo転nosti za statistini urad
Krepitev ugleda SURS kot vira uradnih stat. pod.
Notranja koherentnost in bolj邸a integracija podatkov in
metapodatkov
Enoten pogled na podatke
Odkrivanje napak in mo転nost izbolj邸av v procesih
Fleksibilna diseminacija podatkov
Inovativna storitev za uporabnike
Neodvisnost od uporabni邸kih re邸itev
Povezovanje z viri podatkov v dr転avi in izven
SURS kot uvajalec standardov
11. Mednarodne aktivnosti
DIGICOM: Strategy for Linked Open Data for
Statistics
ESSnet: Linked Open Statistics (nov. 2017 apr. 2019)
ISA2 projekt
2016.06 Sharing statistical production and dissemination services and
solutions in the European Statistical System
2018.03 Improving statistical data and metadata discoverability and analysis
Priporoila ZN Open Data na podroju
Sustainable Develompent Goals (SDGs)
Ponovna uporaba informacij javnega znaaja
(Direktiva 2003/98/EC in 2013/37/EU, ZDIJZ-E)
13. Dobre prakse
Z端rich: LOSD der Stadt Z端rich
Irska: Linked Data Service for Census 2011
Francija: http://rdf.insee.fr/
Statistics.gov.scot
ISTAT LinkedOpenData portal
FSO Switzerland: Linked Data Pilot
Poljska: Development of Guidelines for
Publishing Statistical Data as Linked Open
Data. 2018
14. Kako zaeti? Preizkus
koncepta in
lastno
uenje
Ustvarimo majhen
lasten povezan
svet,
邸ele nato ga
poveujemo in se
povezujemo z
zunanjim
Znanja na strani
uporabnikov ne
smemo
podcenjevati!
Sledenje
priporoilom
ESSnet
17. Predlogi:
1. Oblikovanje primera znotraj SURS: Izbor testnih
podatkov, zasnova RDF grafa z ad-hoc ontologijo
2. Sodelovanje s 邸tudenti: Prevod enostavnega
primera obstojeih podatkov v RDF s
predstavitvijo uporabljenih metapodatkovnih
standardov [tehnologija]
3. Sodelovanje z uporabniki (razvijalci): Oblikovanje
predloga uporabe izbranih podatkov [vsebina]
4. Sodelovanje z raziskovalci: Izgradnja splo邸nih
ontologij in postopkov kreiranja URI-jev [LOD
pilot?]
#3: Uvajanje povezanih odprtih podatkov je glede na sedanji nain objavljanja podatkov podobna sprememba (tako tehnolo邸ko kot v nainu razmi邸ljanja), kot je bil prehod iz objav na papirju v objavljanje v elektronski obliki. Gre za spremembo, ki se v svetu 転e dogaja, na nas pa je odloitev, kdaj se bomo temu prilagodili.
Ta trenutek 邸e ne moremo poznati pomena, ker ne vemo, kako bo 邸el razvoj lahko da bodo ez nekaj let poskusi zaustavljeni ali pa bo prikljuitev nuja. Ta hip tega 邸e ne vemo. Kar je pomembno, so prilo転nosti, ki jih prikljuevanje prina邸a. e jih 転elimo izkoristiti, bo treba nameniti tudi nekaj virov (kadrovskih znotraj SURS in finannih za vkljuevanje zunanjih ekspertov)
#4: Velika koliina podatkov na spletu, omejene sposobnosti uporabnikov (branje), vse ve je uporabe umetne inteligence za analizo in prikaz podatkov
#6: Tehnologija obstaja in je v uporabi. Ovire pri dosedanjih projektih niso tehnolo邸ke, temve vsebinske narave tu lahko priakujemo te転ave tudi na SURS, vendar je to hkrati prilo転nost, da se dosedanje dileme, ki jih 転e dolgo poznamo, tudi re邸ijo.
#7: Zapletenost RDF podatkovnega modela je ironino v tem, da se nam zdi preve enostaven. Govorimo o prikazu podatkov v obliki grafa in sicer vse elemente in povezave med njimi opredelimo kot trojice (triples).
Na primeru enega stavka je primer preprost in te転ko si predstavljamo, da bi s tako poenostavljenim modelom lahko ponazorili nekaj tako kompleksnega, kot so vsi statistini podatki.
Ko govorimo o Linked open data, je vsak element v trojici zapisan kot http povezava do mesta na svetovnem spletu, kjer je ta objekt oz. povezava opredeljen (v skladu z veljavnimi standardi). Lahko si tudi predstavljamo, da ima vsak element trojice (to pomeni, da tudi vsak statistini podatek) svojo spletno stran.
#8: Pa poglejmo samo poskus ponazoritve enega primera iz na邸ih objav.
#9: Osnovni metapodatki o pomenu zapisanega podatka
Metapodatki o objavi
Povezane informacije in vsebine
Mednarodni kontekst (Geonames data providers!)
Pomembna razlika v nainu objave podatkov: Metapodatki so vezani na vsako celico v tabeli, vsak podatek. Povezave omogoajo poizvedbe in interpretacijo podatkov po sistemu "Follow your nose" hodi po sledi (klikanje linkov)
Opredeliti je potrebno isto vsak objekt in vsako povezavo med temi objekti, kar je zahteven proces, ki pa ima tudi veliko prednosti predvsem za nadaljevanje dela (gradnja uporabni邸kih vmesnikov, aplikacij, avtomatizacija posodabljanja posameznih elementov spletne strani, arhiviranje )
#10: Tako temeljitega popisa metapodatkov na SURS 邸e nikoli nismo naredili - ni ve vpra邸anj, kaj sodi v sistem metapodatkov in kaj ne ter na kateri ravni definirati osnovno entiteto definirati je potrebno vse objekte ter vse relacije med njimi in to enoznano.
Primer SURS: Uporaba 邸ifranta podroij izobra転evanj po KLASIUS v SI-STAT tabelah v metapodatkih ni nikjer navedeno niti da gre za standardno klasifikacijo niti ni povezave do ve informacij o klasifikaciji kljub temu, da je bilo veliko asa in truda vlo転enega v poenotenje tabel z uporabo KLASIUS.
#11: 3. Vnaprej se moramo zavedati, da bomo s takim nainom objave podatkov dali naprednim uporabnikom nove mo転nosti za odkrivanje napak. Jasno je treba povedati, da se zavedamo, da so v podatkih lahko tudi napake ter da je na邸 namen te napake odpraviti ter izbolj邸ati procese. Nekaj napak se bo pokazalo 転e ob sami pripravi podatkov v LOD obliki za objavo, ne pa vse.
Glede na API-je:
Dostop do podatkov preko API-jev temelji na vnaprej邸nji analizi (oz. predvidevanju) uporabni邸kih zahtev. Odpiranje povezanih podatkov uporabnikom omogoa, da podatke samostojno povezujejo na nove naine, ki si jih vnaprej nismo niti zamislili - tako znotraj na邸ih kot z zunanjimi bazami podatkov.
#13: V nasprotju z nekdanjimi "hypi" npr. socialna omre転ja oz. obstojeimi: Big data, blockchain, se pri Linked Open Data veliko ne govori, veina jih opozarja na te転ave in potrebo po uvajanju standardov, na drugi strani pa nastajajo re邸itve, ki s prej邸njimi tehnologijami niso bile mo転ne
#14: Seznam najbr転 ne vkljuuje vsega, kar se je na tem podroju naredilo
#15: http://slides.com/ktk/fso-linked-data-pilot
vicarji: dobili primer podatkov v RDF
#16: Glede na kompleksnost predvidenih re邸itev ni niti smiselno niti mo転no, da konni rezultat predvidimo vnaprej. Potrebno je zaeti na manj邸ih primerih, jih testirati, se kaj nauiti, spremeniti zasnovo e je potrebno in 邸ele nato nadaljevati.
#17: Strate邸ki pogled:
"Start small, think big."
Pilotni projekti
Usklajevanja z Eurostatom in ESS
Prilagajanje glede na odziv in potrebe uporabnikov
Podpora vodstva
Kadri in sposobnosti:
Potrebna bodo nova tehnina znanja
Zunanji izvajalci + nadgrajevanje znanj znotraj urada
Kompetence na podroju statistike, IT in diseminacije
Notranja skupina za LOD
Podatki in metapodatki:
Osnova so povezani metapodatki
ifranti, koncepti in klasifikacije
Spo邸tovanje veljavnih standardov
Identificirati najbolj primerne podatke
Pretvarjanje podatkov v povezane odprte pod.
Poiskati najustreznej邸i nain z vidika arhitekture
Velika sprememba je fokus diseminacije (iz tabele na podatek)
Upravljanje
Koordinacija znotraj urada
Sodelovanje z izvajalci
Sodelovanje na nacionalni ravni
Sodelovanje v okviru ESS
Tehnologija in infrastruktura:
Evalvacija obstojeih orodij
Uporaba standardnega nabora orodij ESS
Izgradnja portala odprtih podatkov z orodji za dostop do podatkov (SPARQL)