ݺߣ

ݺߣShare a Scribd company logo
kozbeszerzes.ceu.hu 
Koren Miklos 
CEU MicroData 
blog.microdata.io 
twitter.com/korenmiklos 
A projektet az Europai Kutatasi Tanacs 
(,,Networks Starting Grant) tamogatta.
Problema
Hogyan jutunk el innen... 
1
ide... 
2
es ide? 
3
Open data 
Az open data elvek jegyeben a kozbeszerzesi adatbazis legyen: 
1. Letolthet}o 
2. Online bongeszhet}o 
3. Kereshet}o 
4. Geppel olvashato 
4
Peldaul 
1. Letolthet}o az eredeti dokumentum es a feldolgozott xml is. 
2. Amikor egy tender nezek, a nyertes ceg nevere kattintva 
megtalalom a ceg tobbi tenderet. 
3. Megkeresek egy ceget a neve alapjan. 
4. Letoltom egy ceg osszes tenderet Excelben. 
5. Megjelolok egy rekordot, ha hibasan azonostja a nyertest. 
5
Kihvasok 
1. Gyakran valtozo sema 
2. Egyedi azonostok hianya 
3. Szamok, szoveg gyakori elrasa 
4. Duplikatumok 
6
Feldolgozas
Feladatok 
1. Semak azonostasa 
2. Adatbeolvasas 
3. Validalas 
4. Entitasfeloldas 
5. Min}osegbiztostas 
7
Entitasfeloldas 
I ,,Gy}or Megyei Jogu Varos Polgarmesteri Hivatala = 
466004-es PIR szamon nyilvantartott koltsegvetesi intezmeny 
I ,,Ablakcentrum Kft = 10304563 adoszamu gazdasagi 
tarsasag 
8
Entitasfeloldas 
I ,,Gy}or Megyei Jogu Varos Polgarmesteri Hivatala = 
466004-es PIR szamon nyilvantartott koltsegvetesi intezmeny 
I ,,Ablakcentrum Kft = 10304563 adoszamu gazdasagi 
tarsasag 
I elrasok 
I hibas cegforma 
I hibas cm 
I permutacio: ,,BELVAROS -LIPOTVAROS BUDAPEST 
F}OVAROS V. KER. ONKORMANYZATA 
8
Min}osegbiztostas (Precognox-reklam) 
I 100 veletlenul kivalasztott tendert ,,kezzel ellen}oriztunk. 
I ceg- es intezmenytalalatok 
I osszegek 
I datumok 
I Adatmez}ok pontossaga 89-95% kozott. 
9
Webstack
Az adatbazis logikai semaja 
10
Donteseink 
I RDB es dinamikus website helyett statikus xml fajlok. 
I teljestmeny 
I konnyebb karbantartani 
I ketfele dokumentum: entitas es tender 
I Nincs szerveroldali logika: xml, xslt, csv es js fajlok Amazon 
S3-on 
I sebesseg 
I robosztussag 
I karbantartas 
I de nincs slicing/dicing, aggregalas, vizualizacio 
I Minimalista UI. 
I Egyetlen sz}uk keresztmetszet: keres}omotor 
11
Minimalista interfesz 
12
Egyszer}u API 
/entity/t/10950676.xml 
A Kozgep Zrt. alapadatai (az entitas xml-attributumaikent) es az 
altala kirt, megpalyazott es megnyert tenderek. 
/tender/2002/28/5592.xml 
Egy hdept}o tender alapadatai (az entitas xml-attributumaikent) 
es a kiro, megpalyazo es nyertes entitasok. 
13
Egyszer}u API 
14
Kereses
Kereses 
I Nem akartunk sajat keres}ot rni: hosted ElasticSearch 
I found.no 
I qbox.io 
I Ertelmes default indexalas es kereses: tf-idf 
I de szoveges relevancia6= gazdasagi relevancia 
I Jol terhelhet}o (,,index.hu cmlap-teszt) 
15
FAIL: a relevans talalat csak a 12. 
16
Relevancia 
I Irrelevans talalatok sz}uresere ket t}uzoltas-jelleg}u megoldas: 
1. feloldatlan nevekben ne keressen 
2. a kapcsolodo tender szama szerint rendezunk 
I A relevancia-sz}urest mas helyeken is alkalmazni fogjuk (pl. 
entitasfeloldas). 
17
Relevans talalatok 
18

More Related Content

Mire költik az adóforintodat?

  • 1. kozbeszerzes.ceu.hu Koren Miklos CEU MicroData blog.microdata.io twitter.com/korenmiklos A projektet az Europai Kutatasi Tanacs (,,Networks Starting Grant) tamogatta.
  • 3. Hogyan jutunk el innen... 1
  • 6. Open data Az open data elvek jegyeben a kozbeszerzesi adatbazis legyen: 1. Letolthet}o 2. Online bongeszhet}o 3. Kereshet}o 4. Geppel olvashato 4
  • 7. Peldaul 1. Letolthet}o az eredeti dokumentum es a feldolgozott xml is. 2. Amikor egy tender nezek, a nyertes ceg nevere kattintva megtalalom a ceg tobbi tenderet. 3. Megkeresek egy ceget a neve alapjan. 4. Letoltom egy ceg osszes tenderet Excelben. 5. Megjelolok egy rekordot, ha hibasan azonostja a nyertest. 5
  • 8. Kihvasok 1. Gyakran valtozo sema 2. Egyedi azonostok hianya 3. Szamok, szoveg gyakori elrasa 4. Duplikatumok 6
  • 10. Feladatok 1. Semak azonostasa 2. Adatbeolvasas 3. Validalas 4. Entitasfeloldas 5. Min}osegbiztostas 7
  • 11. Entitasfeloldas I ,,Gy}or Megyei Jogu Varos Polgarmesteri Hivatala = 466004-es PIR szamon nyilvantartott koltsegvetesi intezmeny I ,,Ablakcentrum Kft = 10304563 adoszamu gazdasagi tarsasag 8
  • 12. Entitasfeloldas I ,,Gy}or Megyei Jogu Varos Polgarmesteri Hivatala = 466004-es PIR szamon nyilvantartott koltsegvetesi intezmeny I ,,Ablakcentrum Kft = 10304563 adoszamu gazdasagi tarsasag I elrasok I hibas cegforma I hibas cm I permutacio: ,,BELVAROS -LIPOTVAROS BUDAPEST F}OVAROS V. KER. ONKORMANYZATA 8
  • 13. Min}osegbiztostas (Precognox-reklam) I 100 veletlenul kivalasztott tendert ,,kezzel ellen}oriztunk. I ceg- es intezmenytalalatok I osszegek I datumok I Adatmez}ok pontossaga 89-95% kozott. 9
  • 15. Az adatbazis logikai semaja 10
  • 16. Donteseink I RDB es dinamikus website helyett statikus xml fajlok. I teljestmeny I konnyebb karbantartani I ketfele dokumentum: entitas es tender I Nincs szerveroldali logika: xml, xslt, csv es js fajlok Amazon S3-on I sebesseg I robosztussag I karbantartas I de nincs slicing/dicing, aggregalas, vizualizacio I Minimalista UI. I Egyetlen sz}uk keresztmetszet: keres}omotor 11
  • 18. Egyszer}u API /entity/t/10950676.xml A Kozgep Zrt. alapadatai (az entitas xml-attributumaikent) es az altala kirt, megpalyazott es megnyert tenderek. /tender/2002/28/5592.xml Egy hdept}o tender alapadatai (az entitas xml-attributumaikent) es a kiro, megpalyazo es nyertes entitasok. 13
  • 21. Kereses I Nem akartunk sajat keres}ot rni: hosted ElasticSearch I found.no I qbox.io I Ertelmes default indexalas es kereses: tf-idf I de szoveges relevancia6= gazdasagi relevancia I Jol terhelhet}o (,,index.hu cmlap-teszt) 15
  • 22. FAIL: a relevans talalat csak a 12. 16
  • 23. Relevancia I Irrelevans talalatok sz}uresere ket t}uzoltas-jelleg}u megoldas: 1. feloldatlan nevekben ne keressen 2. a kapcsolodo tender szama szerint rendezunk I A relevancia-sz}urest mas helyeken is alkalmazni fogjuk (pl. entitasfeloldas). 17