ݺߣ

ݺߣShare a Scribd company logo
Extrakce strukturovaných dat
     z webových stránek
       New Media Inspiration 2013



         Michal Illich
Cože?
●   na webu jsou miliardy stránek
●   jsou psané pro lidi
●   stroje jim téměř nerozumí což kupodivu zas tak nevadí
●   ale nemůžeme se tak strojů na nic ptát
    –   Kdy se narodil Václav Havel? Kolik megapixelů má kamera iPhone 5? Jaké je HDP ČR?
        Kde a kdy jsou kurzy jógy v Praze? Kolik stojí kWh elektřiny od ČEZ? Kolik procent
        hlasů získal Schwarzenberg? Kolik je Tomášů na Google+? Jaký je plat poslanců?
        Jaké rychlosti ADSL nabízí Telefonica?   Kdy má otevřeno obchod X?
Už se na tom pracuje
●   Freebase 2005
●   Wikidi (velmi skromně) 2010
●   Siri 2011 v iOS
●   Google Knowledge Graph 2012
●   Microsoft Probase stále research
Kde stojíme
●   nemůžeme konkurovat Googlu ani Applu
●   ale naprostá většina firem neumí ani to co my
●   nápad: poskytneme jim to jako službu
    #cloud #saas #b2b #ai #machinelearning #api

●   pro koho?
    e-shopy   hledání hotelů, realit, práce   ekonomy a analytiky   firemní katalogy ...
Web + příklad
Technicky...
Problém je složitý, zjednodušili jsme ho na:
●   Zákazník zná entity              iPhone 5

●   Zákazník ví co chce rozlišení, výrobce, operační systém, ...
●   Ideálně má i část dat předvyplněných


A my už si automaticky odvodíme strukturu
    Jednotky?   Rozsah hodnot?   Možné kategorie?
Pro každou řádku (entitu)
●   Zeptáme se vyhledávače na relevantní stránky
●   Stáhneme tak 30 až 50 stránek
●   Zanalyzujeme texty na stránce   viz další slide

●   Slejeme informace ze všech stránek
●   A vyplníme tabulku
Samotná extrakce
●   Najdi fragmenty
    Rozlišení: 5 megapixelů

●   Slož z fragmentů kandidáta
    propertyName + number + unitName = super

●   Ohodnoť kandidáty viz další slide
●   Porovnej a sluč nejlepší kandidáty
Strojové učení
●   Ohodnocení kandidátů – váhy nejdřív ručně
●   Ale strojové učení to zpřesní
    Naučí se vztahy      Hodnotí i nelineárně       Jednoduché přidávání dalších dat

●   Boostované rozhodovací lesy
    Dříve i neuronové sítě, teď už je nepoužíváme
Strojové učení i jinde
Jde použít i pro čirá zákaznická data.
 Tedy bez té extrakce dat z webových stránek.
 Takže pozor! Tenhle slide je o něčem jiném než ostatní :)

Např. Jak do newsletteru vybrat nej nabídky?
 To je pro MagicTable taky tabulka.
 Akorát ji nevyplňujeme, ale předpovídáme nějakou hodnotu – např. míru konverze
 Strojové učení se na minulých datech naučí, na čem je konverze závislá.
 A pro budoucí nabídky predikuje míru konverze.
Kde jsme
●   V beta provozu
●   Dva zkušební zákazníci velké české firmy
●   Bereme i další když mají zajímavý problém
●   MagicTable.com miniweb
Díky!

michal@illich.cz

 @michalillich

More Related Content

Extrakce strukturovaných dat z webových stránek

  • 1. Extrakce strukturovaných dat z webových stránek New Media Inspiration 2013 Michal Illich
  • 2. Cože? ● na webu jsou miliardy stránek ● jsou psané pro lidi ● stroje jim téměř nerozumí což kupodivu zas tak nevadí ● ale nemůžeme se tak strojů na nic ptát – Kdy se narodil Václav Havel? Kolik megapixelů má kamera iPhone 5? Jaké je HDP ČR? Kde a kdy jsou kurzy jógy v Praze? Kolik stojí kWh elektřiny od ČEZ? Kolik procent hlasů získal Schwarzenberg? Kolik je Tomášů na Google+? Jaký je plat poslanců? Jaké rychlosti ADSL nabízí Telefonica? Kdy má otevřeno obchod X?
  • 3. Už se na tom pracuje ● Freebase 2005 ● Wikidi (velmi skromně) 2010 ● Siri 2011 v iOS ● Google Knowledge Graph 2012 ● Microsoft Probase stále research
  • 4. Kde stojíme ● nemůžeme konkurovat Googlu ani Applu ● ale naprostá většina firem neumí ani to co my ● nápad: poskytneme jim to jako službu #cloud #saas #b2b #ai #machinelearning #api ● pro koho? e-shopy hledání hotelů, realit, práce ekonomy a analytiky firemní katalogy ...
  • 6. Technicky... Problém je složitý, zjednodušili jsme ho na: ● Zákazník zná entity iPhone 5 ● Zákazník ví co chce rozlišení, výrobce, operační systém, ... ● Ideálně má i část dat předvyplněných A my už si automaticky odvodíme strukturu Jednotky? Rozsah hodnot? Možné kategorie?
  • 7. Pro každou řádku (entitu) ● Zeptáme se vyhledávače na relevantní stránky ● Stáhneme tak 30 až 50 stránek ● Zanalyzujeme texty na stránce viz další slide ● Slejeme informace ze všech stránek ● A vyplníme tabulku
  • 8. Samotná extrakce ● Najdi fragmenty Rozlišení: 5 megapixelů ● Slož z fragmentů kandidáta propertyName + number + unitName = super ● Ohodnoť kandidáty viz další slide ● Porovnej a sluč nejlepší kandidáty
  • 9. Strojové učení ● Ohodnocení kandidátů – váhy nejdřív ručně ● Ale strojové učení to zpřesní Naučí se vztahy Hodnotí i nelineárně Jednoduché přidávání dalších dat ● Boostované rozhodovací lesy Dříve i neuronové sítě, teď už je nepoužíváme
  • 10. Strojové učení i jinde Jde použít i pro čirá zákaznická data. Tedy bez té extrakce dat z webových stránek. Takže pozor! Tenhle slide je o něčem jiném než ostatní :) Např. Jak do newsletteru vybrat nej nabídky? To je pro MagicTable taky tabulka. Akorát ji nevyplňujeme, ale předpovídáme nějakou hodnotu – např. míru konverze Strojové učení se na minulých datech naučí, na čem je konverze závislá. A pro budoucí nabídky predikuje míru konverze.
  • 11. Kde jsme ● V beta provozu ● Dva zkušební zákazníci velké české firmy ● Bereme i další když mají zajímavý problém ● MagicTable.com miniweb