�ݺ�ߣ

Extrakce strukturovaných dat
z webových stránek
New Media Inspiration 2013

Michal Illich

Cože?
● na webu jsou miliardy stránek
● jsou psané pro lidi
● stroje jim téměř nerozumí což kupodivu zas tak nevadí
● ale nemůžeme se tak strojů na nic ptát
– Kdy se narodil Václav Havel? Kolik megapixelů má kamera iPhone 5? Jaké je HDP ČR?
Kde a kdy jsou kurzy jógy v Praze? Kolik stojí kWh elektřiny od ČEZ? Kolik procent
hlasů získal Schwarzenberg? Kolik je Tomášů na Google+? Jaký je plat poslanců?
Jaké rychlosti ADSL nabízí Telefonica? Kdy má otevřeno obchod X?

Už se na tom pracuje
● Freebase 2005
● Wikidi (velmi skromně) 2010
● Siri 2011 v iOS
● Google Knowledge Graph 2012
● Microsoft Probase stále research

Kde stojíme
● nemůžeme konkurovat Googlu ani Applu
● ale naprostá většina firem neumí ani to co my
● nápad: poskytneme jim to jako službu
#cloud #saas #b2b #ai #machinelearning #api

● pro koho?
e-shopy hledání hotelů, realit, práce ekonomy a analytiky firemní katalogy ...

Technicky...
Problém je složitý, zjednodušili jsme ho na:
● Zákazník zná entity iPhone 5

● Zákazník ví co chce rozlišení, výrobce, operační systém, ...
● Ideálně má i část dat předvyplněných

A my už si automaticky odvodíme strukturu
Jednotky? Rozsah hodnot? Možné kategorie?

Pro každou řádku (entitu)
● Zeptáme se vyhledávače na relevantní stránky
● Stáhneme tak 30 až 50 stránek
● Zanalyzujeme texty na stránce viz další slide

● Slejeme informace ze všech stránek
● A vyplníme tabulku

Samotná extrakce
● Najdi fragmenty
Rozlišení: 5 megapixelů

● Slož z fragmentů kandidáta
propertyName + number + unitName = super

● Ohodnoť kandidáty viz další slide
● Porovnej a sluč nejlepší kandidáty

Strojové učení
● Ohodnocení kandidátů – váhy nejdřív ručně
● Ale strojové učení to zpřesní
Naučí se vztahy Hodnotí i nelineárně Jednoduché přidávání dalších dat

● Boostované rozhodovací lesy
Dříve i neuronové sítě, teď už je nepoužíváme

Strojové učení i jinde
Jde použít i pro čirá zákaznická data.
Tedy bez té extrakce dat z webových stránek.
Takže pozor! Tenhle slide je o něčem jiném než ostatní :)

Např. Jak do newsletteru vybrat nej nabídky?
To je pro MagicTable taky tabulka.
Akorát ji nevyplňujeme, ale předpovídáme nějakou hodnotu – např. míru konverze
Strojové učení se na minulých datech naučí, na čem je konverze závislá.
A pro budoucí nabídky predikuje míru konverze.

Kde jsme
● V beta provozu
● Dva zkušební zákazníci velké české firmy
● Bereme i další když mají zajímavý problém
● MagicTable.com miniweb

Díky!

michal@illich.cz

@michalillich

�ݺ�ߣ

Extrakce strukturovaných dat z webových stránek

More Related Content

Extrakce strukturovaných dat z webových stránek