2. Cože?
● na webu jsou miliardy stránek
● jsou psané pro lidi
● stroje jim téměř nerozumí což kupodivu zas tak nevadí
● ale nemůžeme se tak strojů na nic ptát
– Kdy se narodil Václav Havel? Kolik megapixelů má kamera iPhone 5? Jaké je HDP ČR?
Kde a kdy jsou kurzy jógy v Praze? Kolik stojí kWh elektřiny od ČEZ? Kolik procent
hlasů získal Schwarzenberg? Kolik je Tomášů na Google+? Jaký je plat poslanců?
Jaké rychlosti ADSL nabízí Telefonica? Kdy má otevřeno obchod X?
3. Už se na tom pracuje
● Freebase 2005
● Wikidi (velmi skromně) 2010
● Siri 2011 v iOS
● Google Knowledge Graph 2012
● Microsoft Probase stále research
4. Kde stojíme
● nemůžeme konkurovat Googlu ani Applu
● ale naprostá většina firem neumí ani to co my
● nápad: poskytneme jim to jako službu
#cloud #saas #b2b #ai #machinelearning #api
● pro koho?
e-shopy hledání hotelů, realit, práce ekonomy a analytiky firemní katalogy ...
6. Technicky...
Problém je složitý, zjednodušili jsme ho na:
● Zákazník zná entity iPhone 5
● Zákazník ví co chce rozlišení, výrobce, operační systém, ...
● Ideálně má i část dat předvyplněných
A my už si automaticky odvodíme strukturu
Jednotky? Rozsah hodnot? Možné kategorie?
7. Pro každou řádku (entitu)
● Zeptáme se vyhledávače na relevantní stránky
● Stáhneme tak 30 až 50 stránek
● Zanalyzujeme texty na stránce viz další slide
● Slejeme informace ze všech stránek
● A vyplníme tabulku
8. Samotná extrakce
● Najdi fragmenty
Rozlišení: 5 megapixelů
● Slož z fragmentů kandidáta
propertyName + number + unitName = super
● Ohodnoť kandidáty viz další slide
● Porovnej a sluč nejlepší kandidáty
9. Strojové učení
● Ohodnocení kandidátů – váhy nejdřív ručně
● Ale strojové učení to zpřesní
Naučí se vztahy Hodnotí i nelineárně Jednoduché přidávání dalších dat
● Boostované rozhodovací lesy
Dříve i neuronové sítě, teď už je nepoužíváme
10. Strojové učení i jinde
Jde použít i pro čirá zákaznická data.
Tedy bez té extrakce dat z webových stránek.
Takže pozor! Tenhle slide je o něčem jiném než ostatní :)
Např. Jak do newsletteru vybrat nej nabídky?
To je pro MagicTable taky tabulka.
Akorát ji nevyplňujeme, ale předpovídáme nějakou hodnotu – např. míru konverze
Strojové učení se na minulých datech naučí, na čem je konverze závislá.
A pro budoucí nabídky predikuje míru konverze.
11. Kde jsme
● V beta provozu
● Dva zkušební zákazníci velké české firmy
● Bereme i další když mají zajímavý problém
● MagicTable.com miniweb