3. Tým: Informatika @ MENDELU + CYRRUS Advisory
Projekty: Textové recenze – ubytování, lékaři
Burzovní zprávy – korelace zpráv a pohyb cen na burze
4. MTA – motivace, využití
- Dovoz nového výrobku na český trh (zpoždění oproti US trhu)
- Branding – sentiment uživatelů vůči značce
- Řízení produktového portfolia výrobních a distribučních podniků
- Rychlé získávání informací v obchodě
- zadání názvu produktu
- scan QR nebo čárového kódu produktu
- rozpoznání produktu pomocí fotoaparátu
7. {
"titul": "Technologie – Výzva IX",
"stav": "Otevřená výzva",
"Vyhlášení výzvy:": "10. 12. 2018",
"Zahájení příjmu:": "11. 3. 2019",
"Ukončení příjmu:": "13. 6. 2019",
"popis": "Cílem IX. Výzvy programu Technologie je podpora růstu a posilování konkurenceschopnosti malých a
středních podniků prostřednictvím digitální transformace a přispívat tak k rozvoji regionů.",
...
}
Sběr dat
Příklad automatizace sběru dat pro Cyrrus Advisory
- www.dotacni.info
- API - Agentura pro podnikání a inovace
- Crawler : http://git.pef.mendelu.cz/MTA/oppik-scraper/
8. Analýza textu
- Vektorová reprezentace dokumentů
- Shluky reprezentují diskutovaná témata
- Hledání podobnosti
vektorů (např. k-means)
- Problematické určení
počtu shluků
- Klasifikační metody pro
nově přidané recenze
9. Problém omezení sběru dat
Problém crawlers – omezení přístupů, ochrana proti robotům (captcha)
Robustní crawler – definice pomocí meta jazyka
10. Problém identifikace produktů
Jak určit o jaký produkt se jedná ?
- “Zrcadlovka Canon EOS 600D”
- “Canon EOS 600D SLR digitální kamera”
- “Digitální fotoaparát Canon EOS 600D SLR (18 mpx, 7,6 cm (3") otočný displej, Full HD”
- “Digitální zrcadlovka Canon EOS 600D (18 megapixelů, 7,6cm (3palcový) displej, APS-C CMOS
senzor, WLAN s NFC, Full HD, Digic 7) kit vč. EF-S 18-55mm, 1:4,0 – 5,6 IS STM, černá”
- “Canon EF-S 18-55mm 1:3.5-5.6 IS II Universal zoom Objektiv (58mm Filter)”
Fuzzy-wuzzy python knihovna
11. Problém překladu jazyků
Velké množství recenzí je dostupné v cizích jazycích
- Jak získávat recenze z cizích jazyků, analyzovat a konsolidovat do
referenčního jazyka
- Různý sentiment různých trhů
- americký vs. český uživatel,
- různé varianty produktů pro různé trhy,
- různá kupní síla, atd.
#3: Motivace
Náš tým v současné chvíli pracuje na projektu usnadňujícím rozhodování v oblasti nakupování nejrůznějších produktů. Snažíme se pomoci uživatelům zorientovat se ve velkém množství názorů publikovaných na internetu na konkrétní zboží, které by si chtěli zakoupit. Tyto uživatelské recenze jsou rozesety na nejrůznějších diskusních fórech, webech pro hodnocení produktů či portálech zabývajících se konkrétní problematikou. Pro běžného uživatele je obtížné tyto informace vyhledat, zorientovat se v nich a udělat si vlastní názor.
Metody
Pro analýzu velkého množství nestrukturovaných dat jsme se rozhodli využít metod strojového učení. Chceme pomocí nich v datech identifikovat témata, o kterých se uživatelé v souvislosti s produkty baví, a určit jejich pozitivní nebo negativní postoj k jednotlivým vlastnostem produktů.
#4: Řešitelský tým: ústav informatiky Mendelu
Zkušenosti řešitelského týmu s textovou analýzou (v angličtině)
#7: MTA - co to je, sber dat, analyza, aplikace, schematicky diagram
Ukládání v dokumentové DB + pre-procesing + ulozeni v relacni DB