ݺߣ

ݺߣShare a Scribd company logo
Získávání a analýza názorů
uživatelů na produkty
Vladimír Vacula
15. 4. 2019
Usnadňujeme orientaci
v publikovaných
názorech na daný
produkt
Za pomoci strojového
učení pro analýzu
velkého množství
nestrukturovaných dat
Tým: Informatika @ MENDELU + CYRRUS Advisory
Projekty: Textové recenze – ubytování, lékaři
Burzovní zprávy – korelace zpráv a pohyb cen na burze
MTA – motivace, využití
- Dovoz nového výrobku na český trh (zpoždění oproti US trhu)
- Branding – sentiment uživatelů vůči značce
- Řízení produktového portfolia výrobních a distribučních podniků
- Rychlé získávání informací v obchodě
- zadání názvu produktu
- scan QR nebo čárového kódu produktu
- rozpoznání produktu pomocí fotoaparátu
Mobilní aplikace
Demo aplikace
MTA – architektura
internet
identifikace
produktu
sběr dat pre-processing analýza textu
produktové
informace
app
server
clustering klasifikace
prezentace
crawlers
{
"titul": "Technologie – Výzva IX",
"stav": "Otevřená výzva",
"Vyhlášení výzvy:": "10. 12. 2018",
"Zahájení příjmu:": "11. 3. 2019",
"Ukončení příjmu:": "13. 6. 2019",
"popis": "Cílem IX. Výzvy programu Technologie je podpora růstu a posilování konkurenceschopnosti malých a
středních podniků prostřednictvím digitální transformace a přispívat tak k rozvoji regionů.",
...
}
Sběr dat
Příklad automatizace sběru dat pro Cyrrus Advisory
- www.dotacni.info
- API - Agentura pro podnikání a inovace
- Crawler : http://git.pef.mendelu.cz/MTA/oppik-scraper/
Analýza textu
- Vektorová reprezentace dokumentů
- Shluky reprezentují diskutovaná témata
- Hledání podobnosti
vektorů (např. k-means)
- Problematické určení
počtu shluků
- Klasifikační metody pro
nově přidané recenze
Problém omezení sběru dat
Problém crawlers – omezení přístupů, ochrana proti robotům (captcha)
Robustní crawler – definice pomocí meta jazyka
Problém identifikace produktů
Jak určit o jaký produkt se jedná ?
- “Zrcadlovka Canon EOS 600D”
- “Canon EOS 600D SLR digitální kamera”
- “Digitální fotoaparát Canon EOS 600D SLR (18 mpx, 7,6 cm (3") otočný displej, Full HD”
- “Digitální zrcadlovka Canon EOS 600D (18 megapixelů, 7,6cm (3palcový) displej, APS-C CMOS
senzor, WLAN s NFC, Full HD, Digic 7) kit vč. EF-S 18-55mm, 1:4,0 – 5,6 IS STM, černá”
- “Canon EF-S 18-55mm 1:3.5-5.6 IS II Universal zoom Objektiv (58mm Filter)”
Fuzzy-wuzzy python knihovna
Problém překladu jazyků
Velké množství recenzí je dostupné v cizích jazycích
- Jak získávat recenze z cizích jazyků, analyzovat a konsolidovat do
referenčního jazyka
- Různý sentiment různých trhů
- americký vs. český uživatel,
- různé varianty produktů pro různé trhy,
- různá kupní síla, atd.
Děkuji za pozornost
Otázky?
mta@cyrrusadvisory.cz

More Related Content

Získávání a analýza názorů uživatelů na produkty

  • 1. Získávání a analýza názorů uživatelů na produkty Vladimír Vacula 15. 4. 2019
  • 2. Usnadňujeme orientaci v publikovaných názorech na daný produkt Za pomoci strojového učení pro analýzu velkého množství nestrukturovaných dat
  • 3. Tým: Informatika @ MENDELU + CYRRUS Advisory Projekty: Textové recenze – ubytování, lékaři Burzovní zprávy – korelace zpráv a pohyb cen na burze
  • 4. MTA – motivace, využití - Dovoz nového výrobku na český trh (zpoždění oproti US trhu) - Branding – sentiment uživatelů vůči značce - Řízení produktového portfolia výrobních a distribučních podniků - Rychlé získávání informací v obchodě - zadání názvu produktu - scan QR nebo čárového kódu produktu - rozpoznání produktu pomocí fotoaparátu
  • 6. MTA – architektura internet identifikace produktu sběr dat pre-processing analýza textu produktové informace app server clustering klasifikace prezentace crawlers
  • 7. { "titul": "Technologie – Výzva IX", "stav": "Otevřená výzva", "Vyhlášení výzvy:": "10. 12. 2018", "Zahájení příjmu:": "11. 3. 2019", "Ukončení příjmu:": "13. 6. 2019", "popis": "Cílem IX. Výzvy programu Technologie je podpora růstu a posilování konkurenceschopnosti malých a středních podniků prostřednictvím digitální transformace a přispívat tak k rozvoji regionů.", ... } Sběr dat Příklad automatizace sběru dat pro Cyrrus Advisory - www.dotacni.info - API - Agentura pro podnikání a inovace - Crawler : http://git.pef.mendelu.cz/MTA/oppik-scraper/
  • 8. Analýza textu - Vektorová reprezentace dokumentů - Shluky reprezentují diskutovaná témata - Hledání podobnosti vektorů (např. k-means) - Problematické určení počtu shluků - Klasifikační metody pro nově přidané recenze
  • 9. Problém omezení sběru dat Problém crawlers – omezení přístupů, ochrana proti robotům (captcha) Robustní crawler – definice pomocí meta jazyka
  • 10. Problém identifikace produktů Jak určit o jaký produkt se jedná ? - “Zrcadlovka Canon EOS 600D” - “Canon EOS 600D SLR digitální kamera” - “Digitální fotoaparát Canon EOS 600D SLR (18 mpx, 7,6 cm (3") otočný displej, Full HD” - “Digitální zrcadlovka Canon EOS 600D (18 megapixelů, 7,6cm (3palcový) displej, APS-C CMOS senzor, WLAN s NFC, Full HD, Digic 7) kit vč. EF-S 18-55mm, 1:4,0 – 5,6 IS STM, černá” - “Canon EF-S 18-55mm 1:3.5-5.6 IS II Universal zoom Objektiv (58mm Filter)” Fuzzy-wuzzy python knihovna
  • 11. Problém překladu jazyků Velké množství recenzí je dostupné v cizích jazycích - Jak získávat recenze z cizích jazyků, analyzovat a konsolidovat do referenčního jazyka - Různý sentiment různých trhů - americký vs. český uživatel, - různé varianty produktů pro různé trhy, - různá kupní síla, atd.

Editor's Notes

  • #3: Motivace Náš tým v současné chvíli pracuje na projektu usnadňujícím rozhodování v oblasti nakupování nejrůznějších produktů. Snažíme se pomoci uživatelům zorientovat se ve velkém množství názorů publikovaných na internetu na konkrétní zboží, které by si chtěli zakoupit. Tyto uživatelské recenze jsou rozesety na nejrůznějších diskusních fórech, webech pro hodnocení produktů či portálech zabývajících se konkrétní problematikou. Pro běžného uživatele je obtížné tyto informace vyhledat, zorientovat se v nich a udělat si vlastní názor. Metody Pro analýzu velkého množství nestrukturovaných dat jsme se rozhodli využít metod strojového učení. Chceme pomocí nich v datech identifikovat témata, o kterých se uživatelé v souvislosti s produkty baví, a určit jejich pozitivní nebo negativní postoj k jednotlivým vlastnostem produktů.
  • #4: Řešitelský tým: ústav informatiky Mendelu Zkušenosti řešitelského týmu s textovou analýzou (v angličtině)
  • #7: MTA - co to je, sber dat, analyza, aplikace, schematicky diagram Ukládání v dokumentové DB + pre-procesing + ulozeni v relacni DB