ݺߣ

ݺߣShare a Scribd company logo
WEB-MINING
FOGALMA ÉS
ESZKÖZEI
Tarcsi Ádám, Horváth Győző
Tematika





Trendek, big data
Webes adatbányászat
éá
Trendvizsgálat
Internet felhasználók száma
Régió

Populáció (2012)

Internet
Internet
használók száma használók száma
(2000.dec.31.)
(2012.jún.30)

Penetráció

Növekedés
2000-2012

%

Afrika

1 073 380 925

4 514 400

167 335 676

15,6 %

3 606,7 %

7,0 %

Ázsia

3 922 066 987

114 304 000

1 076 681 059

27,5 %

841,9 %

44,8 %

Európa

820 918 446

105 096 093

518 512 109

63,2 %

393,4 %

21,5 %

Közel-Kelet

223 608 203

3 284 800

90 000 455

40,2 %

2 639,9 %

3,7 %

Észak-Amerika

348 280 154

108 096 800

273 785 413

78,6 %

153,3 %

11,4 %

Közép- és Dél-Amerika

593 688 638

18 068 919

254 915 745

42,9 %

1 310,8 %

10,6 %

Ausztrália és Óceánia

35 903 569

7 620 480

24 287 919

67,6 %

218,7 %

1,0 %

7 017 846 922

360 985 492

2 405 518 376

34,3 %

566,4 %

100,0 %

Világ
Big data statisztikák
Big data statisztikák


571 új weboldal keletkezik naponta minden egyes percben



A 247 milliárd naponta elküldött e-mail 80%-a spam



A Walmart havonta 45 millió online vásárló kattintási adatait elemezi azért hogy
személyre szabott ajánlatokkal lássa el a látogatókat mellyel közel 15%-al
növelték a sikeres vásárlási tranzakciók számát,



1 826 petabyte (1 826 000 terabyte) az az adatmennyiség melyet az internet
naponta "megmozgat",









Évente 3 6 terrabájt adatot állítunk elő évente 2015-re a Gartner előrejelzése
szerint,
A Cisco számításai szerint 2015-re várhatóan megnégyszereződik a világ teljes
internetforgalma és így eléri az éves 966 exabájtot,
A 2014-2015 közötti időszakban önmagában is 200 exabájtos növekedés
várható ez több mint a 2010-ben világszerte generált összes internetforgalom,
Egy exabájt adatmennyiség körülbelül 19 milliárd DVD-lemeznek felel meg és
75-szöröse a 2000-ben generált teljes - vezetékes és mobil - internetes
adatforgalomnak,
Big Data statisztikák - Google
A Google szerverei évente 1,8 billió (1000
milliárd) keresést dolgoztak fel 2012-ben
(22 milliót 2000-ben) 5,1 milliárdot
naponta
 Kétnaponta annyi információ keletkezik
mint amennyi a civilizáció kezdete óta
2003-ig (Eric Schmidt, Google)
 A Youtube-ra percenként 100 órányi videót
töltünk fel (egy éve ez még 72, még egy
évvel korábban pedig még "csak" 48 óra
volt)

Big Data - Facebook
699 millió a Facebookot naponta
használók száma (2013 június)
 Egy átlagos napon 4 5 milliárd lájk
keletkezik
 Naponta 350 millió képet töltünk fel a
Facebookra

Internet of things

Forrás: http://www,bitport,hu/megoldasok/joevokep-mi-az-a-dolgok-internete-infografika
Milyen gyors az Internet?
Milyen gyors az Internet?

A twittet 22 perc alatt 226.000 Twitter felhasználó osztotta tovább.
A bejelentés percében 327.452 üzenetet osztottak meg a felhasználók a Twitteren.
A legkedveltebb Facebook fotó

Közel 4 millió felhasználó lájkolta a képet egy nap alatt!
Láthatatlan web az ún. Deep
web
Webbányászat területei

Webbányászat
Webtartalom-bányászat

Webstruktúra-bányászat

Webhasználat-bányászat
Webtartalom-bányászat


Információ keresése 𳾳é a weben tárolt
tartalmakban: szövegekben képekben videókban
stb,
Nem strukturált adatok: videók, audio-állományok
 Félig strukturált adatok: blogok, közösségi
megosztások, dokumentumok
 Strukturált adatok: szenzorok által mért adatok,
adatbázisból származó adatok







Web szövegbányászat jellemzően természetes
nyelvfeldolgozási módszerek segítségével,
Információ-szűrés és kategorizálás,
Web-es kereső rendszerek.
Webstruktúra-bányászat






A honlapot és a webet felépítő hiperlinkekből
azok kapcsolataiból nyer ki információt,
Keresőrobotok a kapcsolatok hivatkozások
megtalálására elemzésére használják,
Website tervezési eszköz
Webhasználat-bányászat






A látogatók szokásainak magatartásmintáinak
tanulmányozása
A látogatók tevékenységének előrejelzése és
ösztönzése
A (web)szolgáltatás minőségének javítása
webszerver teljesítményének optimalizálása
Webhasználat-bányászat


Webnaplók elemzésén alapul














Kérés IP címe
Kérés ideje
A kért URL cím
Honnan jött?
Ha keresőből jött milyen keresőszóra talált ide?
Milyen böngészőt eszközt használ?
Járt-e már nálunk korábban?
Hol járt nálunk korábban?
Melyik oldalra érkeznek a leggyakrabban a látogatóink?
Milyen sorrendben szokták a látogatók olvasni az egyes
oldalakat?
Egy átlagos látogatás alatt hány oldalt néztek meg?
Mennyi ideig tartózkodnak egy-egy oldalon a látogatók?
http://extremetracking,com

Statisztika (eXtreme tracking)
18
19

Web-es statisztika: Google
Analytics
Google Analytics
20



A mérési eredményekből kiderül
Leglátogatottabb oldalak
 Honnan jöttek a látogatók? Direkt címzés / melyik
keresőből melyik oldalról
 Mely keresőszavakra találtak az oldalra?
 Google AdWords és Analytics együttes használatával
mérhető a marketing kampány sikeressége
 Trendek
 Felhasználói szokások: területi adatok böngészők
típusa felbontás stb,
 Látogatások folyamata
 Oldalon belüli elemzés

Látogatók folyamata
Oldalon belüli elemzés…
22
éá
Webáruházak és a webbányászat







„webes kosár”: akik szintén ezt vették, mit vettek még?
bejelentkezett felhasználók múltbéli cselekedeteinek
(vásárlás és keresés) adatai  hasonló, vagy
kapcsolódó új termékek ajánlata
előzmények: előzőleg meglátogatott (akár más
szerveren lévő) lapok adatai
Vásárlók kategorizálása!
Google Trends
Google Trends








Itt nem megkérdezzük a célcsoportot, hanem megfigyeljük
azok szokásait, szándékait.
Keresési, egyéb internetes trendek, valamint webes
szolgáltatások közötti összehasonlításra (pl.: kuponoldalak),
illetve olyan esetekben, amikor a célcsoport aktív webes
jelenléte feltételezhető, nagyon jól alkalmazhatóak.
Leginkább az internetezők, az internetes vásárlóközönség
mérésére, elemzésére alkalmas.
éá:
 Influenza-trendek követése
 Versenytárselemzés
 Reklám üzenet, hirdetési kulcsszó kiválasztása
 Szezonalitás-vizsgálat
 Új piacok meghódítása
Influenza-trendek
Sentiment Analysis with SAP
HANA
Hochschule Ludwigshafen am Rhein
Prof. Dr. Klaus Freyburger
2012-es USA elnökválasztások
közösségi 𳾳é
Alkalmazás készítésének
lépései
Érzelmi elemzés
DE!
Torzított minta - Pl. az Egyesült Államok lakosságának kb.
10%-a Twitter felhasználó, a Facebook penetráció pedig
57%-os. Az életkor szerinti eloszlásban is erős eltérések
mutatkoznak.
 Ismeretlen adatok - Nem tudjuk pontosan hányan láttak egy
adott Facebook bejegyzést, csak azt, hogy hányan reagáltak
rá.
 Túláltalánosított hálózati modellek - A gráfelméleti
modellek nem tesznek különbséget a közösségi média
kapcsolatai, az internetes hálózatok, vagy a személyes
ismertség között.
 A nem-hálózati viselkedési faktorok figyelmen kívül
hagyása - Az emberi viselkedésnek vannak nem hálózati
jellegű vonatkozásai. Ilyenek az ún. mező hatások a
csoportviselkedés terén (nagy nemzeti katasztrófák, nagy
csoportok viselkedése tüntetések/zavargások idején).
 A megfigyelő-paradoxona - A közösségi média felhasználói
Forrás: http://kereses.blog.hu/2013/08/01/a_big_data_buktatoi
többé-kevésbé tudatában vannak annak, hogy

é

More Related Content

Tarcsi Ádám, Horváth Győző:Web-mining fogalma és eszközei

  • 2. Tematika     Trendek, big data Webes adatbányászat éá Trendvizsgálat
  • 3. Internet felhasználók száma Régió Populáció (2012) Internet Internet használók száma használók száma (2000.dec.31.) (2012.jún.30) Penetráció Növekedés 2000-2012 % Afrika 1 073 380 925 4 514 400 167 335 676 15,6 % 3 606,7 % 7,0 % Ázsia 3 922 066 987 114 304 000 1 076 681 059 27,5 % 841,9 % 44,8 % Európa 820 918 446 105 096 093 518 512 109 63,2 % 393,4 % 21,5 % Közel-Kelet 223 608 203 3 284 800 90 000 455 40,2 % 2 639,9 % 3,7 % Észak-Amerika 348 280 154 108 096 800 273 785 413 78,6 % 153,3 % 11,4 % Közép- és Dél-Amerika 593 688 638 18 068 919 254 915 745 42,9 % 1 310,8 % 10,6 % Ausztrália és Óceánia 35 903 569 7 620 480 24 287 919 67,6 % 218,7 % 1,0 % 7 017 846 922 360 985 492 2 405 518 376 34,3 % 566,4 % 100,0 % Világ
  • 5. Big data statisztikák  571 új weboldal keletkezik naponta minden egyes percben  A 247 milliárd naponta elküldött e-mail 80%-a spam  A Walmart havonta 45 millió online vásárló kattintási adatait elemezi azért hogy személyre szabott ajánlatokkal lássa el a látogatókat mellyel közel 15%-al növelték a sikeres vásárlási tranzakciók számát,  1 826 petabyte (1 826 000 terabyte) az az adatmennyiség melyet az internet naponta "megmozgat",     Évente 3 6 terrabájt adatot állítunk elő évente 2015-re a Gartner előrejelzése szerint, A Cisco számításai szerint 2015-re várhatóan megnégyszereződik a világ teljes internetforgalma és így eléri az éves 966 exabájtot, A 2014-2015 közötti időszakban önmagában is 200 exabájtos növekedés várható ez több mint a 2010-ben világszerte generált összes internetforgalom, Egy exabájt adatmennyiség körülbelül 19 milliárd DVD-lemeznek felel meg és 75-szöröse a 2000-ben generált teljes - vezetékes és mobil - internetes adatforgalomnak,
  • 6. Big Data statisztikák - Google A Google szerverei évente 1,8 billió (1000 milliárd) keresést dolgoztak fel 2012-ben (22 milliót 2000-ben) 5,1 milliárdot naponta  Kétnaponta annyi információ keletkezik mint amennyi a civilizáció kezdete óta 2003-ig (Eric Schmidt, Google)  A Youtube-ra percenként 100 órányi videót töltünk fel (egy éve ez még 72, még egy évvel korábban pedig még "csak" 48 óra volt) 
  • 7. Big Data - Facebook 699 millió a Facebookot naponta használók száma (2013 június)  Egy átlagos napon 4 5 milliárd lájk keletkezik  Naponta 350 millió képet töltünk fel a Facebookra 
  • 8. Internet of things Forrás: http://www,bitport,hu/megoldasok/joevokep-mi-az-a-dolgok-internete-infografika
  • 9. Milyen gyors az Internet?
  • 10. Milyen gyors az Internet? A twittet 22 perc alatt 226.000 Twitter felhasználó osztotta tovább. A bejelentés percében 327.452 üzenetet osztottak meg a felhasználók a Twitteren.
  • 11. A legkedveltebb Facebook fotó Közel 4 millió felhasználó lájkolta a képet egy nap alatt!
  • 12. Láthatatlan web az ún. Deep web
  • 14. Webtartalom-bányászat  Információ keresése 𳾳é a weben tárolt tartalmakban: szövegekben képekben videókban stb, Nem strukturált adatok: videók, audio-állományok  Félig strukturált adatok: blogok, közösségi megosztások, dokumentumok  Strukturált adatok: szenzorok által mért adatok, adatbázisból származó adatok     Web szövegbányászat jellemzően természetes nyelvfeldolgozási módszerek segítségével, Információ-szűrés és kategorizálás, Web-es kereső rendszerek.
  • 15. Webstruktúra-bányászat    A honlapot és a webet felépítő hiperlinkekből azok kapcsolataiból nyer ki információt, Keresőrobotok a kapcsolatok hivatkozások megtalálására elemzésére használják, Website tervezési eszköz
  • 16. Webhasználat-bányászat    A látogatók szokásainak magatartásmintáinak tanulmányozása A látogatók tevékenységének előrejelzése és ösztönzése A (web)szolgáltatás minőségének javítása webszerver teljesítményének optimalizálása
  • 17. Webhasználat-bányászat  Webnaplók elemzésén alapul             Kérés IP címe Kérés ideje A kért URL cím Honnan jött? Ha keresőből jött milyen keresőszóra talált ide? Milyen böngészőt eszközt használ? Járt-e már nálunk korábban? Hol járt nálunk korábban? Melyik oldalra érkeznek a leggyakrabban a látogatóink? Milyen sorrendben szokták a látogatók olvasni az egyes oldalakat? Egy átlagos látogatás alatt hány oldalt néztek meg? Mennyi ideig tartózkodnak egy-egy oldalon a látogatók?
  • 20. Google Analytics 20  A mérési eredményekből kiderül Leglátogatottabb oldalak  Honnan jöttek a látogatók? Direkt címzés / melyik keresőből melyik oldalról  Mely keresőszavakra találtak az oldalra?  Google AdWords és Analytics együttes használatával mérhető a marketing kampány sikeressége  Trendek  Felhasználói szokások: területi adatok böngészők típusa felbontás stb,  Látogatások folyamata  Oldalon belüli elemzés 
  • 23. éá
  • 24. Webáruházak és a webbányászat     „webes kosár”: akik szintén ezt vették, mit vettek még? bejelentkezett felhasználók múltbéli cselekedeteinek (vásárlás és keresés) adatai  hasonló, vagy kapcsolódó új termékek ajánlata előzmények: előzőleg meglátogatott (akár más szerveren lévő) lapok adatai Vásárlók kategorizálása!
  • 26. Google Trends     Itt nem megkérdezzük a célcsoportot, hanem megfigyeljük azok szokásait, szándékait. Keresési, egyéb internetes trendek, valamint webes szolgáltatások közötti összehasonlításra (pl.: kuponoldalak), illetve olyan esetekben, amikor a célcsoport aktív webes jelenléte feltételezhető, nagyon jól alkalmazhatóak. Leginkább az internetezők, az internetes vásárlóközönség mérésére, elemzésére alkalmas. éá:  Influenza-trendek követése  Versenytárselemzés  Reklám üzenet, hirdetési kulcsszó kiválasztása  Szezonalitás-vizsgálat  Új piacok meghódítása
  • 28. Sentiment Analysis with SAP HANA Hochschule Ludwigshafen am Rhein Prof. Dr. Klaus Freyburger
  • 32. DE! Torzított minta - Pl. az Egyesült Államok lakosságának kb. 10%-a Twitter felhasználó, a Facebook penetráció pedig 57%-os. Az életkor szerinti eloszlásban is erős eltérések mutatkoznak.  Ismeretlen adatok - Nem tudjuk pontosan hányan láttak egy adott Facebook bejegyzést, csak azt, hogy hányan reagáltak rá.  Túláltalánosított hálózati modellek - A gráfelméleti modellek nem tesznek különbséget a közösségi média kapcsolatai, az internetes hálózatok, vagy a személyes ismertség között.  A nem-hálózati viselkedési faktorok figyelmen kívül hagyása - Az emberi viselkedésnek vannak nem hálózati jellegű vonatkozásai. Ilyenek az ún. mező hatások a csoportviselkedés terén (nagy nemzeti katasztrófák, nagy csoportok viselkedése tüntetések/zavargások idején).  A megfigyelő-paradoxona - A közösségi média felhasználói Forrás: http://kereses.blog.hu/2013/08/01/a_big_data_buktatoi többé-kevésbé tudatában vannak annak, hogy 
  • 33. é