5. Big data statisztikák
571 új weboldal keletkezik naponta minden egyes percben
A 247 milliárd naponta elküldött e-mail 80%-a spam
A Walmart havonta 45 millió online vásárló kattintási adatait elemezi azért hogy
személyre szabott ajánlatokkal lássa el a látogatókat mellyel közel 15%-al
növelték a sikeres vásárlási tranzakciók számát,
1 826 petabyte (1 826 000 terabyte) az az adatmennyiség melyet az internet
naponta "megmozgat",
Évente 3 6 terrabájt adatot állítunk elő évente 2015-re a Gartner előrejelzése
szerint,
A Cisco számításai szerint 2015-re várhatóan megnégyszereződik a világ teljes
internetforgalma és így eléri az éves 966 exabájtot,
A 2014-2015 közötti időszakban önmagában is 200 exabájtos növekedés
várható ez több mint a 2010-ben világszerte generált összes internetforgalom,
Egy exabájt adatmennyiség körülbelül 19 milliárd DVD-lemeznek felel meg és
75-szöröse a 2000-ben generált teljes - vezetékes és mobil - internetes
adatforgalomnak,
6. Big Data statisztikák - Google
A Google szerverei évente 1,8 billió (1000
milliárd) keresést dolgoztak fel 2012-ben
(22 milliót 2000-ben) 5,1 milliárdot
naponta
Kétnaponta annyi információ keletkezik
mint amennyi a civilizáció kezdete óta
2003-ig (Eric Schmidt, Google)
A Youtube-ra percenként 100 órányi videót
töltünk fel (egy éve ez még 72, még egy
évvel korábban pedig még "csak" 48 óra
volt)
7. Big Data - Facebook
699 millió a Facebookot naponta
használók száma (2013 június)
Egy átlagos napon 4 5 milliárd lájk
keletkezik
Naponta 350 millió képet töltünk fel a
Facebookra
8. Internet of things
Forrás: http://www,bitport,hu/megoldasok/joevokep-mi-az-a-dolgok-internete-infografika
10. Milyen gyors az Internet?
A twittet 22 perc alatt 226.000 Twitter felhasználó osztotta tovább.
A bejelentés percében 327.452 üzenetet osztottak meg a felhasználók a Twitteren.
14. Webtartalom-bányászat
Információ keresése é a weben tárolt
tartalmakban: szövegekben képekben videókban
stb,
Nem strukturált adatok: videók, audio-állományok
Félig strukturált adatok: blogok, közösségi
megosztások, dokumentumok
Strukturált adatok: szenzorok által mért adatok,
adatbázisból származó adatok
Web szövegbányászat jellemzően természetes
nyelvfeldolgozási módszerek segítségével,
Információ-szűrés és kategorizálás,
Web-es kereső rendszerek.
15. Webstruktúra-bányászat
A honlapot és a webet felépítő hiperlinkekből
azok kapcsolataiból nyer ki információt,
Keresőrobotok a kapcsolatok hivatkozások
megtalálására elemzésére használják,
Website tervezési eszköz
16. Webhasználat-bányászat
A látogatók szokásainak magatartásmintáinak
tanulmányozása
A látogatók tevékenységének előrejelzése és
ösztönzése
A (web)szolgáltatás minőségének javítása
webszerver teljesítményének optimalizálása
17. Webhasználat-bányászat
Webnaplók elemzésén alapul
Kérés IP címe
Kérés ideje
A kért URL cím
Honnan jött?
Ha keresőből jött milyen keresőszóra talált ide?
Milyen böngészőt eszközt használ?
Járt-e már nálunk korábban?
Hol járt nálunk korábban?
Melyik oldalra érkeznek a leggyakrabban a látogatóink?
Milyen sorrendben szokták a látogatók olvasni az egyes
oldalakat?
Egy átlagos látogatás alatt hány oldalt néztek meg?
Mennyi ideig tartózkodnak egy-egy oldalon a látogatók?
20. Google Analytics
20
A mérési eredményekből kiderül
Leglátogatottabb oldalak
Honnan jöttek a látogatók? Direkt címzés / melyik
keresőből melyik oldalról
Mely keresőszavakra találtak az oldalra?
Google AdWords és Analytics együttes használatával
mérhető a marketing kampány sikeressége
Trendek
Felhasználói szokások: területi adatok böngészők
típusa felbontás stb,
Látogatások folyamata
Oldalon belüli elemzés
24. Webáruházak és a webbányászat
„webes kosár”: akik szintén ezt vették, mit vettek még?
bejelentkezett felhasználók múltbéli cselekedeteinek
(vásárlás és keresés) adatai hasonló, vagy
kapcsolódó új termékek ajánlata
előzmények: előzőleg meglátogatott (akár más
szerveren lévő) lapok adatai
Vásárlók kategorizálása!
26. Google Trends
Itt nem megkérdezzük a célcsoportot, hanem megfigyeljük
azok szokásait, szándékait.
Keresési, egyéb internetes trendek, valamint webes
szolgáltatások közötti összehasonlításra (pl.: kuponoldalak),
illetve olyan esetekben, amikor a célcsoport aktív webes
jelenléte feltételezhető, nagyon jól alkalmazhatóak.
Leginkább az internetezők, az internetes vásárlóközönség
mérésére, elemzésére alkalmas.
éá:
Influenza-trendek követése
Versenytárselemzés
Reklám üzenet, hirdetési kulcsszó kiválasztása
Szezonalitás-vizsgálat
Új piacok meghódítása
32. DE!
Torzított minta - Pl. az Egyesült Államok lakosságának kb.
10%-a Twitter felhasználó, a Facebook penetráció pedig
57%-os. Az életkor szerinti eloszlásban is erős eltérések
mutatkoznak.
Ismeretlen adatok - Nem tudjuk pontosan hányan láttak egy
adott Facebook bejegyzést, csak azt, hogy hányan reagáltak
rá.
Túláltalánosított hálózati modellek - A gráfelméleti
modellek nem tesznek különbséget a közösségi média
kapcsolatai, az internetes hálózatok, vagy a személyes
ismertség között.
A nem-hálózati viselkedési faktorok figyelmen kívül
hagyása - Az emberi viselkedésnek vannak nem hálózati
jellegű vonatkozásai. Ilyenek az ún. mező hatások a
csoportviselkedés terén (nagy nemzeti katasztrófák, nagy
csoportok viselkedése tüntetések/zavargások idején).
A megfigyelő-paradoxona - A közösségi média felhasználói
Forrás: http://kereses.blog.hu/2013/08/01/a_big_data_buktatoi
többé-kevésbé tudatában vannak annak, hogy