5. Mitä tarkoittaa big data?
1. Havaintoa siitä, että dataa on koko ajan määrällisesti
enemmän ja sen muoto ja laatu vaihtelevat suuresti
2. Haastetta hallita ja hyödyntää tuota tietomäärää
perinteisten järjestelmien ja ratkaisujen avulla
3. Ratkaisuja (tuotteet, palvelut, ohjelmistot,
teknologiat), joilla tuohon haasteeseen tartutaan
6. Big datan 3 V:tä
Volume Tietoa (dataa) on koko ajan enemmän. Se pitäisi
pystyä tallentamaan ja hyödyntämään.
Velocity Tietoa (dataa) tulee koko ajan nopeammin.
Päätöksiä pitäisi pystyä tekemään nopeasti.
Variety Tietoa (dataa) tulee eri muodoissa ja erilaisista
lähteistä, eikä se istu hyvin nykyisiin
toimintamalleihin.
Veracity, Value, Virality, Validity, Viscosity, Vulnerability…
myös muita V-kirjaimia on jälkeenpäin lisätty kuvaamaan ilmiötä.
7. = paljon nopeasti lisääntyvää
monimuotoista dataa
Big datan 3 V:tä
velocity → volume→
variety→
Big data
8. ● IDC sanoo (04/2014), että vuonna 2014 markkinat ovat 14
mrd $ ja kasvavat vuonna 2017 tasolle 32 mrd $
● Gartner sanoo (10/2012), että vuonna 2012 big data -
markkinat olivat jo 28 mrd $
● McKinseyn raportissa (05/2011) arvioitiin big datan
vuotuisen lisäarvo- ja kustannussäästöpotentiaalin olleen
jo vuonna 2011 arviolta 1 000 mrd €
Big data -markkinoiden koko
10. Ilmiöllä on monta nimeä
● Internet of Things + Social Media
○ esineiden internet + ihmisten internet
● Big data
○ massadata yms. (mm. McKinsey)
● Internet of Everything
○ kaiken internet (Gartner → ihmiset, esineet, informaatio, paikat)
● Industrial Internet
○ teollinen internet (General Electric)
● Industrial Internet of Things
○ asioiden teollinen internet (Accenture)
13. Esimerkkejä määrästä ja tiedon lähteistä
PB
TB
GB
MB
Monimuotoisuus
Big data
Web
CRM
ERP Purchase detail
Purchase record
Payment record
Segmentation
Offer details
Customer touches
Support contacts
Web logs
Offer history
A/B testing
Dynamic pricing
Affiliate networks
Search marketing
Behavioral
targeting
Dynamic funnels
Sensors / RFID / Devices
Mobile Web
User click stream
Sentiment
User generated content
Social interactions & feeds
Spatial & GPS coordinates
External demographics
Business data feeds
HD video, audio, images
Speech to text
Product / service logs
SMS / MMS
Määrä
Lähde: mukaillen Yli-Pietilä, Backman & Ahlgren
17. Mistä sitä dataa oikein tulee?
Saatavilla olevat
datavarannot
(avoin data, datamarkkinat)
Potentiaalinen data
(ei vielä kerätä)
Digitaalinen todellisuus
(internet, sosiaalinen media)
Fyysinen todellisuus
(sensorit, esineiden internet)
Organisaation hallussa tai
saatavilla oleva data
(ERP, CRM, DW, RDBMS)
18. Suppein näkökulma dataan
Tästä näkökulmasta big data
koskettaa ilmiönä n. 0,2 %
maailman organisaatioista
“Eihän meillä edes ole big dataa!”
Yrityksen oma strukturoitu data
Yrityksen vielä hyödyntämätön data
Yrityksen vielä keräämätön data
19. Suppeahko näkökulma dataan
Tästä näkökulmasta big data
koskettaa ilmiönä n. 3 %
maailman organisaatioista
“Entä jos hyödyntäisimme kaiken sen datan jota jo keräämme?”
Yrityksen oma strukturoitu data
Yrityksen vielä hyödyntämätön data
Yrityksen vielä keräämätön data
20. Verkostoitunut näkökulma dataan
Tästä näkökulmasta big data
koskettaa ilmiönä n. 22 %
maailman organisaatioista
“Voisimmeko kerätä enemmän dataa toiminnastamme?”
Yrityksen oma strukturoitu data
Yrityksen vielä hyödyntämätön data
Yrityksen vielä keräämätön data
21. Verkostoitunut näkökulma dataan
Tästä näkökulmasta big data
koskettaa ilmiönä n. 72 %
maailman organisaatioista
“Verkottunut yritys ei voi piilotella dataansa!”
Organisaatio
Kumppani Kumppani
Kumppani Kumppani
Kumppani Kumppani
22. Kokonaisvaltainen näkökulma dataan
“Pelkkä omaan dataan tuijottelu ei tuota ikuisesti kilpailuetua!”
Tästä näkökulmasta big data koskettaa ilmiönä n. 98 %
maailman organisaatioista
Avoin data
Datamarkkinat
24. ● Avoimuuteen patistetaan
○ Esim. PSI-direktiivi (julk 06/2013, implementointi 07/2015)
● Tietosuoja huolettaa
○ Esim. oikeus poistaa omat tietonsa Googlesta
● Henkilötietojen omistajuus?
○ Lue LVM:n MyData-selvitys
Tietosuoja ja yksityisyys iso huoli
25. My Data on henkilötietojen osajoukko
Mikäli yksilöllä ei ole mahdollisuutta hyödyntää
ja hallinnoida jonkun muun hänestä keräämää
henkilötietoa, niin sitä ei voida kutsua my dataksi.
Jos hyödyntämisen ja hallinnan mahdollisuudet
ovat kaikkiin henkilötietoihin, voivat my data ja
henkilötiedot olla myös sama asia.
27. Toistaiseksi datatieteen
osaamisvaatimuksia voidaan harvoin
täyttää vain yhden työntekijän
voimin. Organisaation data-analyysi -
toiminnot ovatkin tavallisimmin
koottu tiimeihin.
Datatieteilijän rooli big datassa
Lähde: NIST / USA
28. Big datan teknologiat
● Hadoop (tunnetuin yksittäinen uusi teknologia)
● NoSQL (uudenlaiset tietokannat)
● Appliance (valmisratkaisut)
● In-memory -analytics
● Pilvipalvelut
○ Amazon
○ Google
○ IBM
○ Microsoft
30. Teknologiakirjo kasvaa..
ERP
SCM
Images
Audio
Video
Logs
Text
Web & Social
Input
Marketing
Analytics
Applicatios
Business
Intelligence
Data Mining
Math & Stats
Analytic tools
Marketing
Executives
Frontline
Employees
Business
Analysts
Statisticians
Data
Scientists
Engineers
Event Processing
Real Time
Data Platform
Store and Refine
Integrated Data
Warehouse
Operationalize
Discovery Platform
Exploration
Lähde: mukaillen Teradata
32. Googlen julkaisu Vuosi
Avoimen lähdekoodin
projekti
Vuosi Mihin tarkoitukseen?
GFS ja
MapReduce
2003,
2004
Hadoop 2006
Datan tallentaminen ja analysointi
(klusteri)
Sawzall 2005 Pig ja Hive 2008 Massa-analytiikka
BigTable 2006 HBase 2008 Avain-arvopari -tietokanta (NoSQL)
Pregel 2010 Giraph 2011 Graph-tietokanta
Dremel / F1 2010 Cloudera Impala 2012 Nopeat kyselyt (SQL)
Spanner 2012 ? ???? Transaktiot
Innoittajana Google
33. Mitä Hadoop tekee?
Hadoop valjastaa palvelinklusterin vastaamaan datan
tallennuksesta ja prosessoinnista.
Miksi haluaisin Hadoop-klusterin?
- edullista tallennustilaa (mikä vaan x86-palvelin käy)
- tehokasta prosessointia (rinnakkaisuus)
- toimintavarmuutta (moninkertainen tallennus)
- skaalautuvuutta (klusteria helppo laajentaa)
- ekosysteemit, lisäosia ja laajennoksia!
34. Klusteri?
Klusteri = joukko toisiinsa kytkettyjä
palvelimia (nodes), jotka suorittavat
annettua tehtävää hajautettuna,
mutta näkyvät käyttäjälle
yhtenä järjestelmänä
36. Hadoop Distributed File System: HDFS
Node 1
data piece
Big Data
(= 1 or more files)
data piece
data piece
Node 2
data piece
data piece
data piece
Node 3
data piece
data piece
data piece
Node 4
data piece
data piece
data piece
HDFS
Lähde: mukaillen www.glennklockwood.com
38. Hadoop: Prosessoinnin logiikka
MapReduce: Viedään prosessointi datan luo!
Lähde: www.glennklockwood.com
“Map/reduce is ideally suited for
trivially parallel calculations on
large quantities of data.”
43. 1. hadoop.apache.org
“Harva organisaatio päätyy käyttämään Hadoopia näin.
Startup-yritysten, tutkimuslaitosten ja yliopistojen
vaihtoehto.”
Vahvuudet (+) Ilmainen
Heikkoudet (-) Joutuu tekemään kaiken itse
44. 2. Valmis jakelu
Vahvuudet (+) Helppous, tuki, koulutus, partnerit ja
optimoitu suorituskyky
Heikkoudet (-) Lukittumisuhka (lock-in), maksullinen
“Tyypillinen tapa tällä hetkellä ottaa Hadoop käyttöön.
Objektiivinen vertailu hankalaa, tietoa vaikea saada. Vaatii
vahvaa kehitystiimiä.”
45. 3. Hadoop osana kokonaisuutta
Vahvuudet (+) Kehittyneet ominaisuudet,
integroitavuus, tuki- ja partneriverkosto
Heikkoudet (-) Kallis, vendor lock-in
“Tämä on se todennäköinen tapa, jolla Hadoop hiipii
yrityksiin, joilla on voimakas toimittajasuhde. Hadoop
osana isompaa kokonaisuutta.”
46. Vahvuudet (+) Nopea käyttöönotto, joustavuus,
kustannusten ennakointi
Heikkoudet (-) Tietoturvahuolet, lainsäädäntö, lisää
osaamisvaatimuksia
“Helpoin, riskittömin ja nopein tapa pilotointiin,
demoamiseen ja testaamiseen. Todennäköisesti
tulevaisuudessa yhä merkittävämpi vaihtoehto myös
tuotantokäyttöön.”
3. Hadoop pilvipalveluna
50. Pilvipalvelut vahvassa kasvussa!
Company Market Share Growth-% (Q1 2014)
Amazon 28 % 67 %
Microsoft 8 % 154 %
IBM 7 % 80 %
Salesforce 6 % 37 %
Google 5 % 60 %
Synergy Research Group
51. Datan analysoiminen pilvessä
Terasortin maailmanennätys Googlen pilvipalvelussa:
“Since the servers used in MapR’s world record were
virtually instantiated in the Cloud, the cost estimate for
running the TeraSort was about $9 compared to the over
$5M estimate to run the previous record.”
joustavuudesta!
Tästä on kysymys:
$ 9 vs. $ 5 000 000
52. Big data Suomessa
Ivorio toteutti Liikenne- ja viestintäministeriölle
selvityksen suomalaisesta big data -markkinasta.
Mukana olivat julkishallinnon, yritysten,
palveluntarjoajien ja oppilaitosten edustajat.
http://www.lvm.fi/julkaisu/4156840/big-data-suomessa-keskustelualoite
53. Big data hyödyntäminen
Liikenne- ja viestintäministeriön big datan käyttö
-työryhmän raportissa esitetään luonnos
kansalliseksi strategiaksi ja ehdotuksia
kansallisiksi strategisiksi toimenpiteiksi, joiden
avulla voidaan lisätä suurten tietoaineistojen
hyödyntämistä Suomessa.
http://www.lvm.fi/julkaisu/4417803/big-datan-hyodyntaminen