4. Joko olet kuullut siitä?
Kuinka usein käsitettä “big data” on haettu Googlesta
Hypekäyrä on huipussaan
5. Yleisesittely big data -ilmiöstä
Big datan lyhyt historia, viitekehykset ja
tunnetuimmat esimerkit
6. Mitä tarkoittaa big data?
● Big data tarkoittaa kahta asiaa:
1. Havaintoa siitä, että dataa on koko ajan määrällisesti
enemmän ja sen muoto ja laatu vaihtelee suuresti
2. Ratkaisuja (tuotteet, palvelut, ohjelmistot,
teknologiat), joilla tuohon haasteeseen tartutaan
7. Big datan 3 V:tä, se käytetyin määritelmä
1. Volume
Tietoa (dataa) on koko ajan enemmän. Se pitäisi pystyä
tallentamaan ja hyödyntämään.
2. Velocity
Tietoa (dataa) tulee koko ajan nopeammin. Päätöksiä pitäisi
pystyä tekemään nopeasti.
3. Variety
Tietoa (dataa) tulee kiihtyvällä tahdilla erilaisista lähteistä,
eikä se istu hyvin nykyisiin toimintamalleihin
Veracity, Value Virality, Validity, Viscosity… myös muita V-kirjaimia on lisätty kuvaamaan ilmiötä.
17. Kuinka suuret ovat big data -markkinat?
● IDC sanoo (12/2012), että vuonna 2016 markkinoiden koko
on n. 26 mrd $
● Gartner sanoo (10/2012), että vuonna 2012 big data -
markkinat olivat n. 28 mrd $
● Wikibon ennustaa (02/2012), että big data -markkinat ovat
vuonna 2015 n. 54 mrd $
19. “
McKinsey 2011:
Big data: The next frontier for innovation, competition and productivity
McKinseyn raportissa (05/2011) arvioitiin
big datan vuotuisen lisäarvo- ja
kustannussäästöpotentiaalin olevan
vuonna 2011 arviolta 1 000 mrd €
21. “
General Electrics 2012
Industrial Internet: Pushing the Boundaries of Minds and Machines
Today, the people that manage big
data systems or perform advanced
analytics have developed unique
talents through self-driven
specialization, rather than through any
programs that build a standard set of
skills or principles
22. “
Gartner, 2013:
Survey Analysis: Big Data Adoption in 2013
64 % of organizations investing or
planning to invest in big data
technology.
23. “
Tieto Oyj, Q3/2013:
Osavuosikatsaus Q3 2013
Big datan odotetaan olevan yksi
tietotekniikkapalvelujen nopeimmin
kasvavista alueista keskipitkällä
aikavälillä.
25. Big datan haasteet Suomessa
1. Osaajapula (teknologiat, datatieteilijät)
2. Lähdedatan vaihteleva laatu ja kasvava määrä
3. Ilmiön ja teknologioiden jäsentymättömyys
%
Lähde: LVM:n Big data Suomessa -selvitys 09/2013
26. “
McKinsey, 2011:
Big data: The next frontier for innovation, competition and productivity
By 2018, the United States alone could
face a shortage of 140,000 to
190,000 people with deep analytical
skills.
36. 1. http://hadoop.apache.org
Vahvuudet (+) Ilmainen
Heikkoudet (-) Joutuu tekemään kaiken itse
“Harva organisaatio päätyy käyttämään
Hadoopia näin. Startup-yritysten,
tutkimuslaitosten ja yliopistojen vaihtoehto.”
37. 2. Valmis jakelu
Otetaan käyttöön valmiiksi paketoitu kokonaisuus
Amazon (AWS EMR)
Cloudera (CHD)
Hortonworks (HDP)
MapR (M7)
Microsoft (HDInsight)
Pivotal (Pivotal HD)
IBM (IHC)
Intel (Intel Distribution for Apache Hadoop)
38. 2. Valmis jakelu
Vahvuudet (+) Helppous, tuki, koulutus, partnerit ja
optimoitu suorituskyky
Heikkoudet (-) Lukittumisuhka (lock-in), maksullinen
“Tyypillinen tapa tällä hetkellä ottaa
Hadoop käyttöön. Objektiivinen vertailu
hankalaa, tietoa vaikea saada.”
39. 3. Hadoop osana Appliance-ratkaisua
Big data Appliancet (esimerkkilista tunnetuista)
HP (HAVEn)
IBM (Infosphere BigInsights)
Microsoft (Parallel Data Warehouse)
Oracle (Big Data Appliance)
Pivotal (Pivotal)
SAP (SAP HANA Platform)
Teradata (Teradata Aster Big Analytics Appliance)
40. 3. Hadoop osana Appliance-ratkaisua
Hadoop-kytkökset
HP (all leading distros)
IBM (Cloudera)
Microsoft (Hortonworks)
Oracle (Cloudera)
Pivotal (Pivotal HD)
SAP (Intel, Hortonworks)
Teradata (Hortonworks)
41. 3. Hadoop osana Appliance-ratkaisua
Vahvuudet (+) Kehittyneet ominaisuudet,
integroitavuus, tuki- ja partneriverkosto
Heikkoudet (-) Kallis, vendor lock-in
“Tämä on se todennäköinen tapa, jolla
Hadoop hiipii yrityksiin osana isompaa
kokonaisuutta.”
42. 4. Hadoop pilvipalveluna
Vahvuudet (+) Nopea käyttöönotto, joustavuus
Heikkoudet (-) Tietoturvahuolet, lainsäädäntö, lisää
osaamisvaatimuksia
“Helpoin, riskittömin ja nopein tapa pilotointiin,
demoamiseen ja testaamiseen. Todennäköisesti
tulevaisuudessa yhä merkittävämpi vaihtoehto
myös tuotantokäyttöön.”
43. Datan analysoiminen pilvessä
Terasortin maailmanennätys Googlen pilvipalvelussa:
“Since the servers used in MapR’s world record were
virtually instantiated in the Cloud, the cost estimate for
running the TeraSort was about $9 compared to the over
$5M estimate to run the previous record.”
joustavuudesta!
Tästä on kysymys:
$ 9 vs. $ 5 000 000