3. “Cloud Computing” ja “Big Data”
big data
cloud computing
Big data ohitti pilven
Google-haut vuosina 2009-2014
4. Mitä tarkoittaa big data?
1. Havaintoa siitä, että dataa on koko ajan määrällisesti
enemmän ja sen muoto ja laatu vaihtelevat suuresti
2. Haastetta hallita ja hyödyntää tuota tietomäärää
perinteisten järjestelmien ja ratkaisujen avulla
3. Ratkaisuja (tuotteet, palvelut, ohjelmistot,
teknologiat), joilla tuohon haasteeseen tartutaan
5. Big datan 3 V:tä
Volume Tietoa (dataa) on koko ajan enemmän. Se pitäisi
pystyä tallentamaan ja hyödyntämään.
Velocity Tietoa (dataa) tulee koko ajan nopeammin.
Päätöksiä pitäisi pystyä tekemään nopeasti.
Variety Tietoa (dataa) tulee eri muodoissa ja erilaisista
lähteistä, eikä se istu hyvin nykyisiin
toimintamalleihin.
Veracity, Value, Virality, Validity, Viscosity, Vulnerability…
myös muita V-kirjaimia on jälkeenpäin lisätty kuvaamaan ilmiötä.
7. Mistä sitä dataa oikein tulee?
Saatavilla olevat
datavarannot
(avoin data, datamarkkinat)
Potentiaalinen data
(ei vielä kerätä)
Digitaalinen todellisuus
(internet, sosiaalinen media)
Fyysinen todellisuus
(sensorit, esineiden internet)
Organisaation hallussa tai
saatavilla oleva data
(ERP, CRM, DW, RDBMS)
8. Suppein näkökulma dataan
Tästä näkökulmasta big data
koskettaa ilmiönä n. 0,2 %
maailman organisaatioista
“Eihän meillä edes ole big dataa!”
Yrityksen oma strukturoitu data
Yrityksen vielä hyödyntämätön data
Yrityksen vielä keräämätön data
9. Suppeahko näkökulma dataan
Tästä näkökulmasta big data
koskettaa ilmiönä n. 3 %
maailman organisaatioista
“Entä jos hyödyntäisimme kaiken sen datan jota jo keräämme?”
Yrityksen oma strukturoitu data
Yrityksen vielä hyödyntämätön data
Yrityksen vielä keräämätön data
10. Verkostoitunut näkökulma dataan
Tästä näkökulmasta big data
koskettaa ilmiönä n. 22 %
maailman organisaatioista
“Voisimmeko kerätä enemmän dataa toiminnastamme?”
Yrityksen oma strukturoitu data
Yrityksen vielä hyödyntämätön data
Yrityksen vielä keräämätön data
11. Verkostoitunut näkökulma dataan
Tästä näkökulmasta big data
koskettaa ilmiönä n. 72 %
maailman organisaatioista
“Verkottunut yritys ei voi piilotella dataansa!”
Organisaatio
Kumppani Kumppani
Kumppani Kumppani
Kumppani Kumppani
12. Kokonaisvaltainen näkökulma dataan
“Pelkkä omaan dataan tuijottelu ei tuota ikuisesti kilpailuetua!”
Tästä näkökulmasta big data koskettaa ilmiönä n. 98 %
maailman organisaatioista
Avoin data: dokumentoidut rajapinnat
Data marketplace: pilvessä olevat datan
markkinapaikat
Datakauppiaat: yksittäiset suoraan omaa
tai verkostonsa dataa myyvät
Puoliavoin data: ei rajapintoja, hajallaan
13. Big datan hyödyntämiskohteita
● Markkinointi, asiakassegmentointi, kohdentaminen
● Hiljaisten signaalien tunnistaminen, koneoppiminen
● Virheiden ja väärinkäytön tunnistaminen
● Tutkimus- ja kehitystyö, tuotekehitys
● Ilmiöiden mallintaminen ja ennustaminen
● Resurssien kohdentaminen tehokkaammin
● ...
Mahdollisuuksien tunnistaminen vaatii toimialan ja organisaation ymmärtämistä!
17. Mitä Hadoop tekee?
Hadoop valjastaa palvelinklusterin vastaamaan datan
tallennuksesta ja prosessoinnista.
Miksi haluaisin Hadoop-klusterin?
- edullista tallennustilaa (mikä vaan x86-palvelin käy)
- tehokasta prosessointia (rinnakkaisuus)
- toimintavarmuutta (moninkertainen tallennus)
- skaalautuvuutta (klusteria helppo laajentaa)
- ekosysteemit, lisäosia ja laajennoksia!
18. Klusteri?
Klusteri = joukko toisiinsa kytkettyjä
palvelimia (nodeja, noodeja), jotka
suorittavat annettua tehtävää
hajautettuna, mutta
näkyvät käyttäjälle
yhtenä järjestelmänä
19. Commodity Hardware Node?
Yleisesti saatavilla olevista
komponenteista koottuja
palvelimia. Ei kallista
palvelinrautaa.
Ei kuitenkaan perus-PC, vaan
kotelollinen tehokkaita
komponentteja.
CPU: 2 x 4/6/8 -core
Mem: 48Gb+
Disk: 12 x 2-3Tb
Net: 1Gb+ Ethernet
~ 5 000 €
20. Googlen julkaisu Vuosi
Avoimen lähdekoodin
projekti
Vuosi Mihin tarkoitukseen?
GFS ja
MapReduce
2003,
2004
Hadoop 2006
Datan tallentaminen ja analysointi
(klusteri)
Sawzall 2005 Pig ja Hive 2008 Massa-analytiikka
BigTable 2006 HBase 2008 Avain-arvopari -tietokanta (NoSQL)
Pregel 2010 Giraph 2011 Graph-tietokanta
Dremel / F1 2010 Cloudera Impala 2012 Nopeat kyselyt (SQL)
Spanner 2012 ? ???? Transaktiot
Innoittajana Google
21. Hadoopin asema big data -ilmiössä
Hadoop
Tiedon määrä
Tiedonrakenteisuus
2 Tb1 Gb 20 Tb 200 Tb
Nearly all sectors in the US
economy had at least an
average of 200 terabytes of
stored data per company with
more than 1,000 employees.
McKinsey 2011
By 2015, 65 percent of packaged
analytic applications with
advanced analytics will come
embedded with Hadoop.
Gartner 2013
23. Hadoop Distributed File System: HDFS
Hadoopin hajatettu tiedostojärjestelmä HDFS
● Tiedostot ovat tallennettuina hajautetusti klusteriin
● Suuri data pilkotaan “blokeiksi”, määritellyn logiikan
mukaan
● Nimipalvelin (name node) tallentaa (meta)tiedot siitä,
missä tiedostot fyysisesti sijaitsevat
● Oletusarvo on, että tiedostot tallennetaan kolmeen
kertaan
Innoittajana GFS eli Google File System
24. Hadoop Distributed File System: HDFS
Node 1
data piece
Big Data
(= 1 or more files)
data piece
data piece
Node 2
data piece
data piece
data piece
Node 3
data piece
data piece
data piece
Node 4
data piece
data piece
data piece
HDFS
Lähde: mukaillen www.glennklockwood.com
25. Hadoop Distributed File System: HDFS
Name
node
Blocks
Client
Rack 1
Data node
Data node
Data node
Rack 2
Data node
Data node
Data nodewrite
write
Client
read
metadata ops
block ops
Metadata
(Name, replicas…):
/home/foo/data, 3...
26. Hadoop Distributed File System: HDFS
Parhaimmillaan ennakoitavissa oloissa:
● Tiedostot suurikokoisia, oletuksena 64Mb
● Tiedostoja luetaan peräkkäin, alusta loppuun
● Tiedostot kirjoitetaan kerran, luetaan useasti
28. Hadoop: Prosessoinnin logiikka
MapReduce: Viedään prosessointi datan luo!
Lähde: www.glennklockwood.com
“Map/reduce is ideally suited for
trivially parallel calculations on
large quantities of data.”
29. Hadoop: MapReduce
MapReducen idea/vahvuus on
rinnakkaistaa ja hajauttaa
analytiikka.
Node 1
Node 1
“raakadata”
Map
“välitulokset”
Reduce
HDFS
Node 2
Node2
“raakadata”
Map
“välitulokset”
Reduce
HDFS
Data
30. Hadoopissa ennen ja nyt
MapReduce edelleen isossa roolissa.
Lähde: Hortonworks
35. 1. http://hadoop.apache.org
“Harva organisaatio päätyy käyttämään
Hadoopia näin. Startup-yritysten,
tutkimuslaitosten ja yliopistojen vaihtoehto.”
Vahvuudet (+) Ilmainen
Heikkoudet (-) Joutuu tekemään kaiken itse
36. 2. Valmis jakelu
Otetaan käyttöön valmiiksi paketoitu kokonaisuus
Cloudera (CHD)
Hortonworks (HDP)
MapR (M7)
Pivotal (Pivotal HD)
IBM (IHC)
38. 2. Valmis jakelu
Vahvuudet (+) Helppous, tuki, koulutus, partnerit ja
optimoitu suorituskyky
Heikkoudet (-) Lukittumisuhka (lock-in), maksullinen
“Tyypillinen tapa tällä hetkellä ottaa Hadoop
käyttöön. Objektiivinen vertailu hankalaa, tietoa
vaikea saada. Vaatii vahvaa kehitystiimiä.”
39. 3. Hadoop osana kokonaisuutta
Big data Appliancet (esimerkkilista tunnetuista)
HP (HAVEn)
IBM (Infosphere BigInsights, Watson)
Microsoft (Analytics Platform System)
Oracle (Big Data Appliance)
Pivotal (Pivotal Big Data Suite)
Teradata (Teradata Aster Big Analytics Appliance)
40. 3. Hadoop osana Appliance-ratkaisua
Vahvuudet (+) Kehittyneet ominaisuudet,
integroitavuus, tuki- ja partneriverkosto
Heikkoudet (-) Kallis, vendor lock-in
“Tämä on se todennäköinen tapa, jolla
Hadoop hiipii yrityksiin, joilla on voimakas
toimittajasuhde. Hadoop osana isompaa
kokonaisuutta.”
41. 4. Hadoop pilvipalveluna
Hadoop pilvipalveluna tarjolla mm.:
Amazon (AWS Elastic MapReduse, EC2)
Microsoft (Windows Azure HDInsight)
Lisäksi esim. MapR M7 Googlen pilvessä, jolla tehty
nopeusennätyksiä (terasort, minutesort)
Google (Google Compute Cloud)
42. 4. Hadoop pilvipalveluna
Vahvuudet (+) Nopea käyttöönotto, joustavuus,
kustannusten ennakointi
Heikkoudet (-) Tietoturvahuolet, lainsäädäntö, lisää
osaamisvaatimuksia
“Helpoin, riskittömin ja nopein tapa pilotointiin,
demoamiseen ja testaamiseen. Todennäköisesti
tulevaisuudessa yhä merkittävämpi vaihtoehto
myös tuotantokäyttöön.”
46. Ivorion Hadoop-verkkokurssi on
erinomainen tapa tutustua big
datan keskeisimpään
teknologiaan.
Hadoop-sertifikaatin avulla
osoitat syvällisen osaamisesi
aiheesta, niin teorian kuin
teknologioiden osalta.
Ilmoittautumiset, lisätiedot ja muut koulutukset: ivorio.fi
31.5. mennessä tilatuista koulutustuotteista 15% alennus koodilla ICTEXPO
Hadoop
-verkkokurssi
Ivorio Certificate
for Hadoop