際際滷

際際滷Share a Scribd company logo
Big data  esitys, 14.11.2013, Ivorio Oy
Ivorion missio
Ivorio on Suomen johtava riippumaton big data asiantuntija.
Autamme asiakkaitamme selvitym辰辰n tiedon
vallankumouksesta voittajina.
Mit辰 tarkoittaa big data?
 Big data tarkoittaa kahta asiaa:
1. Havaintoa siit辰, ett辰 dataa on koko ajan m辰辰r辰llisesti
enemm辰n ja sen muoto ja laatu vaihtelee suuresti
2. Ratkaisuja (tuotteet, palvelut, ohjelmistot,
teknologiat), joilla tuohon haasteeseen tartutaan
Big datan 3 V:t辰, se k辰ytetyin m辰辰ritelm辰
1.

Volume
Tietoa (dataa) on koko ajan enemm辰n. Se pit辰isi pysty辰
tallentamaan ja hy旦dynt辰m辰辰n.

2. Velocity
Tietoa (dataa) tulee koko ajan nopeammin. P辰辰t旦ksi辰 pit辰isi
pysty辰 tekem辰辰n nopeasti.

3. Variety
Tietoa (dataa) tulee kiihtyv辰ll辰 tahdilla erilaisista l辰hteist辰,
eik辰 se istu hyvin nykyisiin toimintamalleihin
Veracity, Value Virality, Validity, Viscosity my旦s muita V-kirjaimia on lis辰tty kuvaamaan ilmi旦t辰.
息 Ivorio 2013

Mist辰 sit辰 dataa oikein tulee?
Digitaalinen todellisuus
(internet, sosiaalinen media)

Fyysinen todellisuus
(sensorit, esineiden internet)

Organisaation hallussa
tai saatavilla oleva data
(ERP, CRM, DW, RDBMS)

Saatavilla olevat datavarannot
(avoin data, datamarkkinat)

Potentiaalinen data
(ei viel辰 ker辰t辰)
息 Ivorio 2013

Suppein n辰k旦kulma dataan
Eih辰n meill辰 edes ole big dataa! Pilvipalvelut sopivat pilotointiin.

T辰st辰 n辰k旦kulmasta big data
koskettaa ilmi旦n辰 n. 0.2 %
maailman organisaatioista
Yrityksen oma strukturoitu data
Yrityksen viel辰 hy旦dynt辰m辰t旦n data
Yrityksen viel辰 ker辰辰m辰t旦n data
息 Ivorio 2013

Suppeahko n辰k旦kulma dataan
Liiketoimintakriittist辰 dataa ei voida laittaa pilveen, ehk辰 jotain lokitietoja tms.
Privaattipilvi kiinnostaa!

T辰st辰 n辰k旦kulmasta big data
koskettaa ilmi旦n辰 n. 3 %
maailman organisaatioista
Yrityksen oma strukturoitu data
Yrityksen viel辰 hy旦dynt辰m辰t旦n data
Yrityksen viel辰 ker辰辰m辰t旦n data
息 Ivorio 2013

Laaja n辰k旦kulma dataan
Mihink辰s me laitetaan kaikki tuo data...
Olisiko julkisilla pilvipalveluilla jotain annettavaa?

T辰st辰 n辰k旦kulmasta big data
koskettaa ilmi旦n辰 n. 22 %
maailman organisaatioista
Yrityksen oma strukturoitu data
Yrityksen viel辰 hy旦dynt辰m辰t旦n data
Yrityksen viel辰 ker辰辰m辰t旦n data
息 Ivorio 2013

Verkostoitunut n辰k旦kulma dataan
Verkottunut yritys ei voi hillota dataansa!

T辰st辰 n辰k旦kulmasta big data
koskettaa ilmi旦n辰 n. 72 %
maailman organisaatioista

Kumppani

Kumppani

Organisaatio

Kumppani

Kumppani

Kumppani

Kumppani
息 Ivorio 2013

Kokonaisvaltainen n辰k旦kulma dataan
Palvelinkellarissa homehtuva data ei tuota lis辰arvoa tai kilpailuetua!

T辰st辰 n辰k旦kulmasta big data koskettaa ilmi旦n辰 n. 98 %
maailman organisaatioista
Avoin data
(dokumentoidut rajapinnat)
Data marketplace
(pilvess辰 olevat datan markkinapaikat)
Datakauppiaat
(yksitt辰iset suoraan omaa tai
verkostonsa dataa myyv辰t)
Puoliavoin data
(ei rajapintoja, hajallaan)
Big datan hy旦dynt辰miskohteita
 Markkinointi
 Suositukset (recommendation engine)
 Tilastollinen analyysi
 Tutkimus- ja kehitysty旦
 Mallintaminen ja ennustaminen
 Resurssien kohdentaminen
Mahdollisuuksien tunnistaminen vaatii toimialan ja organisaation ymm辰rt辰mist辰.
Kuinka suuret ovat big data -markkinat?
 Yleisin luku on v辰lill辰 15-50 mrd 
 IDC sanoo (12/2012), ett辰 vuonna 2016 markkinoiden
koko on n. 26 mrd $
 Gartner sanoo (10/2012), ett辰 vuonna 2012 big data markkinat olivat n. 28 mrd $
 Wikibon ennustaa (02/2012), ett辰 big data -markkinat
ovat vuonna 2015 n. 54 mrd $
 McKinseyn raportissa (05/2011) arvioitiin big datan
vuotuisen lis辰arvo- ja kustannuss辰辰st旦potentiaalin
olevan vuonna 2011 arviolta 1 000 mrd


McKinsey 2011:

Big data: The next frontier for innovation, competition and productivity

250 billion - potential annual value
to Europes public sector
administration in use of big data more
efficiently.


General Electrics 2012

Industrial Internet: Pushing the Boundaries of Minds and Machines

Today, the people that manage big
data systems or perform advanced
analytics have developed unique
talents through self-driven
specialization, rather than through any
programs that build a standard set of
skills or principles


Gartner, 2013:

Survey Analysis: Big Data Adoption in 2013

64 % of organizations investing or
planning to invest in big data
technology.


Tieto Oyj, Q3/2013:
Osavuosikatsaus Q3 2013

Big datan odotetaan olevan yksi
tietotekniikkapalvelujen nopeimmin
kasvavista alueista keskipitk辰ll辰
aikav辰lill辰.
Big datan haasteet Suomessa
1. Osaajapula (teknologiat, datatieteilij辰t)
2. L辰hdedatan vaihteleva laatu ja kasvava m辰辰r辰
3. Ilmi旦n ja teknologioiden j辰sentym辰tt旦myys
%

L辰hde: LVM:n Big data Suomessa -selvitys 09/2013


McKinsey, 2011:

Big data: The next frontier for innovation, competition and productivity

By 2018, the United States alone could
face a shortage of 140,000 to
190,000 people with deep analytical
skills.


Opetus- ja kulttuuriministeri旦:

Huippuosaamisella on vaikutusta niin
julkishallinnon sis辰iseen toiminnan
tehokkuuteen ja l辰pin辰kyvyyteen kuin
pysyv辰n kilpailuedun saavuttamiseen
globaaleilla markkinoilla.
Big datan teknologiat
 Hadoop (tunnetuin yksitt辰inen uusi teknologia)
 NoSQL (uudenlaiset tietokannat)
 Appliancet (valmisratkaisut)
 In-memory-, In-database analytics
 Pilvipalvelut
 Amazon Elastic MapReduce
 Google BigQuery
 Microsoft HDInsight
Hadoop
Big datan teollisuusstandardi
息 Ivorio 2013

Tiedon rakenteisuus

Hadoopin asema big data -ilmi旦ss辰
Nearly all sectors in the US
economy had at least an
average of 200 terabytes of
stored data per company with
more than 1,000 employees.
McKinsey 2011

Hadoop

By 2015, 65 percent of packaged
analytic applications with
advanced analytics will come
embedded with Hadoop.
Gartner 2013

1 Gb

2 Tb

20 Tb

200 Tb

Tiedon m辰辰r辰
Innoittajana Google
Googlen
julkaisu

Vuosi

Avoimen
l辰hdekoodi
n projekti

Vuosi

Mihin tarkoitukseen?

GFS ja
MapReduce

2004 Hadoop

2006

Datan tallentaminen ja
analysointi (klusteri)

Sawzall

2005 Pig ja Hive

2008

Massa-analytiikka

BigTable

2006 HBase

2008

Avain-arvopari -tietokanta
(NoSQL)

Pregel

2010

Giraph

2011

Graph-tietokanta

Dremel / F1

2010

Cloudera
Impala

2012

Nopeat kyselyt
(SQL)

Spanner

2012

?

????

Transaktiot
息 Ivorio 2013

Hadoop Suomessa
K辰ytt辰ji辰 l辰hitulevaisuudessa
K辰ytt辰ji辰
v. 2013 mm.
V辰hitt辰iskauppa
Rovio
Sanoma
Supercell

Media

Palvelualat

Telekommunikaatio
Teollisuus
息 Ivorio 2013

Hadoop-ty旦paikkojen tarjonta
L辰hde: Indeed.com
Ty旦paikat p辰辰asiassa Yhdysvalloissa
Mit辰 Hadoop tekee?
Hadoop auttaa rakentamaan klusterin
palvelimista
Miksi haluaisin Hadoop-klusterin?
- edullista tallennustilaa (mik辰 vaan x86-palvelin k辰y)
- tehokasta prosessointia (rinnakkaisuus)
- toimintavarmuutta
(moninkertainen tallennus)
- skaalautuvuutta
(klusteria helppo laajentaa)
- ekosysteemi, lis辰osia ja laajennoksia!
Hadoopissa kaksi keskeist辰 komponenttia
HDFS

MapReduce

tiedostoj辰rjestelm辰

tiedonlouhintaa
Hadoop: arkkitehtuuri

Data
Node 1

MapReducen
idea/vahvuus on
rinnakkaistaa ja
hajauttaa
analytiikka.

Node 2

raakadata

raakadata

Map

Map

v辰litulokset

v辰litulokset

Reduce

Reduce

HDFS

HDFS

Node 1

Node2
Hadoopin k辰ytt旦旦notto
Nelj辰 vaihtoehtoa
1. http://hadoop.apache.org
2. Valmis jakelu
3. Hadoop osana Appliance-ratkaisua
4. Pilvipalvelu
1. http://hadoop.apache.org
Lataa, asenna ja konfiguroi
1. http://hadoop.apache.org
Vahvuudet (+) Ilmainen
Heikkoudet (-) Joutuu tekem辰辰n kaiken itse

Harva organisaatio p辰辰tyy k辰ytt辰m辰辰n
Hadoopia n辰in. Startup-yritysten,
tutkimuslaitosten ja yliopistojen vaihtoehto.
2. Valmis jakelu
Otetaan k辰ytt旦旦n valmiiksi paketoitu kokonaisuus
Amazon
(AWS EMR)
Cloudera
(CHD)
Hortonworks (HDP)
MapR
(M7)
Microsoft
(HDInsight)
Pivotal
(Pivotal HD)
IBM
(IHC)
Intel
(Intel Distribution for Apache Hadoop)
2. Valmis jakelu
Vahvuudet (+)

Helppous, tuki, koulutus, partnerit ja
optimoitu suorituskyky

Heikkoudet (-)

Lukittumisuhka (lock-in), maksullinen

Tyypillinen tapa t辰ll辰 hetkell辰 ottaa
Hadoop k辰ytt旦旦n. Objektiivinen vertailu
hankalaa, tietoa vaikea saada.
Hadoop-jakeluyritysten tunnettuus
3. Hadoop osana Appliance-ratkaisua
Big data Appliancet (esimerkkilista tunnetuista)
HP
(HAVEn)
IBM
(Infosphere BigInsights)
Microsoft
(Parallel Datawarehouse)
Oracle
(Big Data Appliance)
Pivotal
(Pivotal)
SAP
(SAP HANA Platform)
Teradata
(Teradata Aster Big Analytics Appliance)
3. Hadoop osana Appliance-ratkaisua
Hadoop-kytk旦kset
HP
(all leading distros)
IBM
(Cloudera)
Microsoft
(Hortonworks)
Oracle
(Cloudera)
Pivotal
(Pivotal HD)
SAP
(Intel, Hortonworks)
Teradata
(Hortonworks)
3. Hadoop osana Appliance-ratkaisua
Vahvuudet (+)

Kehittyneet ominaisuudet,
integroitavuus, tuki- ja partneriverkosto

Heikkoudet (-)

Kallis, vendor lock-in

T辰m辰 on se todenn辰k旦inen tapa, jolla
Hadoop hiipii yrityksiin osana isompaa
kokonaisuutta.
4. Hadoop pilvipalveluna
Hadoop pilvipalveluna tarjolla mm.:
Amazon
(AWS Elastic MapReduse, EC2)
Microsoft
(Windows Azure HDInsight)
Joyent
(Joyent Hadoop)
Lis辰ksi esim. MapR M7:lla tehty terasortin
maailmanenn辰tys
Google
(Google Compute Cloud)
息 Ivorio 2013

Datan analysoiminen pilvess辰
Terasortin maailmanenn辰tys Googlen pilvipalvelussa:
Since the servers used in MapRs world record were
virtually instantiated in the Cloud, the cost estimate for
running the TeraSort was about $9 compared to the over
$5M estimate to run the previous record.
T辰st辰 on kysymys:

$9

vs.

$ 5 000 000

joustavuudesta!
4. Hadoop pilvipalveluna
Vahvuudet (+)

Nopea k辰ytt旦旦notto, joustavuus

Heikkoudet (-)

Tietoturvahuolet, lains辰辰d辰nt旦, lis辰辰
osaamisvaatimuksia

Helpoin, riskitt旦min ja nopein tapa pilotointiin,
demoamiseen ja testaamiseen. Todenn辰k旦isesti
tulevaisuudessa yh辰 merkitt辰v辰mpi vaihtoehto
my旦s tuotantok辰ytt旦旦n.
4. Hadoop pilvipalveluna
Hadoopin k辰ytt旦kohteita
Toimialue

K辰ytt旦kohde (case)

Finanssisektori

Riskianalyysi
Petosten tunnistaminen
P辰辰t旦ksenteon nopeuttaminen
(lainahakemukset yms.)

Datatyyppi

Paikkatieto

Kommunikaatio

Puhelulokitietojen louhiminen (CDR)
Palvelin- ja
Investointip辰辰t旦sten tukeminen
Resurssien allokointi (tietoliikennekaista yms.) muut lokit

V辰hitt辰is- ja
verkkokauppa

360-asteen n辰kyvyys asiakkaaseen
Tuotekehitys, hankintap辰辰t旦kset
Markkinoinnin vaikuttavuuden mittaaminen

Teollisuus

Tilaus-toimitusketjun optimointi
Tuotennon sujuvoittaminen
(lean manufacturing)
Varastoarvojen minimointi
Laadun parantaminen

L辰hde: Hortonworks

Tekstiaineistot
Sensoridata
Sentimenttianalyysi
Clickstream
Kannattaako versio 2 ottaa
k辰ytt旦旦n?
Kyll辰.
Nyt liikkeelle l辰hdett辰ess辰 ei ole mielek辰st辰
takertua versioon 1.x. Harjoitteluun,
konseptointiin ja pilotointiin versio 1.x k辰y hyvin
tietenkin edelleen.
Ivorio tarjoaa Pohjoismaiden ensimm辰isen
Hadoop-sertifikaatin. Ensimm辰inen versio tuli
saataville syyskuussa 2013 suomeksi ja
my旦hemmin sertifikaatista tulevat my旦s ruotsinja englanninkieliset versiot.
MIT PITISI TEHD?
Ehdotus 1: L辰hte辰 liikkeelle
Pilvipalveluiden kohdalla mm. Accenture
suositteli jo vuonna 2009, ett辰 liikkeelle
kannattaa l辰hte辰 heti ja ei niille
v辰h辰arvoisimmilla sovelluksilla, vaan
liiketoiminnalle merkityksellisill辰.
Kuunneltiinko? Olisko kannattanut?
Ehdotus 2: Datakartoitus
Kartoitetaan datal辰hteet (nykyiset,
potentiaaliset), arvioidaan kiinnostavuutta
liiketoiminnan ongelmien n辰k旦kulmasta.
Ehdotus 3: Teknologiakartoitus
Peilataan omien datal辰hteiden mahdollisuuksia
tarjolla olevien teknologioiden tarjoamiin
vaihtoehtoihin. Otetaan huomioon osaaminen,
teknologioiden kypsyys, kustannuskset (elinkaari)
ja odotettavissa olevat hy旦dyt.
Ehdotus 4: Laaditaan datastrategia
Laaditaan strateginen kartta tulevaisuuteen.
Miten tulevaisuuden markkinoilla aiotaan tuottaa
lis辰arvoa ja pit辰辰 sek辰 parantaa omaa asemaa
arvoketjussa?
Kiitos

More Related Content

Big data esitys, 14.11.2013, Ivorio Oy

  • 2. Ivorion missio Ivorio on Suomen johtava riippumaton big data asiantuntija. Autamme asiakkaitamme selvitym辰辰n tiedon vallankumouksesta voittajina.
  • 3. Mit辰 tarkoittaa big data? Big data tarkoittaa kahta asiaa: 1. Havaintoa siit辰, ett辰 dataa on koko ajan m辰辰r辰llisesti enemm辰n ja sen muoto ja laatu vaihtelee suuresti 2. Ratkaisuja (tuotteet, palvelut, ohjelmistot, teknologiat), joilla tuohon haasteeseen tartutaan
  • 4. Big datan 3 V:t辰, se k辰ytetyin m辰辰ritelm辰 1. Volume Tietoa (dataa) on koko ajan enemm辰n. Se pit辰isi pysty辰 tallentamaan ja hy旦dynt辰m辰辰n. 2. Velocity Tietoa (dataa) tulee koko ajan nopeammin. P辰辰t旦ksi辰 pit辰isi pysty辰 tekem辰辰n nopeasti. 3. Variety Tietoa (dataa) tulee kiihtyv辰ll辰 tahdilla erilaisista l辰hteist辰, eik辰 se istu hyvin nykyisiin toimintamalleihin Veracity, Value Virality, Validity, Viscosity my旦s muita V-kirjaimia on lis辰tty kuvaamaan ilmi旦t辰.
  • 5. 息 Ivorio 2013 Mist辰 sit辰 dataa oikein tulee? Digitaalinen todellisuus (internet, sosiaalinen media) Fyysinen todellisuus (sensorit, esineiden internet) Organisaation hallussa tai saatavilla oleva data (ERP, CRM, DW, RDBMS) Saatavilla olevat datavarannot (avoin data, datamarkkinat) Potentiaalinen data (ei viel辰 ker辰t辰)
  • 6. 息 Ivorio 2013 Suppein n辰k旦kulma dataan Eih辰n meill辰 edes ole big dataa! Pilvipalvelut sopivat pilotointiin. T辰st辰 n辰k旦kulmasta big data koskettaa ilmi旦n辰 n. 0.2 % maailman organisaatioista Yrityksen oma strukturoitu data Yrityksen viel辰 hy旦dynt辰m辰t旦n data Yrityksen viel辰 ker辰辰m辰t旦n data
  • 7. 息 Ivorio 2013 Suppeahko n辰k旦kulma dataan Liiketoimintakriittist辰 dataa ei voida laittaa pilveen, ehk辰 jotain lokitietoja tms. Privaattipilvi kiinnostaa! T辰st辰 n辰k旦kulmasta big data koskettaa ilmi旦n辰 n. 3 % maailman organisaatioista Yrityksen oma strukturoitu data Yrityksen viel辰 hy旦dynt辰m辰t旦n data Yrityksen viel辰 ker辰辰m辰t旦n data
  • 8. 息 Ivorio 2013 Laaja n辰k旦kulma dataan Mihink辰s me laitetaan kaikki tuo data... Olisiko julkisilla pilvipalveluilla jotain annettavaa? T辰st辰 n辰k旦kulmasta big data koskettaa ilmi旦n辰 n. 22 % maailman organisaatioista Yrityksen oma strukturoitu data Yrityksen viel辰 hy旦dynt辰m辰t旦n data Yrityksen viel辰 ker辰辰m辰t旦n data
  • 9. 息 Ivorio 2013 Verkostoitunut n辰k旦kulma dataan Verkottunut yritys ei voi hillota dataansa! T辰st辰 n辰k旦kulmasta big data koskettaa ilmi旦n辰 n. 72 % maailman organisaatioista Kumppani Kumppani Organisaatio Kumppani Kumppani Kumppani Kumppani
  • 10. 息 Ivorio 2013 Kokonaisvaltainen n辰k旦kulma dataan Palvelinkellarissa homehtuva data ei tuota lis辰arvoa tai kilpailuetua! T辰st辰 n辰k旦kulmasta big data koskettaa ilmi旦n辰 n. 98 % maailman organisaatioista Avoin data (dokumentoidut rajapinnat) Data marketplace (pilvess辰 olevat datan markkinapaikat) Datakauppiaat (yksitt辰iset suoraan omaa tai verkostonsa dataa myyv辰t) Puoliavoin data (ei rajapintoja, hajallaan)
  • 11. Big datan hy旦dynt辰miskohteita Markkinointi Suositukset (recommendation engine) Tilastollinen analyysi Tutkimus- ja kehitysty旦 Mallintaminen ja ennustaminen Resurssien kohdentaminen Mahdollisuuksien tunnistaminen vaatii toimialan ja organisaation ymm辰rt辰mist辰.
  • 12. Kuinka suuret ovat big data -markkinat? Yleisin luku on v辰lill辰 15-50 mrd IDC sanoo (12/2012), ett辰 vuonna 2016 markkinoiden koko on n. 26 mrd $ Gartner sanoo (10/2012), ett辰 vuonna 2012 big data markkinat olivat n. 28 mrd $ Wikibon ennustaa (02/2012), ett辰 big data -markkinat ovat vuonna 2015 n. 54 mrd $ McKinseyn raportissa (05/2011) arvioitiin big datan vuotuisen lis辰arvo- ja kustannuss辰辰st旦potentiaalin olevan vuonna 2011 arviolta 1 000 mrd
  • 13. McKinsey 2011: Big data: The next frontier for innovation, competition and productivity 250 billion - potential annual value to Europes public sector administration in use of big data more efficiently.
  • 14. General Electrics 2012 Industrial Internet: Pushing the Boundaries of Minds and Machines Today, the people that manage big data systems or perform advanced analytics have developed unique talents through self-driven specialization, rather than through any programs that build a standard set of skills or principles
  • 15. Gartner, 2013: Survey Analysis: Big Data Adoption in 2013 64 % of organizations investing or planning to invest in big data technology.
  • 16. Tieto Oyj, Q3/2013: Osavuosikatsaus Q3 2013 Big datan odotetaan olevan yksi tietotekniikkapalvelujen nopeimmin kasvavista alueista keskipitk辰ll辰 aikav辰lill辰.
  • 17. Big datan haasteet Suomessa 1. Osaajapula (teknologiat, datatieteilij辰t) 2. L辰hdedatan vaihteleva laatu ja kasvava m辰辰r辰 3. Ilmi旦n ja teknologioiden j辰sentym辰tt旦myys % L辰hde: LVM:n Big data Suomessa -selvitys 09/2013
  • 18. McKinsey, 2011: Big data: The next frontier for innovation, competition and productivity By 2018, the United States alone could face a shortage of 140,000 to 190,000 people with deep analytical skills.
  • 19. Opetus- ja kulttuuriministeri旦: Huippuosaamisella on vaikutusta niin julkishallinnon sis辰iseen toiminnan tehokkuuteen ja l辰pin辰kyvyyteen kuin pysyv辰n kilpailuedun saavuttamiseen globaaleilla markkinoilla.
  • 20. Big datan teknologiat Hadoop (tunnetuin yksitt辰inen uusi teknologia) NoSQL (uudenlaiset tietokannat) Appliancet (valmisratkaisut) In-memory-, In-database analytics Pilvipalvelut Amazon Elastic MapReduce Google BigQuery Microsoft HDInsight
  • 22. 息 Ivorio 2013 Tiedon rakenteisuus Hadoopin asema big data -ilmi旦ss辰 Nearly all sectors in the US economy had at least an average of 200 terabytes of stored data per company with more than 1,000 employees. McKinsey 2011 Hadoop By 2015, 65 percent of packaged analytic applications with advanced analytics will come embedded with Hadoop. Gartner 2013 1 Gb 2 Tb 20 Tb 200 Tb Tiedon m辰辰r辰
  • 23. Innoittajana Google Googlen julkaisu Vuosi Avoimen l辰hdekoodi n projekti Vuosi Mihin tarkoitukseen? GFS ja MapReduce 2004 Hadoop 2006 Datan tallentaminen ja analysointi (klusteri) Sawzall 2005 Pig ja Hive 2008 Massa-analytiikka BigTable 2006 HBase 2008 Avain-arvopari -tietokanta (NoSQL) Pregel 2010 Giraph 2011 Graph-tietokanta Dremel / F1 2010 Cloudera Impala 2012 Nopeat kyselyt (SQL) Spanner 2012 ? ???? Transaktiot
  • 24. 息 Ivorio 2013 Hadoop Suomessa K辰ytt辰ji辰 l辰hitulevaisuudessa K辰ytt辰ji辰 v. 2013 mm. V辰hitt辰iskauppa Rovio Sanoma Supercell Media Palvelualat Telekommunikaatio Teollisuus
  • 25. 息 Ivorio 2013 Hadoop-ty旦paikkojen tarjonta L辰hde: Indeed.com Ty旦paikat p辰辰asiassa Yhdysvalloissa
  • 26. Mit辰 Hadoop tekee? Hadoop auttaa rakentamaan klusterin palvelimista Miksi haluaisin Hadoop-klusterin? - edullista tallennustilaa (mik辰 vaan x86-palvelin k辰y) - tehokasta prosessointia (rinnakkaisuus) - toimintavarmuutta (moninkertainen tallennus) - skaalautuvuutta (klusteria helppo laajentaa) - ekosysteemi, lis辰osia ja laajennoksia!
  • 27. Hadoopissa kaksi keskeist辰 komponenttia HDFS MapReduce tiedostoj辰rjestelm辰 tiedonlouhintaa
  • 28. Hadoop: arkkitehtuuri Data Node 1 MapReducen idea/vahvuus on rinnakkaistaa ja hajauttaa analytiikka. Node 2 raakadata raakadata Map Map v辰litulokset v辰litulokset Reduce Reduce HDFS HDFS Node 1 Node2
  • 29. Hadoopin k辰ytt旦旦notto Nelj辰 vaihtoehtoa 1. http://hadoop.apache.org 2. Valmis jakelu 3. Hadoop osana Appliance-ratkaisua 4. Pilvipalvelu
  • 31. 1. http://hadoop.apache.org Vahvuudet (+) Ilmainen Heikkoudet (-) Joutuu tekem辰辰n kaiken itse Harva organisaatio p辰辰tyy k辰ytt辰m辰辰n Hadoopia n辰in. Startup-yritysten, tutkimuslaitosten ja yliopistojen vaihtoehto.
  • 32. 2. Valmis jakelu Otetaan k辰ytt旦旦n valmiiksi paketoitu kokonaisuus Amazon (AWS EMR) Cloudera (CHD) Hortonworks (HDP) MapR (M7) Microsoft (HDInsight) Pivotal (Pivotal HD) IBM (IHC) Intel (Intel Distribution for Apache Hadoop)
  • 33. 2. Valmis jakelu Vahvuudet (+) Helppous, tuki, koulutus, partnerit ja optimoitu suorituskyky Heikkoudet (-) Lukittumisuhka (lock-in), maksullinen Tyypillinen tapa t辰ll辰 hetkell辰 ottaa Hadoop k辰ytt旦旦n. Objektiivinen vertailu hankalaa, tietoa vaikea saada.
  • 35. 3. Hadoop osana Appliance-ratkaisua Big data Appliancet (esimerkkilista tunnetuista) HP (HAVEn) IBM (Infosphere BigInsights) Microsoft (Parallel Datawarehouse) Oracle (Big Data Appliance) Pivotal (Pivotal) SAP (SAP HANA Platform) Teradata (Teradata Aster Big Analytics Appliance)
  • 36. 3. Hadoop osana Appliance-ratkaisua Hadoop-kytk旦kset HP (all leading distros) IBM (Cloudera) Microsoft (Hortonworks) Oracle (Cloudera) Pivotal (Pivotal HD) SAP (Intel, Hortonworks) Teradata (Hortonworks)
  • 37. 3. Hadoop osana Appliance-ratkaisua Vahvuudet (+) Kehittyneet ominaisuudet, integroitavuus, tuki- ja partneriverkosto Heikkoudet (-) Kallis, vendor lock-in T辰m辰 on se todenn辰k旦inen tapa, jolla Hadoop hiipii yrityksiin osana isompaa kokonaisuutta.
  • 38. 4. Hadoop pilvipalveluna Hadoop pilvipalveluna tarjolla mm.: Amazon (AWS Elastic MapReduse, EC2) Microsoft (Windows Azure HDInsight) Joyent (Joyent Hadoop) Lis辰ksi esim. MapR M7:lla tehty terasortin maailmanenn辰tys Google (Google Compute Cloud)
  • 39. 息 Ivorio 2013 Datan analysoiminen pilvess辰 Terasortin maailmanenn辰tys Googlen pilvipalvelussa: Since the servers used in MapRs world record were virtually instantiated in the Cloud, the cost estimate for running the TeraSort was about $9 compared to the over $5M estimate to run the previous record. T辰st辰 on kysymys: $9 vs. $ 5 000 000 joustavuudesta!
  • 40. 4. Hadoop pilvipalveluna Vahvuudet (+) Nopea k辰ytt旦旦notto, joustavuus Heikkoudet (-) Tietoturvahuolet, lains辰辰d辰nt旦, lis辰辰 osaamisvaatimuksia Helpoin, riskitt旦min ja nopein tapa pilotointiin, demoamiseen ja testaamiseen. Todenn辰k旦isesti tulevaisuudessa yh辰 merkitt辰v辰mpi vaihtoehto my旦s tuotantok辰ytt旦旦n.
  • 42. Hadoopin k辰ytt旦kohteita Toimialue K辰ytt旦kohde (case) Finanssisektori Riskianalyysi Petosten tunnistaminen P辰辰t旦ksenteon nopeuttaminen (lainahakemukset yms.) Datatyyppi Paikkatieto Kommunikaatio Puhelulokitietojen louhiminen (CDR) Palvelin- ja Investointip辰辰t旦sten tukeminen Resurssien allokointi (tietoliikennekaista yms.) muut lokit V辰hitt辰is- ja verkkokauppa 360-asteen n辰kyvyys asiakkaaseen Tuotekehitys, hankintap辰辰t旦kset Markkinoinnin vaikuttavuuden mittaaminen Teollisuus Tilaus-toimitusketjun optimointi Tuotennon sujuvoittaminen (lean manufacturing) Varastoarvojen minimointi Laadun parantaminen L辰hde: Hortonworks Tekstiaineistot Sensoridata Sentimenttianalyysi Clickstream
  • 43. Kannattaako versio 2 ottaa k辰ytt旦旦n? Kyll辰. Nyt liikkeelle l辰hdett辰ess辰 ei ole mielek辰st辰 takertua versioon 1.x. Harjoitteluun, konseptointiin ja pilotointiin versio 1.x k辰y hyvin tietenkin edelleen.
  • 44. Ivorio tarjoaa Pohjoismaiden ensimm辰isen Hadoop-sertifikaatin. Ensimm辰inen versio tuli saataville syyskuussa 2013 suomeksi ja my旦hemmin sertifikaatista tulevat my旦s ruotsinja englanninkieliset versiot.
  • 46. Ehdotus 1: L辰hte辰 liikkeelle Pilvipalveluiden kohdalla mm. Accenture suositteli jo vuonna 2009, ett辰 liikkeelle kannattaa l辰hte辰 heti ja ei niille v辰h辰arvoisimmilla sovelluksilla, vaan liiketoiminnalle merkityksellisill辰. Kuunneltiinko? Olisko kannattanut?
  • 47. Ehdotus 2: Datakartoitus Kartoitetaan datal辰hteet (nykyiset, potentiaaliset), arvioidaan kiinnostavuutta liiketoiminnan ongelmien n辰k旦kulmasta.
  • 48. Ehdotus 3: Teknologiakartoitus Peilataan omien datal辰hteiden mahdollisuuksia tarjolla olevien teknologioiden tarjoamiin vaihtoehtoihin. Otetaan huomioon osaaminen, teknologioiden kypsyys, kustannuskset (elinkaari) ja odotettavissa olevat hy旦dyt.
  • 49. Ehdotus 4: Laaditaan datastrategia Laaditaan strateginen kartta tulevaisuuteen. Miten tulevaisuuden markkinoilla aiotaan tuottaa lis辰arvoa ja pit辰辰 sek辰 parantaa omaa asemaa arvoketjussa?