際際滷

際際滷Share a Scribd company logo
Oracle Big Data Discovery - ludzka twarz Hadoop'a
Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. |
Oracle Big Data Discovery...
...ludzka twarz Hadoop'a
Oracle Confidential  Internal
Filip Kaznowski  Cloud & Big Data LeadECE Region, Consulting
Micha Grochowski  BI Architect, Pre-sales
Data Science Meetup, 12 maja 2015
Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. |
wiat cyfrowej rewolucji  nowe wyzwania dla analizy
danych
3
Przeanalizujmy ilo
danych
generowanych w jedn
minutw globalnym
internecie oraz
aktywno ludzi i
organizacji.
Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. |
Struktura danychon Write vs on Read
 Tradycyjna struktura danych on Write
 Dane musz by zidentyfikowane i zamodelowane
w okrelonej strukturze
 W kolejnych krokach dane s przetwarzane i
adowane w procesie ETL
 Analiza danych mo甜liwa po zakoczeniu
przetwarzania
 Struktura danych Big Data on Read
 Dane 添r坦dowe bezporednio dostpne w
narzdziach analitycznych
 Przetwarzanie danych poprzez algorytmy
map/reduce lub rozproszone przetwarzanie w
pamici
Elastyczno i szybko analizy danych
Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. |
Analiza du甜ych wolumen坦w danych niestrukturalnych
Szczeg坦owa analiza danych niezagregowanych
=
Odkrycia nowych zwizk坦w i zale甜noci
=
Skuteczniejsze decyzje
Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. |
 M甜czyzna, urodzony w
1948
 Wychowany w Anglii
 Dwukrotnie 甜onaty,
dziecko
 Bogaty celebryta
 Kocha psy
 Uwielbia spdza czas w
Alpach
Jak dobrze znamy wasnych klient坦w?
Oracle Confidential  Internal/Restricted/Highly Restricted | #BeyondBigData
Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential  Internal/Restricted/Highly Restricted 7
DNA Klienta
Analiza zachowania i interakcji
Szczeg坦owe profilowanie
Analiza danych spoecznociowych
"We dont have better algorithms.
We just have more data.
Peter Norvig, Google's Research Director
Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. |
Czy potrafimy wystarczajco szybko analizowa strumie danych?
8
Zo甜ono narzdzi
 Wikszo narzdzi Hadoop wymaga wiedzy
eksperckiej
 Narzdzia BI nie s dostowane do specyfiki Hadoop
 Nowe technologie nie s wystarczajco wszechstronne
Du甜e nakady pracy:
ocena przydatnoci i
przygotowanie
danych
Zo甜ono danych
 R坦甜norodno i wielko danych
 Przydatno danych trudna do oszacowania
 Wymagane zo甜one transformacje
Niebdne
specjalistyczne
kompetencje
Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential  Internal 9
Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential | Business Analytics Product Group
Jakie narzdzia s wykorzystywane w analizie danych?
Source: OReilly: 2013 Data Science Salary Survey
Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential | Business Analytics Product Group
Proces analizy danych
Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. |
RAPORTOWANIE
POZYSKANIE PRZEKSZTACANIE
WYCIGANIE WNIOSKW
ODKRYWANIE
WARTOCI
DANYCH
Independency, correlation,
dimensionality, missing values,
relevancy
Objectives, Modeling, Simulation,
Optimization, Visualization
Transactions, Web-scraping, Web-clicks
& logs, Sensor Data, Mobile Data, Docs,
Emails, XLS, Social Feeds, Flume & Sink
HDFS
MapReduce, ETL, Data Wrangle,
Data Cleansing, Data Jujitsu,
Dimensionality Reduction,
Sample, Select, Join, Bind
MODELOWANIEODKRYCIA
Actionable, Predictive, Immediate
Impact, Business Value, Easy to
explain
Description & Inference, Data &
Algorithm models, Machine
Learning, Regression & Prediction,
Classification & Clustering
Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential | Business Analytics Product Group
Proces analizy danych  wskie garda
Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. |
RAPORTOWANIE
POZYSKANIE PRZEKSZTACANIE
WYCIGANIE WNIOSKW
ODKRYWANIE
WARTOCI
DANYCH
Independency, correlation,
dimensionality, missing values,
relevancy
Transactions, Web-scraping, Web-clicks
& logs, Sensor Data, Mobile Data, Docs,
Emails, XLS, Social Feeds, Flume & Sink
HDFS
MapReduce, ETL, Data Wrangle,
Data Cleansing, Data Jujitsu,
Dim Reduction, Sample, Select,
Join, Bind
MODELOWANIEODKRYCIA80% czasu jest powicone
na
Przeksztacanie,
Transformacje,
& Modelowanie
Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. |
Analityka biznesowa i Data Discovery
Uzupenienie koncepcji analitycznych
Oracle Confidential 13
Znane zale甜noci
Analityka biznesowa
Odpowiedzi na zdefiniowane pytania
Nowe pytania
wymagaj dalszej
analizy danych i
odkry
Nowe zale甜noci
Data Discovery
Odkrycia nowych znacze i zwizk坦w w
danych
Okrycia pozwalaj
zbudowa nowe
metryki i kryteria do
monitorowania
Analityk biznesowy
Data Scientist
Pytania mog wynika z danych
Testowanie hipotez na caym
dostpnym zbiorze
Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. |
Potrzebne s narzdzia nowej generacji
14
Szybkiego
przeksztacenia i
wzbogacenia danych
Dokonywania odkry i
udostpniania
wniosk坦w dla wielu
u甜ytkownik坦w
Przejrzysty i intuicyjny kokpit do pracy z danymi w celu...
atwej identyfikacji
danych i zrozumienia
ich potencjau do
analizy
find explore transform discover share
Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. | 15
Big Data Discovery. The Visual Face of Hadoop
find explore transform discover share
Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. |
Big Data Discovery. The Visual Face of Hadoop
16
find explore transform discover share
Analiza potencjau pozyskanych danych
Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. |
Katalog
17
 Interaktywny katalog
danych skadowanych
w Hadoop
 Przyjazny i atwy w
u甜yciu interfejs
 Mo甜liwo
umieszczania
komentarzy i
rekomendacji
 Zarzdzanie zbiorami
danych prywatnymi i
publicznymi
Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. |
Explore
18
 Wizualizacja
atrybut坦w
 Sortowanie
atrybut坦w zgodnie
z potencjaem
danych
 Statystyki, miary
jakoci danych,
elementy
odstajce
 Wstpna korelacja
pomidzy
atrybutami
Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. |
Big Data Discovery. The Visual Face of Hadoop
19
find explore transform discover share
Szybkie przeksztacanie i
wzbogacanie danych
Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. | 2020
 Intuicyjny interfejs
 Rozbudowana
biblioteka
transformacji i
wzbogacania danych
 Symulacja dziaania,
mo甜liwo
wycofywania i
powtarzania
transformacji
 Testowanie na
pr坦bkach, a potem
na zbiorze danych
w Hadoop
Transform
Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. |
Big Data Discovery. The Visual Face of Hadoop
21
find explore transform discover share
Odkrycia i udostpnianie wniosk坦w
Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. | 22
 czenie danych i
szukanie zwizk坦w i
relacji
 Konfigurowalne
kokpity analityczne
 Silniki zapyta do
wyszukiwania
danych
 Odkrywanie nowych
wzorc坦w poprzez
interaktywne
wizualizacje
Discover
Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. | 23
 Wsp坦dzielenie
projekt坦w
pomidzy
u甜ytkownikami
 Budowa
reu甜ywalnych
galerii wzorc坦w
 Wsp坦praca w
ramach zespou
analityk坦w
 Publikacja danych
do innych narzdzi
Share
Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. |
Efektywne poczenie dw坦ch rodowisk danych
24
 Kompletna platforma
analityczna
 Oszczdno czasu na
procesach
pomocniczych
 Wydajne
przetwarzanie w
pamici
Data Warehouse
Dane operacyjne Dane niestrukturalne
Ocean danychHurtownia danych
Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential  Internal 25
Je甜eli pasjonujesz si data science, masz praktyczne
dowiadczenia z obszarem Big Data, jeste kreatywny i
lubisz wyzwania, serdecznie zapraszamy do kontaktu:
Wojciech Wciso: wojciech.wcislo@oracle.com
Rekrutujemy
pracownik坦w do regionalnego zespou Big Data!
Ad

Recommended

Metastudio DRM. Opis.
Metastudio DRM. Opis.
Sanmargar Team
Mae dane, du甜y wpyw - Dominik Batorski ICM
Mae dane, du甜y wpyw - Dominik Batorski ICM
Data Science Warsaw
Analiza kwalifikacji pracownikow kluczem do sukcesu biznesowego, Tomasz Zubrz...
Analiza kwalifikacji pracownikow kluczem do sukcesu biznesowego, Tomasz Zubrz...
Ewa Stepien
Nowoczesna Chmura dla nowoczesnej firmy, Janusz Naklicki, Oracle @ SaaS Day p...
Nowoczesna Chmura dla nowoczesnej firmy, Janusz Naklicki, Oracle @ SaaS Day p...
Ewa Stepien
[#4] spark - IBM Integrated Analytics System
[#4] spark - IBM Integrated Analytics System
Artur Wronski
Za du甜o informacji, i co dalej? Funnelback - Micha Rachowski Squiz 12.09.12 ...
Za du甜o informacji, i co dalej? Funnelback - Micha Rachowski Squiz 12.09.12 ...
Squiz Poland
Marek Sokoowski @ "Usugi PaaS oraz IaaS - przegld dostpnego osprztu i am...
Marek Sokoowski @ "Usugi PaaS oraz IaaS - przegld dostpnego osprztu i am...
Ewa Stepien
Tomasz Zubrzycki @ "Program TV, kt坦ry zainteresuje HR'owca i nie tylko" - "I ...
Tomasz Zubrzycki @ "Program TV, kt坦ry zainteresuje HR'owca i nie tylko" - "I ...
Ewa Stepien
Open Data - zarzdzanie danymi w projektach badawczych NCN
Open Data - zarzdzanie danymi w projektach badawczych NCN
Platforma Otwartej Nauki
Dane powizane - wprowadzenie
Dane powizane - wprowadzenie
Open Data Support
Jarosaw Porba @ "Szybki sukces w finansach" - "I Manewry w Chmurze Partner坦...
Jarosaw Porba @ "Szybki sukces w finansach" - "I Manewry w Chmurze Partner坦...
Ewa Stepien
Oprogramowanie. Sprzt. Komplet.-prezentacja otwierajca
Oprogramowanie. Sprzt. Komplet.-prezentacja otwierajca
Alicja Sieminska
Narzedzia technologiczne, ktore umozliwiaja zachowanie wiedzy w organizacji
Narzedzia technologiczne, ktore umozliwiaja zachowanie wiedzy w organizacji
Tomasz Karwatka
Steruj swoim biznesem we waciwym kierunku z Oracle Planning and Budgeting C...
Steruj swoim biznesem we waciwym kierunku z Oracle Planning and Budgeting C...
Ewa Stepien
Wdro甜enia Big Data - Seminarium
Wdro甜enia Big Data - Seminarium
Tomasz Sobczak
Bartosz Pacuszka Wprowadzenie do Hurtowni Danych i Business Intelligence
Bartosz Pacuszka Wprowadzenie do Hurtowni Danych i Business Intelligence
Bartosz Pacuszka
Jarosaw Nowakowski @ "Czego jeszcze nie wiecie o Oracle EPM?"- "I Manewry w ...
Jarosaw Nowakowski @ "Czego jeszcze nie wiecie o Oracle EPM?"- "I Manewry w ...
Ewa Stepien
20060416 Azure Boot Camp 2016- Azure Data Lake Storage and Analytics
20060416 Azure Boot Camp 2016- Azure Data Lake Storage and Analytics
ukasz Grala
Dostarcz energii swoim projektom z Oracle Project Cloud, Ryszard Krawczyski,...
Dostarcz energii swoim projektom z Oracle Project Cloud, Ryszard Krawczyski,...
Ewa Stepien
20160405 Cloud Community Pozna - Cloud Analytics on Azure
20160405 Cloud Community Pozna - Cloud Analytics on Azure
ukasz Grala
Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17
Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17
Piotr Czarnas
Sanmargar MetaStudio DRM. Og坦lny opis.
Sanmargar MetaStudio DRM. Og坦lny opis.
Ireneusz Chmielak
10. Analizowanie potrzeb klienta i projektowanie struktury baz danych
10. Analizowanie potrzeb klienta i projektowanie struktury baz danych
kalaxq
Azure - Du甜e zbiory w chmurze
Azure - Du甜e zbiory w chmurze
Data Science Warsaw
Big Data for unstructured data Dariusz liwa
Big Data for unstructured data Dariusz liwa
Evention
Sawomir Ko添luk @ "Zarzdzanie projektami w Chmurze"- "I Manewry w Chmurze Pa...
Sawomir Ko添luk @ "Zarzdzanie projektami w Chmurze"- "I Manewry w Chmurze Pa...
Ewa Stepien
Szybszy dostp do informacji, czyli jak narzdzia analityczne mog zwikszy ...
Szybszy dostp do informacji, czyli jak narzdzia analityczne mog zwikszy ...
Biznes to Rozmowy
Wizualne budowanie aplikacji na Sparku przy pomocy narzdzia Seahorse
Wizualne budowanie aplikacji na Sparku przy pomocy narzdzia Seahorse
Data Science Warsaw
Neptune - narzdzie do monitorowania i zarzdzania eksperymentami Machine Lea...
Neptune - narzdzie do monitorowania i zarzdzania eksperymentami Machine Lea...
Data Science Warsaw

More Related Content

Similar to Oracle Big Data Discovery - ludzka twarz Hadoop'a (20)

Open Data - zarzdzanie danymi w projektach badawczych NCN
Open Data - zarzdzanie danymi w projektach badawczych NCN
Platforma Otwartej Nauki
Dane powizane - wprowadzenie
Dane powizane - wprowadzenie
Open Data Support
Jarosaw Porba @ "Szybki sukces w finansach" - "I Manewry w Chmurze Partner坦...
Jarosaw Porba @ "Szybki sukces w finansach" - "I Manewry w Chmurze Partner坦...
Ewa Stepien
Oprogramowanie. Sprzt. Komplet.-prezentacja otwierajca
Oprogramowanie. Sprzt. Komplet.-prezentacja otwierajca
Alicja Sieminska
Narzedzia technologiczne, ktore umozliwiaja zachowanie wiedzy w organizacji
Narzedzia technologiczne, ktore umozliwiaja zachowanie wiedzy w organizacji
Tomasz Karwatka
Steruj swoim biznesem we waciwym kierunku z Oracle Planning and Budgeting C...
Steruj swoim biznesem we waciwym kierunku z Oracle Planning and Budgeting C...
Ewa Stepien
Wdro甜enia Big Data - Seminarium
Wdro甜enia Big Data - Seminarium
Tomasz Sobczak
Bartosz Pacuszka Wprowadzenie do Hurtowni Danych i Business Intelligence
Bartosz Pacuszka Wprowadzenie do Hurtowni Danych i Business Intelligence
Bartosz Pacuszka
Jarosaw Nowakowski @ "Czego jeszcze nie wiecie o Oracle EPM?"- "I Manewry w ...
Jarosaw Nowakowski @ "Czego jeszcze nie wiecie o Oracle EPM?"- "I Manewry w ...
Ewa Stepien
20060416 Azure Boot Camp 2016- Azure Data Lake Storage and Analytics
20060416 Azure Boot Camp 2016- Azure Data Lake Storage and Analytics
ukasz Grala
Dostarcz energii swoim projektom z Oracle Project Cloud, Ryszard Krawczyski,...
Dostarcz energii swoim projektom z Oracle Project Cloud, Ryszard Krawczyski,...
Ewa Stepien
20160405 Cloud Community Pozna - Cloud Analytics on Azure
20160405 Cloud Community Pozna - Cloud Analytics on Azure
ukasz Grala
Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17
Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17
Piotr Czarnas
Sanmargar MetaStudio DRM. Og坦lny opis.
Sanmargar MetaStudio DRM. Og坦lny opis.
Ireneusz Chmielak
10. Analizowanie potrzeb klienta i projektowanie struktury baz danych
10. Analizowanie potrzeb klienta i projektowanie struktury baz danych
kalaxq
Azure - Du甜e zbiory w chmurze
Azure - Du甜e zbiory w chmurze
Data Science Warsaw
Big Data for unstructured data Dariusz liwa
Big Data for unstructured data Dariusz liwa
Evention
Sawomir Ko添luk @ "Zarzdzanie projektami w Chmurze"- "I Manewry w Chmurze Pa...
Sawomir Ko添luk @ "Zarzdzanie projektami w Chmurze"- "I Manewry w Chmurze Pa...
Ewa Stepien
Szybszy dostp do informacji, czyli jak narzdzia analityczne mog zwikszy ...
Szybszy dostp do informacji, czyli jak narzdzia analityczne mog zwikszy ...
Biznes to Rozmowy
Open Data - zarzdzanie danymi w projektach badawczych NCN
Open Data - zarzdzanie danymi w projektach badawczych NCN
Platforma Otwartej Nauki
Dane powizane - wprowadzenie
Dane powizane - wprowadzenie
Open Data Support
Jarosaw Porba @ "Szybki sukces w finansach" - "I Manewry w Chmurze Partner坦...
Jarosaw Porba @ "Szybki sukces w finansach" - "I Manewry w Chmurze Partner坦...
Ewa Stepien
Oprogramowanie. Sprzt. Komplet.-prezentacja otwierajca
Oprogramowanie. Sprzt. Komplet.-prezentacja otwierajca
Alicja Sieminska
Narzedzia technologiczne, ktore umozliwiaja zachowanie wiedzy w organizacji
Narzedzia technologiczne, ktore umozliwiaja zachowanie wiedzy w organizacji
Tomasz Karwatka
Steruj swoim biznesem we waciwym kierunku z Oracle Planning and Budgeting C...
Steruj swoim biznesem we waciwym kierunku z Oracle Planning and Budgeting C...
Ewa Stepien
Wdro甜enia Big Data - Seminarium
Wdro甜enia Big Data - Seminarium
Tomasz Sobczak
Bartosz Pacuszka Wprowadzenie do Hurtowni Danych i Business Intelligence
Bartosz Pacuszka Wprowadzenie do Hurtowni Danych i Business Intelligence
Bartosz Pacuszka
Jarosaw Nowakowski @ "Czego jeszcze nie wiecie o Oracle EPM?"- "I Manewry w ...
Jarosaw Nowakowski @ "Czego jeszcze nie wiecie o Oracle EPM?"- "I Manewry w ...
Ewa Stepien
20060416 Azure Boot Camp 2016- Azure Data Lake Storage and Analytics
20060416 Azure Boot Camp 2016- Azure Data Lake Storage and Analytics
ukasz Grala
Dostarcz energii swoim projektom z Oracle Project Cloud, Ryszard Krawczyski,...
Dostarcz energii swoim projektom z Oracle Project Cloud, Ryszard Krawczyski,...
Ewa Stepien
20160405 Cloud Community Pozna - Cloud Analytics on Azure
20160405 Cloud Community Pozna - Cloud Analytics on Azure
ukasz Grala
Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17
Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17
Piotr Czarnas
Sanmargar MetaStudio DRM. Og坦lny opis.
Sanmargar MetaStudio DRM. Og坦lny opis.
Ireneusz Chmielak
10. Analizowanie potrzeb klienta i projektowanie struktury baz danych
10. Analizowanie potrzeb klienta i projektowanie struktury baz danych
kalaxq
Azure - Du甜e zbiory w chmurze
Azure - Du甜e zbiory w chmurze
Data Science Warsaw
Big Data for unstructured data Dariusz liwa
Big Data for unstructured data Dariusz liwa
Evention
Sawomir Ko添luk @ "Zarzdzanie projektami w Chmurze"- "I Manewry w Chmurze Pa...
Sawomir Ko添luk @ "Zarzdzanie projektami w Chmurze"- "I Manewry w Chmurze Pa...
Ewa Stepien
Szybszy dostp do informacji, czyli jak narzdzia analityczne mog zwikszy ...
Szybszy dostp do informacji, czyli jak narzdzia analityczne mog zwikszy ...
Biznes to Rozmowy

More from Data Science Warsaw (20)

Wizualne budowanie aplikacji na Sparku przy pomocy narzdzia Seahorse
Wizualne budowanie aplikacji na Sparku przy pomocy narzdzia Seahorse
Data Science Warsaw
Neptune - narzdzie do monitorowania i zarzdzania eksperymentami Machine Lea...
Neptune - narzdzie do monitorowania i zarzdzania eksperymentami Machine Lea...
Data Science Warsaw
CRISP-DM Agile Approach to Data Mining Projects
CRISP-DM Agile Approach to Data Mining Projects
Data Science Warsaw
Online content popularity prediction
Online content popularity prediction
Data Science Warsaw
Rozwizywanie problem坦w optymalizacyjnych
Rozwizywanie problem坦w optymalizacyjnych
Data Science Warsaw
Ile informacji jest w danych?
Ile informacji jest w danych?
Data Science Warsaw
Analiza jzyka naturalnego
Analiza jzyka naturalnego
Data Science Warsaw
Otwarte Miasta
Otwarte Miasta
Data Science Warsaw
How to build your own google
How to build your own google
Data Science Warsaw
To si w ram ie nie zmieci
To si w ram ie nie zmieci
Data Science Warsaw
Data Science Warsaw
Data Science Warsaw
Data Science Warsaw
Data science w ubezpieczeniach
Data science w ubezpieczeniach
Data Science Warsaw
As simple as Apache Spark
As simple as Apache Spark
Data Science Warsaw
Big Data, Wearable, sztuczna inteligencja i ekonomia wsp坦pracy
Big Data, Wearable, sztuczna inteligencja i ekonomia wsp坦pracy
Data Science Warsaw
Ask Data Anything
Ask Data Anything
Data Science Warsaw
Geolokalizacja i analizy przestrzenne: trzy wymiary a ile pracy dla analityka!
Geolokalizacja i analizy przestrzenne: trzy wymiary a ile pracy dla analityka!
Data Science Warsaw
Data Exchange - the missing link in the big data value chain
Data Exchange - the missing link in the big data value chain
Data Science Warsaw
Metody logiczne w analizie danych
Metody logiczne w analizie danych
Data Science Warsaw
Haven 2 0
Haven 2 0
Data Science Warsaw
Data science warsaw inaugural meetup
Data science warsaw inaugural meetup
Data Science Warsaw
Wizualne budowanie aplikacji na Sparku przy pomocy narzdzia Seahorse
Wizualne budowanie aplikacji na Sparku przy pomocy narzdzia Seahorse
Data Science Warsaw
Neptune - narzdzie do monitorowania i zarzdzania eksperymentami Machine Lea...
Neptune - narzdzie do monitorowania i zarzdzania eksperymentami Machine Lea...
Data Science Warsaw
CRISP-DM Agile Approach to Data Mining Projects
CRISP-DM Agile Approach to Data Mining Projects
Data Science Warsaw
Online content popularity prediction
Online content popularity prediction
Data Science Warsaw
Rozwizywanie problem坦w optymalizacyjnych
Rozwizywanie problem坦w optymalizacyjnych
Data Science Warsaw
Ile informacji jest w danych?
Ile informacji jest w danych?
Data Science Warsaw
Data science w ubezpieczeniach
Data science w ubezpieczeniach
Data Science Warsaw
Big Data, Wearable, sztuczna inteligencja i ekonomia wsp坦pracy
Big Data, Wearable, sztuczna inteligencja i ekonomia wsp坦pracy
Data Science Warsaw
Geolokalizacja i analizy przestrzenne: trzy wymiary a ile pracy dla analityka!
Geolokalizacja i analizy przestrzenne: trzy wymiary a ile pracy dla analityka!
Data Science Warsaw
Data Exchange - the missing link in the big data value chain
Data Exchange - the missing link in the big data value chain
Data Science Warsaw
Metody logiczne w analizie danych
Metody logiczne w analizie danych
Data Science Warsaw
Data science warsaw inaugural meetup
Data science warsaw inaugural meetup
Data Science Warsaw
Ad

Oracle Big Data Discovery - ludzka twarz Hadoop'a

  • 2. Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Big Data Discovery... ...ludzka twarz Hadoop'a Oracle Confidential Internal Filip Kaznowski Cloud & Big Data LeadECE Region, Consulting Micha Grochowski BI Architect, Pre-sales Data Science Meetup, 12 maja 2015
  • 3. Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. | wiat cyfrowej rewolucji nowe wyzwania dla analizy danych 3 Przeanalizujmy ilo danych generowanych w jedn minutw globalnym internecie oraz aktywno ludzi i organizacji.
  • 4. Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. | Struktura danychon Write vs on Read Tradycyjna struktura danych on Write Dane musz by zidentyfikowane i zamodelowane w okrelonej strukturze W kolejnych krokach dane s przetwarzane i adowane w procesie ETL Analiza danych mo甜liwa po zakoczeniu przetwarzania Struktura danych Big Data on Read Dane 添r坦dowe bezporednio dostpne w narzdziach analitycznych Przetwarzanie danych poprzez algorytmy map/reduce lub rozproszone przetwarzanie w pamici Elastyczno i szybko analizy danych
  • 5. Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. | Analiza du甜ych wolumen坦w danych niestrukturalnych Szczeg坦owa analiza danych niezagregowanych = Odkrycia nowych zwizk坦w i zale甜noci = Skuteczniejsze decyzje
  • 6. Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. | M甜czyzna, urodzony w 1948 Wychowany w Anglii Dwukrotnie 甜onaty, dziecko Bogaty celebryta Kocha psy Uwielbia spdza czas w Alpach Jak dobrze znamy wasnych klient坦w? Oracle Confidential Internal/Restricted/Highly Restricted | #BeyondBigData
  • 7. Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential Internal/Restricted/Highly Restricted 7 DNA Klienta Analiza zachowania i interakcji Szczeg坦owe profilowanie Analiza danych spoecznociowych "We dont have better algorithms. We just have more data. Peter Norvig, Google's Research Director
  • 8. Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. | Czy potrafimy wystarczajco szybko analizowa strumie danych? 8 Zo甜ono narzdzi Wikszo narzdzi Hadoop wymaga wiedzy eksperckiej Narzdzia BI nie s dostowane do specyfiki Hadoop Nowe technologie nie s wystarczajco wszechstronne Du甜e nakady pracy: ocena przydatnoci i przygotowanie danych Zo甜ono danych R坦甜norodno i wielko danych Przydatno danych trudna do oszacowania Wymagane zo甜one transformacje Niebdne specjalistyczne kompetencje
  • 9. Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential Internal 9
  • 10. Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential | Business Analytics Product Group Jakie narzdzia s wykorzystywane w analizie danych? Source: OReilly: 2013 Data Science Salary Survey
  • 11. Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential | Business Analytics Product Group Proces analizy danych Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. | RAPORTOWANIE POZYSKANIE PRZEKSZTACANIE WYCIGANIE WNIOSKW ODKRYWANIE WARTOCI DANYCH Independency, correlation, dimensionality, missing values, relevancy Objectives, Modeling, Simulation, Optimization, Visualization Transactions, Web-scraping, Web-clicks & logs, Sensor Data, Mobile Data, Docs, Emails, XLS, Social Feeds, Flume & Sink HDFS MapReduce, ETL, Data Wrangle, Data Cleansing, Data Jujitsu, Dimensionality Reduction, Sample, Select, Join, Bind MODELOWANIEODKRYCIA Actionable, Predictive, Immediate Impact, Business Value, Easy to explain Description & Inference, Data & Algorithm models, Machine Learning, Regression & Prediction, Classification & Clustering
  • 12. Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential | Business Analytics Product Group Proces analizy danych wskie garda Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. | RAPORTOWANIE POZYSKANIE PRZEKSZTACANIE WYCIGANIE WNIOSKW ODKRYWANIE WARTOCI DANYCH Independency, correlation, dimensionality, missing values, relevancy Transactions, Web-scraping, Web-clicks & logs, Sensor Data, Mobile Data, Docs, Emails, XLS, Social Feeds, Flume & Sink HDFS MapReduce, ETL, Data Wrangle, Data Cleansing, Data Jujitsu, Dim Reduction, Sample, Select, Join, Bind MODELOWANIEODKRYCIA80% czasu jest powicone na Przeksztacanie, Transformacje, & Modelowanie
  • 13. Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. | Analityka biznesowa i Data Discovery Uzupenienie koncepcji analitycznych Oracle Confidential 13 Znane zale甜noci Analityka biznesowa Odpowiedzi na zdefiniowane pytania Nowe pytania wymagaj dalszej analizy danych i odkry Nowe zale甜noci Data Discovery Odkrycia nowych znacze i zwizk坦w w danych Okrycia pozwalaj zbudowa nowe metryki i kryteria do monitorowania Analityk biznesowy Data Scientist Pytania mog wynika z danych Testowanie hipotez na caym dostpnym zbiorze
  • 14. Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. | Potrzebne s narzdzia nowej generacji 14 Szybkiego przeksztacenia i wzbogacenia danych Dokonywania odkry i udostpniania wniosk坦w dla wielu u甜ytkownik坦w Przejrzysty i intuicyjny kokpit do pracy z danymi w celu... atwej identyfikacji danych i zrozumienia ich potencjau do analizy find explore transform discover share
  • 15. Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. | 15 Big Data Discovery. The Visual Face of Hadoop find explore transform discover share
  • 16. Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. | Big Data Discovery. The Visual Face of Hadoop 16 find explore transform discover share Analiza potencjau pozyskanych danych
  • 17. Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. | Katalog 17 Interaktywny katalog danych skadowanych w Hadoop Przyjazny i atwy w u甜yciu interfejs Mo甜liwo umieszczania komentarzy i rekomendacji Zarzdzanie zbiorami danych prywatnymi i publicznymi
  • 18. Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. | Explore 18 Wizualizacja atrybut坦w Sortowanie atrybut坦w zgodnie z potencjaem danych Statystyki, miary jakoci danych, elementy odstajce Wstpna korelacja pomidzy atrybutami
  • 19. Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. | Big Data Discovery. The Visual Face of Hadoop 19 find explore transform discover share Szybkie przeksztacanie i wzbogacanie danych
  • 20. Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. | 2020 Intuicyjny interfejs Rozbudowana biblioteka transformacji i wzbogacania danych Symulacja dziaania, mo甜liwo wycofywania i powtarzania transformacji Testowanie na pr坦bkach, a potem na zbiorze danych w Hadoop Transform
  • 21. Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. | Big Data Discovery. The Visual Face of Hadoop 21 find explore transform discover share Odkrycia i udostpnianie wniosk坦w
  • 22. Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. | 22 czenie danych i szukanie zwizk坦w i relacji Konfigurowalne kokpity analityczne Silniki zapyta do wyszukiwania danych Odkrywanie nowych wzorc坦w poprzez interaktywne wizualizacje Discover
  • 23. Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. | 23 Wsp坦dzielenie projekt坦w pomidzy u甜ytkownikami Budowa reu甜ywalnych galerii wzorc坦w Wsp坦praca w ramach zespou analityk坦w Publikacja danych do innych narzdzi Share
  • 24. Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. | Efektywne poczenie dw坦ch rodowisk danych 24 Kompletna platforma analityczna Oszczdno czasu na procesach pomocniczych Wydajne przetwarzanie w pamici Data Warehouse Dane operacyjne Dane niestrukturalne Ocean danychHurtownia danych
  • 25. Copyright 息 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential Internal 25 Je甜eli pasjonujesz si data science, masz praktyczne dowiadczenia z obszarem Big Data, jeste kreatywny i lubisz wyzwania, serdecznie zapraszamy do kontaktu: Wojciech Wciso: wojciech.wcislo@oracle.com Rekrutujemy pracownik坦w do regionalnego zespou Big Data!