�ݺ�ߣ

Oracle Big Data Discovery - ludzka twarz Hadoop'a

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Oracle Big Data Discovery...
...ludzka twarz Hadoop'a
Oracle Confidential – Internal
Filip Kaznowski – Cloud & Big Data Lead–ECE Region, Consulting
Michał Grochowski – BI Architect, Pre-sales
Data Science Meetup, 12 maja 2015

Świat cyfrowej rewolucji – nowe wyzwania dla analizy
danych
3
Przeanalizujmy ilość
danych
generowanych w jedną
minutęw globalnym
internecie oraz
aktywność ludzi i
organizacji.

Struktura danych„on Write” vs „on Read”
• Tradycyjna struktura danych “on Write”
– Dane muszą być zidentyfikowane i zamodelowane
w określonej strukturze
– W kolejnych krokach dane są przetwarzane i
ładowane w procesie ETL
– Analiza danych możliwa po zakończeniu
przetwarzania
• Struktura danych Big Data “on Read”
– Dane źródłowe bezpośrednio dostępne w
narzędziach analitycznych
– Przetwarzanie danych poprzez algorytmy
map/reduce lub rozproszone przetwarzanie w
pamięci
Elastyczność i szybkość analizy danych

Analiza dużych wolumenów danych niestrukturalnych
Szczegółowa analiza danych niezagregowanych
=
Odkrycia nowych związków i zależności
=
Skuteczniejsze decyzje

• Mężczyzna, urodzony w
1948
• Wychowany w Anglii
• Dwukrotnie żonaty,
dziecko
• Bogaty celebryta
• Kocha psy
• Uwielbia spędzać czas w
Alpach
Jak dobrze znamy własnych klientów?
Oracle Confidential – Internal/Restricted/Highly Restricted | #BeyondBigData

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Internal/Restricted/Highly Restricted 7
DNA Klienta
Analiza zachowania i interakcji
Szczegółowe profilowanie
Analiza danych społecznościowych
"We don’t have better algorithms.
We just have more data.“
Peter Norvig, Google's Research Director

Czy potrafimy wystarczająco szybko analizować strumień danych?
8
Złożoność narzędzi
• Większość narzędzi Hadoop wymaga wiedzy
eksperckiej
• Narzędzia BI nie są dostowane do specyfiki Hadoop
• Nowe technologie nie są wystarczająco wszechstronne
Duże nakłady pracy:
ocena przydatności i
przygotowanie
danych
Złożoność danych
• Różnorodność i wielkość danych
• Przydatność danych trudna do oszacowania
• Wymagane złożone transformacje
Niebędne
specjalistyczne
kompetencje

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential | Business Analytics Product Group
Jakie narzędzia są wykorzystywane w analizie danych?
Source: O’Reilly: 2013 Data Science Salary Survey

Proces analizy danych
RAPORTOWANIE
POZYSKANIE PRZEKSZTAŁCANIE
WYCIĄGANIE WNIOSKÓW
ODKRYWANIE
WARTOŚCI
DANYCH
Independency, correlation,
dimensionality, missing values,
relevancy
Objectives, Modeling, Simulation,
Optimization, Visualization
Transactions, Web-scraping, Web-clicks
& logs, Sensor Data, Mobile Data, Docs,
Emails, XLS, Social Feeds, Flume & Sink
HDFS
MapReduce, ETL, Data Wrangle,
Data Cleansing, Data Jujitsu,
Dimensionality Reduction,
Sample, Select, Join, Bind
MODELOWANIEODKRYCIA
Actionable, Predictive, Immediate
Impact, Business Value, Easy to
explain
Description & Inference, Data &
Algorithm models, Machine
Learning, Regression & Prediction,
Classification & Clustering

Proces analizy danych – wąskie gardła
RAPORTOWANIE
POZYSKANIE PRZEKSZTAŁCANIE
WYCIĄGANIE WNIOSKÓW
ODKRYWANIE
WARTOŚCI
DANYCH
Independency, correlation,
dimensionality, missing values,
relevancy
Transactions, Web-scraping, Web-clicks
& logs, Sensor Data, Mobile Data, Docs,
Emails, XLS, Social Feeds, Flume & Sink
HDFS
MapReduce, ETL, Data Wrangle,
Data Cleansing, Data Jujitsu,
Dim Reduction, Sample, Select,
Join, Bind
MODELOWANIEODKRYCIA80% czasu jest poświęcone
na
Przekształcanie,
Transformacje,
& Modelowanie

Analityka biznesowa i Data Discovery
Uzupełnienie koncepcji analitycznych
Oracle Confidential 13
Znane zależności
Analityka biznesowa
Odpowiedzi na zdefiniowane pytania
Nowe pytania
wymagają dalszej
analizy danych i
odkryć
Nowe zależności
Data Discovery
Odkrycia nowych znaczeń i związków w
danych
Okrycia pozwalają
zbudować nowe
metryki i kryteria do
monitorowania
Analityk biznesowy
Data Scientist
Pytania mogą wynikać z danych
Testowanie hipotez na całym
dostępnym zbiorze

Potrzebne są narzędzia nowej generacji
14
Szybkiego
przekształcenia i
wzbogacenia danych
Dokonywania odkryć i
udostępniania
wniosków dla wielu
użytkowników
Przejrzysty i intuicyjny kokpit do pracy z danymi w celu...
Łatwej identyfikacji
danych i zrozumienia
ich potencjału do
analizy
find explore transform discover share

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | 15
Big Data Discovery. The Visual Face of Hadoop

16
Analiza potencjału pozyskanych danych

Katalog
17
• Interaktywny katalog
danych składowanych
w Hadoop
• Przyjazny i łatwy w
użyciu interfejs
• Możliwość
umieszczania
komentarzy i
rekomendacji
• Zarządzanie zbiorami
danych prywatnymi i
publicznymi

Explore
18
• Wizualizacja
atrybutów
• Sortowanie
atrybutów zgodnie
z potencjałem
danych
• Statystyki, miary
jakości danych,
elementy
odstające
• Wstępna korelacja
pomiędzy
atrybutami

19
Szybkie przekształcanie i
wzbogacanie danych

• Intuicyjny interfejs
• Rozbudowana
biblioteka
transformacji i
wzbogacania danych
• Symulacja działania,
możliwość
wycofywania i
powtarzania
transformacji
• Testowanie na
próbkach, a potem
na zbiorze danych
w Hadoop
Transform

21
Odkrycia i udostępnianie wniosków

• Łączenie danych i
szukanie związków i
relacji
• Konfigurowalne
kokpity analityczne
• Silniki zapytań do
wyszukiwania
danych
• Odkrywanie nowych
wzorców poprzez
interaktywne
wizualizacje
Discover

• Współdzielenie
projektów
pomiędzy
użytkownikami
• Budowa
reużywalnych
galerii wzorców
• Współpraca w
ramach zespołu
analityków
• Publikacja danych
do innych narzędzi
Share

Efektywne połączenie dwóch środowisk danych
24
• Kompletna platforma
analityczna
• Oszczędność czasu na
procesach
pomocniczych
• Wydajne
przetwarzanie w
pamięci
Data Warehouse
Dane operacyjne Dane niestrukturalne
Ocean danychHurtownia danych

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Internal 25
Jeżeli pasjonujesz się „data science”, masz praktyczne
doświadczenia z obszarem Big Data, jesteś kreatywny i
lubisz wyzwania, serdecznie zapraszamy do kontaktu:
Wojciech Wcisło: wojciech.wcislo@oracle.com
Rekrutujemy
pracowników do regionalnego zespołu Big Data!

�ݺ�ߣ

Oracle Big Data Discovery - ludzka twarz Hadoop'a

Recommended

More Related Content

Similar to Oracle Big Data Discovery - ludzka twarz Hadoop'a (20)

More from Data Science Warsaw (20)

Oracle Big Data Discovery - ludzka twarz Hadoop'a