ݺߣ

ݺߣShare a Scribd company logo
Знакомство с Hadoop
Докладчик: Плакса Е.А.
2/18Исполнитель: Плакса Е.А.
№ Наименование темы доклада Время
1 что такое Hadoop
Из чего состоит дистрибутив Hadoop - HDP 2.3.2
Начало работы с Hadoop
Бонус и вопросы
10:00 - 11:00
Кофе-брейк 11:00 - 11:15
2 Обзор архитектуры 9 проектов ПриватБанка
использующих Hadoop в режиме вопрос-ответ.
11:15 - 12:30
Повестка мастер класса “Знакомство с Hadoop”
3/18Исполнитель: Плакса Е.А.
Hadoop Common[⇨]
(связующее программное обеспечение — набор
инфраструктурных программных библиотек и утилит, используемых для других
модулей и родственных проектов)
Hadoop — проект фонда Apache Software Foundation, свободно распространяемый набор утилит,
библиотек и фреймворк для разработки и выполнения распределённых программ, работающих на
кластерах из сотен и тысяч узлов. Используется для реализации поисковых и контекстных
механизмов многих высоконагруженных веб-сайтов, в том числе, для Yahoo! и Facebook[4]
.
Разработан на Java в рамках вычислительной парадигмы MapReduce, согласно которой приложение
разделяется на большое количество одинаковых элементарных заданий, выполнимых на узлах
кластера и естественным образом сводимых в конечный результат.
что такое Hadoop?
2013
система для планирования заданий и управления кластером
4/18Исполнитель: Плакса Е.А.
Дистрибутивы Hadoop
● 2008 Cloudera - cdh 5.5
● 2009 MapR - MapR 5
● 2009 Amazon Elastic MapReduce
● 2011 Hortonworks - HDP 2.3
● 2011 microsoft HDInsight
● Teradata - Aster Big
Analytics appliance
● Pivotal HD 3.0
● IBM - BigInsights 4.1
5/18Исполнитель: Плакса Е.А.
Hortonworks Data Platform 2.3.2
● Управление данными
● Доступ к данным
● Интеграция данных и планирование
● Администрирование , мониторинг и безопасность
6/18
Исполнитель: Плакса Е.А.
Управление данными
Обработка огромного количества данных,
масштабировать нагрузку можно линейно
● Apache Hadoop 2.7.1 -ядро системы (Hadoop Common, HDFS, YARN,
MapReduce)
● Apache Tez 0.7.0 - Окружение (движок) расширяющее парадигму MapReduce
за счет усовершенствования процедуры выполнения графовой модели.
Позволяет выполнять hive и pig запросы быстрей чем через MapReduce.
● Apache ݺߣr 0.80.0 - Окружение предназначенное для систем реального
времени таких как hbase и storm.
Исполнитель: Плакса Е.А.
Доступ к данным
Взаимодействия с данными
от пакетной обработки
до работы в реальном времени
Пакетная обработка
● Apache Pig 0.15.0 -это высокоуровневый процедурный язык,
предназначенный для выполнения запросов к большим
слабоструктурированным наборам данных.
○ Apache DataFu Pig 1.3.0 - это коллекция библиотек ( пользовательские
функции UDF)
● Apache Hive 1.2.1 - Система управления большими наборами данных.
Используется для создания выборок с помощью SQL-подобного языка (HQL)
В качестве источников данных можно использовать структурированные и не
структурированные хранилища. Hive может быть использован теми, кто
знает язык SQL.!!!
7/18
8/18Исполнитель: Плакса Е.А.
Доступ к данным
Взаимодействия с данными
от пакетной обработки
до работы в реальном времени
Работа в реальном времени
● Apache HBase 1.1.2 - Отказоустойчивая база ключ-значение для
записи/чтения большого объема данных в системах реального времени
○ Apache Phoenix 4.4.0 - SQL оболочка для HBase
● Apache Accumulo 1.7.0 - Еще одна отказоустойчивая база ключ-значение
построенная на концепции Google BigTable ( Разработано АНБ США)
● Apache Storm 0.10.0-beta система ориентированная на распределенную
обработку больших потоков данных в реальном времени
● 80К(300К) /мин
● avg 5-20мс
9/18Исполнитель: Плакса Е.А.
Доступ к данным
Взаимодействия с данными
от пакетной обработки
до работы в реальном времени
● HDP-Search (Apache Solr 5.2.1 и Вanana) - платформа полнотекстового
поиска с открытым исходным кодом, основанная на проекте Apache Lucene.
● Apache Spark 1.4.1 - выносит большинство вычислений в память вместо
диска. Ключевым понятием в Spark-е является RDD (resilient distributed
dataset) — указатель на ленивую распределённую колекцию данных.
Большинство операций над RDD не приводит к каким-либо вычислениям, а
только создаёт очередную обёртку, обещая выполнить операции только
тогда, когда они понадобятся
10/18Исполнитель: Плакса Е.А.
Интеграция данных и планирование
Быстро и легко загружать данные, планировать регламентные задачи
● Apache Falcon 0.6.1 - упрощает конфигурацию движения
данных и позволяет установить политику для: сохранения и
репликации данных
● Apache Flume 1.5.2 - используется для потоковой передачи
данных из нескольких источников с возможностью по
резервированию и восстановлению
● Hortonworks DataFlow (Apache nifi) - предназначен для
автоматизации работы с потоками большого количества
данных в разнородных системах (Разработано АНБ США Onyara)
11/18Исполнитель: Плакса Е.А.
Интеграция данных и планирование
Быстро и легко загружать данные, планировать регламентные задачи
● Apache Kafka 0.8.2 - распределённая система обмена
сообщениями с высокой пропускной способностью
● Apache Sqoop 1.4.6 -утилита для быстрого копирования
данных между Hadoop и RDBMS
● Apache Oozie 4.2.0 - планировщик потоков задач. Изначально
спроектирован для объединения отдельных MapReduce работ
в единый конвеер и запуска их по расписанию
● Hue 2.6.1 и Ambari User Views - Web интерфейсы для доступа
к Hdfs, Hive, Pig, Oozie, storm
12/18Исполнитель: Плакса Е.А.
Администрирование, мониторинг и безопасность
основные инструменты администраторов
● Apache Knox 0.6.0 - обеспечивает единую точку
аутентификации / доступа для кластера
● Apache Ranger 0.5.0 - обеспечивает комплексный
подход к безопасности и хранилище ключей
● Apache Ambari 2.1.2.1- упрощает управление кластером Hadoop и его
мониторинг за счет удобного пользовательского веб-интерфейса и
интерфейса REST API
● Cloudbreak 1.0 управление кластером в Microsoft Azure, AWS, Google Cloud
Platform и OpenStack
● Apache ZooKeeper 3.4.6 Чаще всего используется как сервис конфигурации,
хотя его возможности гораздо шире
13/18Исполнитель: Плакса Е.А.
1. http://hortonworks.com/products/hortonworks-sandbox/#install
или https://aws.amazon.com/ru/
2. http://hortonworks.com/products/hortonworks-sandbox/#tutorial_gallery
3. Документация & hadoop summit & google search
Hadoop с чего начать ?
14/18Исполнитель: Плакса Е.А.
Ambari
.
15/18Исполнитель: Плакса Е.А.
Hue
.
16/18Исполнитель: Плакса Е.А.
Linux console & ….
hadoop client, hbase shell, beeline (hive) solr, Storm UI, ResourceManager UI, NameNode UI,
17/18Исполнитель: Плакса Е.А.
Hadoop training & certification
$2800
$250
hadoopexam.com
ВОПРОСЫ?
БОНУС
● 14 лекций по Hadoop от Mail.ru
● Скрижали->Разработчикам ПО -> работа с
NoSql
Докладчик: Плакса Е.А.

More Related Content

Cостав дистрибутва Hortonworks data platform 2.3

  • 2. 2/18Исполнитель: Плакса Е.А. № Наименование темы доклада Время 1 что такое Hadoop Из чего состоит дистрибутив Hadoop - HDP 2.3.2 Начало работы с Hadoop Бонус и вопросы 10:00 - 11:00 Кофе-брейк 11:00 - 11:15 2 Обзор архитектуры 9 проектов ПриватБанка использующих Hadoop в режиме вопрос-ответ. 11:15 - 12:30 Повестка мастер класса “Знакомство с Hadoop”
  • 3. 3/18Исполнитель: Плакса Е.А. Hadoop Common[⇨] (связующее программное обеспечение — набор инфраструктурных программных библиотек и утилит, используемых для других модулей и родственных проектов) Hadoop — проект фонда Apache Software Foundation, свободно распространяемый набор утилит, библиотек и фреймворк для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов. Используется для реализации поисковых и контекстных механизмов многих высоконагруженных веб-сайтов, в том числе, для Yahoo! и Facebook[4] . Разработан на Java в рамках вычислительной парадигмы MapReduce, согласно которой приложение разделяется на большое количество одинаковых элементарных заданий, выполнимых на узлах кластера и естественным образом сводимых в конечный результат. что такое Hadoop? 2013 система для планирования заданий и управления кластером
  • 4. 4/18Исполнитель: Плакса Е.А. Дистрибутивы Hadoop ● 2008 Cloudera - cdh 5.5 ● 2009 MapR - MapR 5 ● 2009 Amazon Elastic MapReduce ● 2011 Hortonworks - HDP 2.3 ● 2011 microsoft HDInsight ● Teradata - Aster Big Analytics appliance ● Pivotal HD 3.0 ● IBM - BigInsights 4.1
  • 5. 5/18Исполнитель: Плакса Е.А. Hortonworks Data Platform 2.3.2 ● Управление данными ● Доступ к данным ● Интеграция данных и планирование ● Администрирование , мониторинг и безопасность
  • 6. 6/18 Исполнитель: Плакса Е.А. Управление данными Обработка огромного количества данных, масштабировать нагрузку можно линейно ● Apache Hadoop 2.7.1 -ядро системы (Hadoop Common, HDFS, YARN, MapReduce) ● Apache Tez 0.7.0 - Окружение (движок) расширяющее парадигму MapReduce за счет усовершенствования процедуры выполнения графовой модели. Позволяет выполнять hive и pig запросы быстрей чем через MapReduce. ● Apache ݺߣr 0.80.0 - Окружение предназначенное для систем реального времени таких как hbase и storm.
  • 7. Исполнитель: Плакса Е.А. Доступ к данным Взаимодействия с данными от пакетной обработки до работы в реальном времени Пакетная обработка ● Apache Pig 0.15.0 -это высокоуровневый процедурный язык, предназначенный для выполнения запросов к большим слабоструктурированным наборам данных. ○ Apache DataFu Pig 1.3.0 - это коллекция библиотек ( пользовательские функции UDF) ● Apache Hive 1.2.1 - Система управления большими наборами данных. Используется для создания выборок с помощью SQL-подобного языка (HQL) В качестве источников данных можно использовать структурированные и не структурированные хранилища. Hive может быть использован теми, кто знает язык SQL.!!! 7/18
  • 8. 8/18Исполнитель: Плакса Е.А. Доступ к данным Взаимодействия с данными от пакетной обработки до работы в реальном времени Работа в реальном времени ● Apache HBase 1.1.2 - Отказоустойчивая база ключ-значение для записи/чтения большого объема данных в системах реального времени ○ Apache Phoenix 4.4.0 - SQL оболочка для HBase ● Apache Accumulo 1.7.0 - Еще одна отказоустойчивая база ключ-значение построенная на концепции Google BigTable ( Разработано АНБ США) ● Apache Storm 0.10.0-beta система ориентированная на распределенную обработку больших потоков данных в реальном времени ● 80К(300К) /мин ● avg 5-20мс
  • 9. 9/18Исполнитель: Плакса Е.А. Доступ к данным Взаимодействия с данными от пакетной обработки до работы в реальном времени ● HDP-Search (Apache Solr 5.2.1 и Вanana) - платформа полнотекстового поиска с открытым исходным кодом, основанная на проекте Apache Lucene. ● Apache Spark 1.4.1 - выносит большинство вычислений в память вместо диска. Ключевым понятием в Spark-е является RDD (resilient distributed dataset) — указатель на ленивую распределённую колекцию данных. Большинство операций над RDD не приводит к каким-либо вычислениям, а только создаёт очередную обёртку, обещая выполнить операции только тогда, когда они понадобятся
  • 10. 10/18Исполнитель: Плакса Е.А. Интеграция данных и планирование Быстро и легко загружать данные, планировать регламентные задачи ● Apache Falcon 0.6.1 - упрощает конфигурацию движения данных и позволяет установить политику для: сохранения и репликации данных ● Apache Flume 1.5.2 - используется для потоковой передачи данных из нескольких источников с возможностью по резервированию и восстановлению ● Hortonworks DataFlow (Apache nifi) - предназначен для автоматизации работы с потоками большого количества данных в разнородных системах (Разработано АНБ США Onyara)
  • 11. 11/18Исполнитель: Плакса Е.А. Интеграция данных и планирование Быстро и легко загружать данные, планировать регламентные задачи ● Apache Kafka 0.8.2 - распределённая система обмена сообщениями с высокой пропускной способностью ● Apache Sqoop 1.4.6 -утилита для быстрого копирования данных между Hadoop и RDBMS ● Apache Oozie 4.2.0 - планировщик потоков задач. Изначально спроектирован для объединения отдельных MapReduce работ в единый конвеер и запуска их по расписанию ● Hue 2.6.1 и Ambari User Views - Web интерфейсы для доступа к Hdfs, Hive, Pig, Oozie, storm
  • 12. 12/18Исполнитель: Плакса Е.А. Администрирование, мониторинг и безопасность основные инструменты администраторов ● Apache Knox 0.6.0 - обеспечивает единую точку аутентификации / доступа для кластера ● Apache Ranger 0.5.0 - обеспечивает комплексный подход к безопасности и хранилище ключей ● Apache Ambari 2.1.2.1- упрощает управление кластером Hadoop и его мониторинг за счет удобного пользовательского веб-интерфейса и интерфейса REST API ● Cloudbreak 1.0 управление кластером в Microsoft Azure, AWS, Google Cloud Platform и OpenStack ● Apache ZooKeeper 3.4.6 Чаще всего используется как сервис конфигурации, хотя его возможности гораздо шире
  • 13. 13/18Исполнитель: Плакса Е.А. 1. http://hortonworks.com/products/hortonworks-sandbox/#install или https://aws.amazon.com/ru/ 2. http://hortonworks.com/products/hortonworks-sandbox/#tutorial_gallery 3. Документация & hadoop summit & google search Hadoop с чего начать ?
  • 16. 16/18Исполнитель: Плакса Е.А. Linux console & …. hadoop client, hbase shell, beeline (hive) solr, Storm UI, ResourceManager UI, NameNode UI,
  • 17. 17/18Исполнитель: Плакса Е.А. Hadoop training & certification $2800 $250 hadoopexam.com
  • 18. ВОПРОСЫ? БОНУС ● 14 лекций по Hadoop от Mail.ru ● Скрижали->Разработчикам ПО -> работа с NoSql Докладчик: Плакса Е.А.