2. 2/18Исполнитель: Плакса Е.А.
№ Наименование темы доклада Время
1 что такое Hadoop
Из чего состоит дистрибутив Hadoop - HDP 2.3.2
Начало работы с Hadoop
Бонус и вопросы
10:00 - 11:00
Кофе-брейк 11:00 - 11:15
2 Обзор архитектуры 9 проектов ПриватБанка
использующих Hadoop в режиме вопрос-ответ.
11:15 - 12:30
Повестка мастер класса “Знакомство с Hadoop”
3. 3/18Исполнитель: Плакса Е.А.
Hadoop Common[⇨]
(связующее программное обеспечение — набор
инфраструктурных программных библиотек и утилит, используемых для других
модулей и родственных проектов)
Hadoop — проект фонда Apache Software Foundation, свободно распространяемый набор утилит,
библиотек и фреймворк для разработки и выполнения распределённых программ, работающих на
кластерах из сотен и тысяч узлов. Используется для реализации поисковых и контекстных
механизмов многих высоконагруженных веб-сайтов, в том числе, для Yahoo! и Facebook[4]
.
Разработан на Java в рамках вычислительной парадигмы MapReduce, согласно которой приложение
разделяется на большое количество одинаковых элементарных заданий, выполнимых на узлах
кластера и естественным образом сводимых в конечный результат.
что такое Hadoop?
2013
система для планирования заданий и управления кластером
5. 5/18Исполнитель: Плакса Е.А.
Hortonworks Data Platform 2.3.2
● Управление данными
● Доступ к данным
● Интеграция данных и планирование
● Администрирование , мониторинг и безопасность
6. 6/18
Исполнитель: Плакса Е.А.
Управление данными
Обработка огромного количества данных,
масштабировать нагрузку можно линейно
● Apache Hadoop 2.7.1 -ядро системы (Hadoop Common, HDFS, YARN,
MapReduce)
● Apache Tez 0.7.0 - Окружение (движок) расширяющее парадигму MapReduce
за счет усовершенствования процедуры выполнения графовой модели.
Позволяет выполнять hive и pig запросы быстрей чем через MapReduce.
● Apache ݺߣr 0.80.0 - Окружение предназначенное для систем реального
времени таких как hbase и storm.
7. Исполнитель: Плакса Е.А.
Доступ к данным
Взаимодействия с данными
от пакетной обработки
до работы в реальном времени
Пакетная обработка
● Apache Pig 0.15.0 -это высокоуровневый процедурный язык,
предназначенный для выполнения запросов к большим
слабоструктурированным наборам данных.
○ Apache DataFu Pig 1.3.0 - это коллекция библиотек ( пользовательские
функции UDF)
● Apache Hive 1.2.1 - Система управления большими наборами данных.
Используется для создания выборок с помощью SQL-подобного языка (HQL)
В качестве источников данных можно использовать структурированные и не
структурированные хранилища. Hive может быть использован теми, кто
знает язык SQL.!!!
7/18
8. 8/18Исполнитель: Плакса Е.А.
Доступ к данным
Взаимодействия с данными
от пакетной обработки
до работы в реальном времени
Работа в реальном времени
● Apache HBase 1.1.2 - Отказоустойчивая база ключ-значение для
записи/чтения большого объема данных в системах реального времени
○ Apache Phoenix 4.4.0 - SQL оболочка для HBase
● Apache Accumulo 1.7.0 - Еще одна отказоустойчивая база ключ-значение
построенная на концепции Google BigTable ( Разработано АНБ США)
● Apache Storm 0.10.0-beta система ориентированная на распределенную
обработку больших потоков данных в реальном времени
● 80К(300К) /мин
● avg 5-20мс
9. 9/18Исполнитель: Плакса Е.А.
Доступ к данным
Взаимодействия с данными
от пакетной обработки
до работы в реальном времени
● HDP-Search (Apache Solr 5.2.1 и Вanana) - платформа полнотекстового
поиска с открытым исходным кодом, основанная на проекте Apache Lucene.
● Apache Spark 1.4.1 - выносит большинство вычислений в память вместо
диска. Ключевым понятием в Spark-е является RDD (resilient distributed
dataset) — указатель на ленивую распределённую колекцию данных.
Большинство операций над RDD не приводит к каким-либо вычислениям, а
только создаёт очередную обёртку, обещая выполнить операции только
тогда, когда они понадобятся
10. 10/18Исполнитель: Плакса Е.А.
Интеграция данных и планирование
Быстро и легко загружать данные, планировать регламентные задачи
● Apache Falcon 0.6.1 - упрощает конфигурацию движения
данных и позволяет установить политику для: сохранения и
репликации данных
● Apache Flume 1.5.2 - используется для потоковой передачи
данных из нескольких источников с возможностью по
резервированию и восстановлению
● Hortonworks DataFlow (Apache nifi) - предназначен для
автоматизации работы с потоками большого количества
данных в разнородных системах (Разработано АНБ США Onyara)
11. 11/18Исполнитель: Плакса Е.А.
Интеграция данных и планирование
Быстро и легко загружать данные, планировать регламентные задачи
● Apache Kafka 0.8.2 - распределённая система обмена
сообщениями с высокой пропускной способностью
● Apache Sqoop 1.4.6 -утилита для быстрого копирования
данных между Hadoop и RDBMS
● Apache Oozie 4.2.0 - планировщик потоков задач. Изначально
спроектирован для объединения отдельных MapReduce работ
в единый конвеер и запуска их по расписанию
● Hue 2.6.1 и Ambari User Views - Web интерфейсы для доступа
к Hdfs, Hive, Pig, Oozie, storm
12. 12/18Исполнитель: Плакса Е.А.
Администрирование, мониторинг и безопасность
основные инструменты администраторов
● Apache Knox 0.6.0 - обеспечивает единую точку
аутентификации / доступа для кластера
● Apache Ranger 0.5.0 - обеспечивает комплексный
подход к безопасности и хранилище ключей
● Apache Ambari 2.1.2.1- упрощает управление кластером Hadoop и его
мониторинг за счет удобного пользовательского веб-интерфейса и
интерфейса REST API
● Cloudbreak 1.0 управление кластером в Microsoft Azure, AWS, Google Cloud
Platform и OpenStack
● Apache ZooKeeper 3.4.6 Чаще всего используется как сервис конфигурации,
хотя его возможности гораздо шире
13. 13/18Исполнитель: Плакса Е.А.
1. http://hortonworks.com/products/hortonworks-sandbox/#install
или https://aws.amazon.com/ru/
2. http://hortonworks.com/products/hortonworks-sandbox/#tutorial_gallery
3. Документация & hadoop summit & google search
Hadoop с чего начать ?