ݺߣ

ݺߣShare a Scribd company logo
http://retailrocket.ru/Content/Img/promo/logo.png
Как измерить слона?
Оценка производительности
кластера Hadoop
Мурашкин Вячеслав
mvjacheslav@gmail.com
RetailRocket сегодня
● 50M хостов в месяц
● 40G логов в сутки
● 15 машин в кластере
● 5 часов ежедневно на регулярные задачи
0. Кластер Hadoop
1 Производительность
Число выполненных задач за единицу
времени
● Время выполнения задачи
● Воспроизводимость результатов
○ Одни и те же входные данные
○ Одни и те же задачи
1.1 Как оцениваем?
github.com/intel-hadoop/HiBench
● Набор типовых задач
○ Sort, WordCount, TeraSort, Nutch indexing,
PageRank, Bayesian classification, K-means
clustering
● Утилиты для генерации входных данных
1.2 Чем оцениваем?
1.3 Время измерили
А дальше?
2 Поиск узких мест
● Железо (CPU, Disks, Network)
● Конфигурация кластера
● Оптимизация задачи
2.1 Утилиты
● sysbench (CPU, File IO)
● iperf (Network)
2.2 Система мониторинга
● Cloudera Manager
● Ganglia
● Zabbix
2.2 Система мониторинга
● Число занятых слотов
● Объем свободного места в HDFS
● Jobtracker Heap Usage
2.3 Метрики hadoop
2.3 Метрики hadoop
● Dsik IO operations
● CPU (load, context switches, iowait)
● Network traffic
● RAM
2.3 Системные метрики
2.3 Системные метрики
3 Устраняем перегрузки
● Оптимизируем число map/reduce слотов
○ mapred.tasktracker.map.tasks.maximum
○ mapred.tasktracker.reduce.tasks.maximum
3.1 CPU Context switches
● Используем несколько дисков
○ mapred.local.dir
3.2 CPU iowait
3.3 CPU load
● Режим работы CPU
○ devices/system/cpu/cpu0/cpufreq/scaling_governor
○ userspace powersave conservative ondemand
performance
4 Пример из жизни: 2 кластера
● Дистрибутив Cloudera CDH4.1
● по 4 машины в кластере
● тестируем HiBench Sort 24G/node
4.1 Пример из жизни: 2 кластера
A: Intel® Xeon®
Processor E3-1245 v2
# of Cores 4
# of Threads 8
# Clock Speed 3.4 GHz
# Map/Reduce 4/3
# Sort time 13,5 min
# Cost 71 $
B: Intel® Xeon®
Processor E5-2620
# of Cores 6
# of Threads 12
# Clock Speed 2 GHz
# Map/Reduce 6/5
# Sort time 22,5 min
# Cost 230 $
Спасибо!
Мурашкин Вячеслав
mvjacheslav@gmail.com
retailrocket.ru

More Related Content

Оценка производительности hadoop кластера.