"Правильно распределяем процессорную мощность в рамках виртуализации VMware". Доклад Кирилла Науменко, системного архитектора VMware в gigacloud.ua в рамках ІТ-пятницы в сентябре 2018 года.
DPDK в виртуальном коммутаторе Open vSwitch / Александр Джуринский (Selectel)OnticoIntel DPDK (Data Plane Development Kit) — набор драйверов и библиотек, позволяющих приложениям взаимодействовать с сетевым устройством напрямую, минуя сетевой стек Linux. Это значительно увеличивает скорость обработки пакетов. DPDK интегрируется с рядом популярных программных решений, например, c виртуальным коммутатором Open vSwitch.
Возможностям и перспективам использования связи Open vSwitch + DPDK в облачных проектах и будет посвящен наш доклад. Мы подробно остановимся на проведённых тестах производительности и интерпретируем их результаты. Отдельное внимание будет уделено анализу трудностей и ограничений, с которыми пришлось столкнуться в ходе экспериментов.
Андрей Николаенко, IBS. NVMf: 5 млн IOPS по сети своими рукамиIBSАндрей Николаенко, системный архитектор в IBS, выступил на конференции HighLoad++ 2016.
Тезисы
В выпуске 4.8 ядра Linux появилась поддержка NVMf (NVM Express over Fabrics) — стандартизованной возможности присоединять по сети как блочные устройства твердотельные накопители, установленные в разъёмы PCI Express. NVMf лишён многих недостатков iSCSI, повторяющего по сети SCSI-команды со всеми их издержками времён дисковых накопителей, и главное — позволяет по полной использовать возможности сетей с прямым доступом к оперативной памяти (RDMA). Таким образом, можно под управлением одного узла собрать сверхбыстрый и сверхотзывчивый пул блочных устройств, не прибегая к покупке дорогого флэш-массива. Но как воспользоваться этим пулом, не загубив теоретические показатели программными обёртками?
В докладе будут рассмотрены варианты применения NVMf для различных конфигураций PostgreSQL, Oracle Database, Hadoop, файловых хранилищ, о разработках в направлении «программно-определяемой памяти» с применением NVMe-устройств, доступных по сети, обсуждены текущие проблемы, ограничения и перспективы. Особое внимание будет уделено практическим способам измерения производительности ввода-вывода с учётом задачи, решаемой подсистемой хранения.
Тюним память и сетевой стек в Linux: история перевода высоконагруженных серве...odnoklassniki.ruВ процессе обновления высоконагруженных серверов раздачи видео (40Gbit/s с каждого сервера) со старого OpenSuSE 10.2 на новый CentOS 7 (время между релизами - 7 лет) мы столкнулись с рядом проблем - необъяснимый свопинг и запуски OOM killer, неравномерное распределение нагрузки по ядрам, обрывы соединений, скачки системной нагрузки на CPU.
В докладе будет рассказано о том, как мы боролись с этими проблемами и какие технологии для этого использовали.
Highload на GPU, опыт Vinci / Олег Илларионов (ВКонтакте)OnticoVinci - это второе по популярности приложение в мире для обработки фотографий с помощью нейронных сетей.
Расскажу, как менее чем за месяц с нуля разработать и развернуть приложение, обработать 3 миллиона фотографий на GPU в день запуска и не упасть.
Доклад будет разделен на 3 части:
1) Менеджинг задач при работе с GPU, как найти компромисс между надежностью и максимальной производительностью.
2) Обзор инструментов, подводных камней и софта.
3) Что можно и нужно оптимизировать, какие есть дальнейшие перспективы.
Цель доклада – развеять миф, что нейросети это сложно.
Защита датацентров и данных от катастроф на базе технологий Nutanix / Максим ...Ontico* RTO - Recovery Time Objective - максимальное время, за которое все ваши бизнес-задачи должны полностью быть восстановлены в работоспособное состояние после полной катастрофы ДЦ
RPO - Recovery Point Objective - максимально приемлемый для ваших задач промежуток времени, за который вы готовы потерять данные.
* Стратегии защиты и репликации ДЦ (1 to 1, 1 to many, many to many).
далее см. - http://rootconf.ru/2015/abstracts/1817
Выступление Юрия Насретдинова, Badoo, на High Performance ConferenceEYevseyevaВыступление Юрия Насретдинова, Badoo, на #HPC 9 августа: "Деплой на тысячи серверов за 3 минуты!"
RootConf 2015Evgeny UskovСетевые аномалии – рано или поздно с ними сталкиваются все, кто так или иначе связан с созданием и эксплуатацией сетевых сервисов.
Природа сетевых аномалий и их проявления могут значительно варьироваться: потери пакетов, увеличение задержек, разрывы TCP-соединений. Но вне зависимости от своей природы сетевые аномалии требуют корректной и зачастую крайне оперативной диагностики.
В рамках доклада будут рассмотрены стандартные утилиты, такие как ping, traceroute, mtr, hping, а также области их применения. Самым значительным ограничением при использовании данных утилит является невозможность определения обратного пути пакета, что может значительно усложнить диагностику.
Также в докладе будут рассмотрены активные методы диагностики сетевых аномалий (Looking glass, RIPE Atlas, NLNOG RING, PlanetLab) и разработанный командой Qrator механизм определения обратного маршрута от любой заданной сети с использованием математического моделирования.
"Кластеры баз данных: делаем сложные вещи просто" Андрей Тихонов (Avito)AvitoTechПорой в процессе развития высоконагруженного проекта наступает момент, когда необходимо масштабирование. Возможно, ваш проект впервые упёрся в производительность железа (и таким образом перешёл в разряд высоконагруженных); возможно, это уже не первое масштабирование — не важно. Какие же проблемы могут возникнуть?
Во-первых, если вы увеличиваете количество бэкенд-серверов, и, соответственно, количество рабочих процессов, то с ростом количества одновременных клиентских подключений вырастают и накладные расходы на базах данных.
Во-вторых, достаточно быстро может кончиться ресурс in-memory баз данных. Потребуется создать (либо увеличить) кластер, а это каждый раз влечёт за собой необходимость модифицировать логику приложения.
В-третьих, чем больше серверов, тем больше вероятность, что один из них выйдет из строя. Поэтому неплохо задуматься о том, как обеспечить отказоустойчивость, а это, опять же, потребует модифицировать логику приложения.
В этом докладе я расскажу, как и какими инструментами можно легко решить все вышеперечисленные проблемы: уменьшить накладные расходы от большого количества подключений к базам данных, создать/модифицировать кластер БД прозрачно для приложения, а также прозрачно добавить устойчивость к падениям серверов БД.
Как и зачем создавать NginX-модуль — теория, практика, профит. Часть 2 / Васи...OnticoHighLoad++ 2017
Зал Дели + Калькутта, 7 ноября, 15:00
Тезисы:
http://www.highload.ru/2017/abstracts/2940.html
Почти год назад я выступил с докладом 'Как и зачем создавать NginX-модуль - теория, практика, профит'. У меня не получилось рассказать обо всех возможностях Nginx и, уверяю вас, в этом докладе у меня это тоже не получится - тема слишком большая!
Сразу перейдем к делу. "Так что нового будет в этом докладе?" - спросите вы. В нем будут ответы на вопросы, на которые я не успел ответить в прошлом году, а именно:
- Как и зачем создавать upstream-модули?
...
Максим Исаев, IBS. Практика использования комплекса Veritas NetBackup для мод...IBSМаксим Исаев, начальник отдела вычислительных платформ в компании IBS, выступил на Veritas Vision Solution Day 2016
Тюним память и сетевой стек в Linux: история перевода высоконагруженных сер...Dmitry SamsonovВ процессе обновления высоконагруженных серверов раздачи видео (40Gbit/s с каждого сервера) со старого OpenSuSE 10.2 на новый CentOS 7 (время между релизами - 7 лет) мы столкнулись с рядом проблем - необъяснимый свопинг и запуски OOM killer, неравномерное распределение нагрузки по ядрам, обрывы соединений, скачки системной нагрузки на CPU.
В докладе будет рассказано о том, как мы боролись с этими проблемами и какие технологии для этого использовали.
Selectel Meetup OpenStack GPU in CloudAlekseyStepanenkoУмножаем матрицы на CPU и GPU, пробрасываем видеоркарту внутрь ВМ, обходим возникшие проблемы, и решаем будем ли мы майнить или играть.
https://www.meetup.com/ru-RU/OpenStack-Russia-St-Petersburg/events/249005137/
Тюним память и сетевой стек в Linux: история перевода высоконагруженных серве...odnoklassniki.ruВ процессе обновления высоконагруженных серверов раздачи видео (40Gbit/s с каждого сервера) со старого OpenSuSE 10.2 на новый CentOS 7 (время между релизами - 7 лет) мы столкнулись с рядом проблем - необъяснимый свопинг и запуски OOM killer, неравномерное распределение нагрузки по ядрам, обрывы соединений, скачки системной нагрузки на CPU.
В докладе будет рассказано о том, как мы боролись с этими проблемами и какие технологии для этого использовали.
Highload на GPU, опыт Vinci / Олег Илларионов (ВКонтакте)OnticoVinci - это второе по популярности приложение в мире для обработки фотографий с помощью нейронных сетей.
Расскажу, как менее чем за месяц с нуля разработать и развернуть приложение, обработать 3 миллиона фотографий на GPU в день запуска и не упасть.
Доклад будет разделен на 3 части:
1) Менеджинг задач при работе с GPU, как найти компромисс между надежностью и максимальной производительностью.
2) Обзор инструментов, подводных камней и софта.
3) Что можно и нужно оптимизировать, какие есть дальнейшие перспективы.
Цель доклада – развеять миф, что нейросети это сложно.
Защита датацентров и данных от катастроф на базе технологий Nutanix / Максим ...Ontico* RTO - Recovery Time Objective - максимальное время, за которое все ваши бизнес-задачи должны полностью быть восстановлены в работоспособное состояние после полной катастрофы ДЦ
RPO - Recovery Point Objective - максимально приемлемый для ваших задач промежуток времени, за который вы готовы потерять данные.
* Стратегии защиты и репликации ДЦ (1 to 1, 1 to many, many to many).
далее см. - http://rootconf.ru/2015/abstracts/1817
Выступление Юрия Насретдинова, Badoo, на High Performance ConferenceEYevseyevaВыступление Юрия Насретдинова, Badoo, на #HPC 9 августа: "Деплой на тысячи серверов за 3 минуты!"
RootConf 2015Evgeny UskovСетевые аномалии – рано или поздно с ними сталкиваются все, кто так или иначе связан с созданием и эксплуатацией сетевых сервисов.
Природа сетевых аномалий и их проявления могут значительно варьироваться: потери пакетов, увеличение задержек, разрывы TCP-соединений. Но вне зависимости от своей природы сетевые аномалии требуют корректной и зачастую крайне оперативной диагностики.
В рамках доклада будут рассмотрены стандартные утилиты, такие как ping, traceroute, mtr, hping, а также области их применения. Самым значительным ограничением при использовании данных утилит является невозможность определения обратного пути пакета, что может значительно усложнить диагностику.
Также в докладе будут рассмотрены активные методы диагностики сетевых аномалий (Looking glass, RIPE Atlas, NLNOG RING, PlanetLab) и разработанный командой Qrator механизм определения обратного маршрута от любой заданной сети с использованием математического моделирования.
"Кластеры баз данных: делаем сложные вещи просто" Андрей Тихонов (Avito)AvitoTechПорой в процессе развития высоконагруженного проекта наступает момент, когда необходимо масштабирование. Возможно, ваш проект впервые упёрся в производительность железа (и таким образом перешёл в разряд высоконагруженных); возможно, это уже не первое масштабирование — не важно. Какие же проблемы могут возникнуть?
Во-первых, если вы увеличиваете количество бэкенд-серверов, и, соответственно, количество рабочих процессов, то с ростом количества одновременных клиентских подключений вырастают и накладные расходы на базах данных.
Во-вторых, достаточно быстро может кончиться ресурс in-memory баз данных. Потребуется создать (либо увеличить) кластер, а это каждый раз влечёт за собой необходимость модифицировать логику приложения.
В-третьих, чем больше серверов, тем больше вероятность, что один из них выйдет из строя. Поэтому неплохо задуматься о том, как обеспечить отказоустойчивость, а это, опять же, потребует модифицировать логику приложения.
В этом докладе я расскажу, как и какими инструментами можно легко решить все вышеперечисленные проблемы: уменьшить накладные расходы от большого количества подключений к базам данных, создать/модифицировать кластер БД прозрачно для приложения, а также прозрачно добавить устойчивость к падениям серверов БД.
Как и зачем создавать NginX-модуль — теория, практика, профит. Часть 2 / Васи...OnticoHighLoad++ 2017
Зал Дели + Калькутта, 7 ноября, 15:00
Тезисы:
http://www.highload.ru/2017/abstracts/2940.html
Почти год назад я выступил с докладом 'Как и зачем создавать NginX-модуль - теория, практика, профит'. У меня не получилось рассказать обо всех возможностях Nginx и, уверяю вас, в этом докладе у меня это тоже не получится - тема слишком большая!
Сразу перейдем к делу. "Так что нового будет в этом докладе?" - спросите вы. В нем будут ответы на вопросы, на которые я не успел ответить в прошлом году, а именно:
- Как и зачем создавать upstream-модули?
...
Максим Исаев, IBS. Практика использования комплекса Veritas NetBackup для мод...IBSМаксим Исаев, начальник отдела вычислительных платформ в компании IBS, выступил на Veritas Vision Solution Day 2016
Тюним память и сетевой стек в Linux: история перевода высоконагруженных сер...Dmitry SamsonovВ процессе обновления высоконагруженных серверов раздачи видео (40Gbit/s с каждого сервера) со старого OpenSuSE 10.2 на новый CentOS 7 (время между релизами - 7 лет) мы столкнулись с рядом проблем - необъяснимый свопинг и запуски OOM killer, неравномерное распределение нагрузки по ядрам, обрывы соединений, скачки системной нагрузки на CPU.
В докладе будет рассказано о том, как мы боролись с этими проблемами и какие технологии для этого использовали.
Selectel Meetup OpenStack GPU in CloudAlekseyStepanenkoУмножаем матрицы на CPU и GPU, пробрасываем видеоркарту внутрь ВМ, обходим возникшие проблемы, и решаем будем ли мы майнить или играть.
https://www.meetup.com/ru-RU/OpenStack-Russia-St-Petersburg/events/249005137/
NVMf: 5 млн IOPS по сети своими руками / Андрей Николаенко (IBS)OnticoВ выпуске 4.8 ядра Linux появилась поддержка NVMf (NVM Express over Fabrics) — стандартизованной возможности присоединять по сети как блочные устройства твердотельные накопители, установленные в разъёмы PCI Express. NVMf лишён многих недостатков iSCSI, повторяющего по сети SCSI-команды со всеми их издержками времён дисковых накопителей, и главное — позволяет по полной использовать возможности сетей с прямым доступом к оперативной памяти (RDMA). Таким образом, можно под управлением одного узла собрать сверхбыстрый и сверхотзывчивый пул блочных устройств, не прибегая к покупке дорогого флэш-массива. Но как воспользоваться этим пулом, не загубив теоретические показатели программными обёртками?
В докладе будут рассмотрены варианты применения NVMf для различных конфигураций PostgreSQL, Oracle Database, Hadoop, файловых хранилищ, о разработках в направлении «программно-определяемой памяти» с применением NVMe-устройств, доступных по сети, обсуждены текущие проблемы, ограничения и перспективы. Особое внимание будет уделено практическим способам измерения производительности ввода-вывода с учётом задачи, решаемой подсистемой хранения.
Контейнеры в OpenStack: простое решение сложных проблемYandexВ настоящее время в OpenStack есть хорошая поддержка гипервизорной виртуализации, но пока нет работающего решения для использования контейнеров. Я расскажу, почему так получилось, сравню гипервизорную и контейнерную технологии в контексте OpenStack и рассмотрю, насколько проще будет выполнять некоторые операции в OpenStack при использовании контейнеров, а также какие новые возможности появятся в OpenStack при использовании этого типа виртуализации.
Контейнеры в OpenStack: простое решение сложных проблемOpenVZКонтейнеры в OpenStack: простое решение сложных проблем.
В настоящее время в OpenStack есть хорошая поддержка гипервизорной виртуализации, но пока нет работающего решения для использования контейнеров. Я расскажу, почему так получилось, сравню гипервизорную и контейнерную технологии в контексте OpenStack и рассмотрю, насколько проще будет выполнять некоторые операции в OpenStack при использовании контейнеров, а также какие новые возможности появятся в OpenStack при использовании этого типа виртуализации.
Тюним память и сетевой стек в Linux: история перевода высоконагруженных серве...OnticoВ процессе обновления высоконагруженных серверов раздачи видео (40Gbit/s с каждого сервера) со старого OpenSuSE 10.2 на новый CentOS 7 (время между релизами — 7 лет) мы столкнулись с рядом проблем — необъяснимый свопинг и запуски OOM killer, неравномерное распределение нагрузки по ядрам, обрывы соединений, скачки системной нагрузки на CPU.
В докладе будет рассказано о том, как мы боролись с этими проблемами и какие технологии для этого использовали.
Обзор новых моделей EMC VNXКРОКВебинар «EMC VNX: преображение во флеш» http://www.croc.ru/action/detail/23755/
Презентация Александра Овчинникова, эксперта группы внедрения и эксплуатации СХД компании КРОК
История небольшого успеха с PostgreSQL – Владимир БородинYandexВ докладе речь пойдёт о том, как в Яндекс.Почту для хранения метаданных сборщиков внедрили PostgreSQL. Владимир расскажет, зачем и почему это сделали и каким образом решили масштабироваться. А также о репликации и средствах обеспечения отказоустойчивости, о возникших проблемах и способах их решения.
4. Основные показатели CPU со стороны ВМ
Установленные VMware tools
портируют показатели с хоста внутрь
виртуальной машины:
1) CPU stolen time
2) % Processor Time
5. Варианты нагрузки на ВМ
READY – Time that the virtual machine was ready, but could not get scheduled to run on the physical CPU during last measurement interval
COSTOP – Time the virtual machine is ready to run, but is unable to run due to co-scheduling constraints
Без
лимитов
одним 7z
Внутри ВМ
Запущен
еще один
7z
Лимит в
30GHz
Лимит в
23GHz
Внутри ВМ
выключен
второй 7z
6. Рекомендации
• Совместимое железо и прошивки
• Настройки BIOS
включение VT-X, HT;
отключить Numa node interleaving или включить Enable NUMA. ESXi – Numa-
awared OS;
отключить все неиспользуемые устройсва для высвобождения прерываний;
Power-Saving – OS Contolled Mode/Best performance.
• Настройки ВМ
начинать с минимума;
принимать во внимание NUMA ноды;
VMware Tools.
7. NUMA
NUMA (Non-Uniform Memory Access) – «неравномерный доступ к памяти» – схема реализации памяти,
используемая в мультипроцессорных системах, когда время доступа к памяти определяется её
расположением по отношению к процессору.
vNUMA (Virtual NUMA) – способность гипервизора экспортировать в виртуальную машину данные о
NUMA физического сервера
8. vNUMA
Топология vNUMA состоит из:
1) VPD Virtual Proximity Domain или виртуальный домен родства;
2) PPD Physical Proximity Domain или физический домен родства.
VPD виден из виртуальной машины, PPD – это физические NUMA-узлы.
9. Пример ВМ, разделенной на 2 PPD
esxtop – switch to M – f for advanced options – G for NUMA information
cat vmware.log | grep NUMA
10. Пример ВМ, разделенной на 2 PPD
esxtop – switch to M – f for advanced options – G for NUMA information
cat vmware.log | grep NUMA
11. Правила vNUMA
• Не трогайте то, что по дефолту, если не понимаете о чем речь.
• Всегда выставляйте 1 ядро-сокет до момента, пока ЦПУ меньше, чем
ядер в сокете хоста, и памяти меньше половины.
• Если необходимо больше процессоров или памяти, делите количество
ядер на минимальное число нод NUMA.
• Не устанавливайте нечетное количество процессоров, если превышаем
ноду.
• При включении hot add CPU отключается vNUMA.
• Живите в рамках физических ядер.
13. Показатели тестирования 7zip
Вариант теста Hot-add CPU ON/vNUMA off Hot-add CPU OFF/vNUMA on
7zip Benchmark 20 Cores 34027 MIPS/30561 MIPS 40548 MIPS/ 41645 MIPS
7zip Benchmark 10 Cores 44555 MIPS 43769 MIPS
• В случае 20 ядер при включении Hot Add отключается vNUMA – падение
производительности.
• В случае 10 ядер включение Hot Add не влияет на производительность.
• В случае 10 ядер – производительность сжатия выше, чем при 20 ядрах. С
учетом работы в рамках одной квоты.
14. На почитать
• vSphere Troubleshooting - VMware Docs
• Virtual Machine vCPU and vNUMA Rightsizing
• vSphere Monitoring and Performance - VMware Docs
• Performance Best Practices for vSphere 6.5 - VMware
• Decoupling of Cores per Socket from Virtual NUMA Topology in
vSphere 6.5