Цифровая эра требует высоких скоростей. Успевает ли за временем ваше хранилище данных? Ниже перечислены шесть основных качеств, которыми должна обладать такая платформа.
1 of 8
Download to read offline
More Related Content
Шесть важнейших качеств платформы для анализа Больших данных
1. Шесть важнейших качеств
платформы для анализа
Больших данных
Цифровая эра требует высоких скоростей.
Успевает ли за временем ваше хранилище данных?
Брошюра
2. Брошюра Стр. 2
Краткий обзор
Существующие во многих организациях аналитические решения
уже не справляются с растущими объемами данных. Согласно результатам
недавних исследований Hewlett Packard Enterprise, 66 % респондентов
полагают, что имеющиеся у них системы не способны анализировать нужные
объемы данных; по мнению 65 % опрошенных, запросы обрабатываются
слишком медленно или вызывают сбой; 43 % считают, что существующее
решение исчерпало свои возможности1
. При этом оперативный
и качественный анализ данных требуется все чаще.
Вы прекрасно понимаете, чем это грозит. Стремительный рост затрат
и сложности в управлении устаревшим хранилищем данных изматывают
компанию и приближают ее коллапс. В то же время модернизация
аналитической платформы Больших данных открывает новые источники
дохода — это возможность монетизировать данные, повысить лояльность
клиентов, оптимизировать трафик и обеспечить соответствие
законодательным нормам.
Правильно подобранная и установленная платформа для анализа Больших
данных усилит ваши конкурентные преимущества и поможет добиться
блестящих результатов. Как же выбрать оптимальную архитектуру
аналитики, обладающую необходимым запасом прочности, не наносящую урон
даже скромному бюджету и требующую минимальной адаптации процессов и
подходов?
Ниже перечислены шесть основных качеств, которыми должна обладать
такая платформа. Возможно, наши советы покажутся вам неожиданными
и заставят задуматься: следует учитывать не только количество данных и
глубину аналитики, но и производительность системы. Цифровая эра требует
высоких скоростей. Новая платформа должна ускорить извлечение полезных
сведений из массивов данных — ведь эти сведения помогут оптимизировать
процессы и быстрее получать желаемые результаты. Другими словами, будущее
принадлежит быстрому бизнесу.
Содержание
2 Краткий обзор
3 Ключевые требования
к платформе аналитики
Больших данных
3 #1: Максимальное
быстродействие
4 #2: Способность вмещать
огромные объемы данных
4 #3: Совместимость с
имеющимися инструментами
5 #4: Опора на Hadoop и
повышение эффективности
этой платформы
6 #5: Оказание помощи
аналитикам
6 #6: Наличие функций
расширенной аналитики
7 HPE Vertica: уникальная
по эффективности
платформа аналитики
Больших данных
8 Подробнее о HPE Vertica
1
Исследование TechValidate, декабрь
2015 г.
3. Брошюра Стр. 3
Ключевые требования к платформе для анализа
Больших данных
Очевидно, что выбранная вами платформа должна отвечать широкому спектру
требований. Вот шесть главных критериев.
#1: Максимальное быстродействие
Раз уж мы заговорили о современных скоростях, важно понять, что это означает
применительно к аналитической платформе Больших данных. Если совсем
коротко: пользователь, сделавший запрос, не должен ждать результата. Ответ
должен выдаваться моментально, с нужным качеством и без замедления других
процессов. Платформа должна обеспечивать высокую производительность
существующих приложений, позволять разрабатывать новые аналитические
алгоритмы, а также легко масштабироваться — понятно, предсказуемо и с
разумными затратами.
Выполнение этих требований предполагает использование колоночной
архитектуры СУБД (вместо традиционной строчной, не поддерживающей
параллельную обработку запросов) и технологии массивно-параллельной
обработки данных (МРР). Почему именно их? Колоночная архитектура
минимизирует нагрузку на каналы ввода-вывода (именно эта нагрузка чаще всего
снижает скорость обработки данных) и, кроме того, обеспечивает максимальные
возможности сжатия — вчетверо или даже впятеро сильнее, чем строчная
СУБД. А хранилища данных MPP обычно масштабируются линейно: при
удвоении дискового пространства двухузлового хранилища удваивается и его
производительность.
Сочетание колоночного дизайна и МРР не только обеспечивает мощное
масштабирование производительности (в 100–1000 раз), но и позволяет
устанавливать более низкие и прозрачные тарифы, например потерабайтный
(вместо традиционной оплаты по числу процессоров, узлов или пользователей).
Каков же конечный результат? Значительное увеличение производительности и
возможность снижения общей стоимости анализа Больших данных.
«Более 75 %
отраслевых
лидеров внедрили
у себя колоночные
базы данных», —
Aberdeen Group
0
10
20
30
40
50
60
70
80
Процентреспондентов
Колоночная база данных
Отраслевые лидеры76 %
37 %
28 %
57 %
25 % 23 %
54 %
30 %
14 %
Аналитика в режиме
реального времени
Середняки
Предиктивная/
расширенная
аналитика
Отстающие
Рисунок 1. Степень проникновения ключевых характеристик платформ для
анализа Больших данных: Aberdeen Group2
4. Брошюра Стр. 4
#2: Способность вмещать и обрабатывать огромные объемы данных
Конечно, сама по себе скорость работы мало что дает: такая аналитическая
платформа должна хранить и контролировать максимальные объемы
данных. Сегодня речь пойдет о гигабайтах или терабайтах, но завтра вам уже
понадобятся петабайты.
Массовый параллелизм — идеальная технология для масштабирования
аналитической обработки данных: она задействует и системы хранения,
и вычислительные возможности сразу нескольких компьютеров — целого
кластера. Масштабировать можно не только производительность, но и
способность системы обрабатывать огромные потоки входящих данных. К
тому же использование технологии МРР в платформе, рассчитанной на работу
со структурированными Большими данными, способствует ускоренному
выполнению аналитических процессов: структурированные данные
оптимизированы для аналитики, поэтому в них проще найти необходимую
информацию, при этом точность поиска возрастает.
СУБД, предназначенные для работы с неструктурированными данными, не
всегда можно масштабировать до размеров, доступных для колоночных СУБД,
рассчитанных на структурированную информацию. Тем не менее, платформы
аналитики Больших данных могут содержать функции, повышающие
масштабируемость и быстродействие даже неструктурированных СУБД.
#3: Совместимость с имеющимися инструментами
Если вы уже используете программные продукты для извлечения, передачи
и загрузки (ETL) данных (например, Attunity, Informatica, Syncsort, Talend,
Pentaho) или решения для визуализации на базе SQL (Logi Analytics,
Looker, MicroStrategy, Qlik, Tableau, Talena), убедитесь, что ваша платформа
сертифицирована для работы со всеми этими инструментами, а не только с
основными. Кроме того, удостоверьтесь, что и другие средства и технологии
соответствуют новейшей (SQL 2011) версии стандарта ANSI SQL.
5. Брошюра Стр. 5
#4: Опора на Hadoop и повышение эффективности этой платформы
Hadoop — программная платформа с открытым кодом, разработанная
компанией Apache Software Foundation, — стала самым мощным игроком
на рынке аналитики Больших данных. Многие профессионалы считают, что
именно с помощью Hadoop удастся расширить аналитические возможности их
хранилищ данных. К сожалению, производительность Hadoop при обработке
конкретных запросов и использовании SQL-аналитики зачастую оказывается
намного ниже, чем производительность колоночной платформы с МРР,
применяемой для анализа Больших данных. Кроме того, поддержка на Hadoop
запросов, применяемых обычно к хранилищам данных, требует овладения
новыми навыками, приобретения нового программного обеспечения, а во
многих случаях и найма новых сотрудников.
С другой стороны, Hadoop при обработке аналитических запросов
предоставляет ряд очевидных преимуществ. Создавая озера данных,
эта платформа позволяет снижать затраты, реализуя несколько уровней
хранения данных (редко используемая информация размещается отдельно
от той, что запрашивается часто). Hadoop помогает исследовать данные и
определять их ценность для бизнеса. С помощью ETL-инструментов она
может агрегировать и подчищать данные, поступающие в организацию.
Hadoop позволяет загружать, хранить и обрабатывать структурированные,
полуструктурированные и мультиструктурированные данные, причем с
небольшими затратами. Реляционная СУБД на такое не способна.
Вам может потребоваться все сразу: воспользоваться плюсами Hadoop
и избежать снижения производительности и возможных сбоев, то есть
аналитическая платформа должна обеспечивать использование Hadoop
в качестве экономичного решения, чтобы долго хранить данные и
легко управлять ими, ускорив при этом выполнение как обычных, так и
аналитических запросов к хранилищу данных.
6. Брошюра Стр. 6
#5: Оказание помощи аналитикам
Компании уделяют все более серьезное внимание работе специалистов
по исследованию данных, включая их в штат своих ИТ-подразделений,
и платформа для анализа Больших данных призвана помочь им в двух
ключевых областях. Во-первых, новое поколение специалистов по данным
применяет для предиктивной аналитики такие инструменты, как Java, Python
и R. Аналитическая СУБД, с которой они работают, должна поддерживать и
ускорять выполнение таких запросов предиктивной аналитики.
В-вторых, с ее помощью работа аналитика увязывается с бизнес-целями. В
наши дни аналитик обычно начинает свою карьеру с должности специалиста
по статистической обработке, плохо разбирающегося в стратегических целях
бизнеса. Поскольку из-за этого его выводы могут быть неполными, неточными
или нерелевантными с точки зрения бизнес-результатов, сотрудники профильных
подразделений прибегают к помощи таких специалистов только в особых
случаях. Быстрая, эффективная, удобная и широко используемая платформа
для анализа Больших данных позволит решить извечную проблему непонимания
между бизнесом и ИТ.
#6: Наличие функций расширенной аналитики
В ряде случаев требуется углубленное знание функций аналитики SQL,
встроенных в ваше решение для работы с Большими данными. Вы должны
понимать, какую именно аналитику SQL можно применять к конкретным
массивам данных, чтобы получить адекватные результаты.
Например, если необходимо проанализировать данные, поступающие от
устройств (скажем, Интернета вещей), вам понадобятся такие функции,
как анализ временных рядов или анализ разрывов. В случае их отсутствия
придется потратить время на подготовку данных или написание специального
кода.
Для многих организаций все большее значение приобретает предиктивный
анализ. Платформа для анализа Больших данных должна не только мгновенно
подготавливать и загружать информацию, но и строить предиктивные модели
и продвинутые алгоритмы и затем развертывать их, чтобы использовать для
подсчетов с применением средств СУБД.
Эти и другие функции позволят ускорить масштабируемые в широком
диапазоне возможности машинного обучения, статистического анализа и
построения диаграмм, а аналитики смогут при этом использовать привычные
статистические пакеты и языки.
7. Брошюра Стр. 7
HPE Vertica: уникальная по эффективности
платформа для анализа Больших данных
HPE Vertica — едва ли не единственное решение, отвечающее всем
перечисленным критериям. Эта платформа гарантирует скорость,
масштабируемость, удобство использования, а также открытость, отвечающие
практически всем требованиям к аналитическим системам, которые выдвигает
современный бизнес. Она обеспечивает непревзойденную скорость (выполнение
запросов в 50–1000 раз быстрее традиционных СУБД), масштабируемость
до петабайт (хранит на каждом из серверов в 10–30 раз больше данных, чем
традиционные СУБД), открытость и простоту (можно использовать любые
средства BI и ETL, а также Hadoop) — и всё это с гораздо более низкими
затратами, чем при использовании традиционных хранилищ данных.
Не менее важно и то, что HPE Vertica — не точечное решение, а полноценная
аналитическая платформа. Она предоставляет широкий спектр возможностей —
например, консоль управления для отслеживания работы кластеров Vertica, на
которой отображаются схема кластера, его узлы, состояние сети и подробные
диаграммы. Для аварийного восстановления поврежденной или неполной
базы данных или отдельных ее объектов можно применять полное резервное
копирование. Эти и другие функции, которые при использовании менее зрелого
решения пришлось бы собирать по отдельности, включены в нашу платформу
изначально.
HPE Vertica дополняет и расширяет
возможности Hadoop. Это экономичный
масштабируемый инструмент
традиционной и расширенной
аналитики, а также расширяемая
платформа для управления данными,
помогающая извлечь максимум выгоды
из Hadoop и других современных
решений.
HPE Vertica может отправлять прямые
запросы к данным, хранящимся в Hadoop.