Поиск "иголки в стоге сена", или Как подготовиться к Big Data

Источник: computerraru

Анализ огромных массивов разнородных, динамично растущих данных сродни поиску иголки в стоге сена. Технологии Big Data позволяют сделать этот процесс успешным.

Каждый из нас сталкивался с ситуацией, когда приходится избавляться от накопленной, но необработанной информации. В условиях, когда скорость ее поступления превышает скорость обработки, это единственный возможный способ действий. Но всякий раз, стирая очередной документ, смутно чувствуешь опасность упустить нечто нужное и значимое. С этой же проблемой повсеместно сталкивается и бизнес. Тесно работая со многими крупными компаниями, мы видим, что им тоже приходится отказываться от долговременного хранения данных, ограничившись лишь частичной их обработкой, либо вообще не хранить и не использовать некоторые типы информации.

Однако сначала Google и Yahoo показали, что возможно создать системы для анализа данных миллионов веб-сайтов. Одновременно с этим классические системы реляционного типа в своем развитии уперлись в ограничения. И главное - компании осознали необходимость привлечь новые источники данных. В качестве ответа на эти вызовы времени с середины "нулевых" годов начали зарождаться принципиально новые подходы к обработке данных, которые дали жизнь новой концепции. В 2008 году в ряде публикаций появился термин Big Data. Тогда же возник набор критериев "3V", получивший распространение. В соответствии с ним данные относятся к Big Data, если:

имеют значительный объем (англ. - Volume), делающий их хранение в системах реляционного типа экономически неэффективным;

могут быть представлены во множествах (англ. - Variety) различных форматов, которые трудно, а иногда и невозможно эффективно обрабатывать традиционными средствами;

скорость (англ. - Velocity) поступления новых данных постоянно растет, в то время как требуется их быстрый, а зачастую и немедленный анализ.

Примеры Big Data

"Большие данные" можно встретить во многих областях. Один из хрестоматийных примеров - задача отслеживания предпочтений покупателей. От того, насколько быстро и качественно будет собран и обработан массив данных, циркулирующих в электронных средствах коммуникации, зависит жизнеспособность бренда. Другой пример - это современные устройства, оснащенные огромным количеством сенсоров и датчиков и порождающие значительный поток данных. В современном автомобиле, например, сотни разнообразных датчиков ежесекундно собирают информацию о работе систем автомобиля и об окружающей обстановке. Если эти массивы данных станут доступны на постоянной основе разработчикам, то произойдет качественный скачок в проектировании новых продуктов. Одной из самых перспективных сфер является здравоохранение. Все больше людей используют мобильные устройства для контроля своего состояния. В масштабе региона, страны или даже всего мира сбор и анализ таких данных может выявить закономерности развития болезней и эпидемий, помочь в отслеживании эффективности методов лечения и препаратов.

Все приведенные примеры соответствуют правилу "3V". Но у них есть еще один общий момент: полезные данные во всех случаях сильно "размазаны" по общему объему. Однако когда вы на основе анализа Big Data:

выявляете, что тысячи потребителей вдруг начинают высказывать одно и то же мнение;

обнаруживаете неочевидную связь между поломками устройства и особенностями эксплуатации;

узнаете, что тысячи пациентов перед сердечным приступом демонстрировали одинаковую клиническую картину,

- значит, вы нашли эту пресловутую "иголку в стоге сена". Более того, такие выводы не могли быть получены без обработки всего этого массива данных.

Технологии Big Data

Интернет-компании стали первопроходцами в разработке и использовании решений для Big Data. Упор был сделан на создание программных интерфейсов, позволявших максимально просто обрабатывать данные, распределенные по значительному числу серверов. Основой для этих разработок является модель распределенных вычислений MapReduce, представленная компанией Google. Эта модель получила свое дальнейшее развитие в рамках Open Source-проекта Apache Hadoop - наиболее популярной на сегодня реализации идеи параллельных вычислений. Технологии для работы с Big Data заинтересовали сотни компаний, которые начали пилотные проекты.

"БОЛЬШИЕ ДАННЫЕ" МОЖНО ВСТРЕТИТЬ ВО МНОГИХ ОБЛАСТЯХ. ОДИН ИЗ ХРЕСТОМАТИЙНЫХ ПРИМЕРОВ - ЗАДАЧА ОТСЛЕЖИВАНИЯ ПРЕДПОЧТЕНИЙ ПОКУПАТЕЛЕЙ

В "Борласе" мы пристально следим за этими проектами и можем констатировать, что, несмотря на успех ряда проектов, многие организации сталкиваются с проблемами, связанными с использованием решений Open Source, сложностью их развертывания и интеграции. В целом построение систем Big Data, подбор компонентов, их настройка, конфигурирование и администрирование (а речь, как правило, идет о кластерах из десятков узлов) требуют высочайшей квалификации, досконального знания продуктов и технологий. По этой же причине заинтересованные компании зачастую отказывались от реализации подобных проектов. Однако, вовремя увидев перспективный рынок, ведущие мировые поставщики ПО и оборудования предложили законченные решения по Big Data, сочетающие их собственные разработки с подходами и технологиями, разработанными на условиях Open Source. Так, корпорация Oracle, партнером которой является "Борлас", в октябре 2011 года представила оптимизированный программно-аппаратный комплекс Oracle Big Data Appliance.

Oracle Big Data Appliance

Это решение ориентировано на использование в корпоративных средах и обеспечивает высокий уровень производительности и готовности. Oracle Big Data Appliance поставляется с предварительно установленным и сконфигурированным ПО и представляет собой оптимизированный комплекс, объединяющий аппаратные и программные продукты, включая Cloudera Distribution с Apache Hadoop и Cloudera Manager, а также дистрибутив среды программирования R с открытым исходным кодом. Кроме того, комплекс Oracle Big Data Appliance, работающий под управлением операционной системы Oracle Linux, включает СУБД Oracle NoSQL Database и Oracle HotSpot Java Virtual Machine.

Аппаратная часть полной одностоечной конфигурации Oracle Big Data Appliance включает 18 серверов и содержит 864 Гбайт оперативной памяти, 216 процессорных ядер, 648 Тбайт дисковой памяти, сетевую инфраструктуру InfiniBand с пропускной способностью 40 Гбит/с и интерфейсы Ethernet с пропускной способностью 10 Гбит/с. Комплекс может масштабироваться с помощью соединения нескольких стоек в единый кластер через интерфейс InfiniBand, позволяя работать со сверхбольшими объемами данных.

Важно отметить, что Oracle Big Data Appliance - это не только система, выполняющая программы MapReduce для больших наборов данных, распределенных между многочисленными узлами. Этот комплекс изначально разработан как компонент общекорпоративного решения для управления большими объемами данных, для которого предусмотрена интеграция с Oracle Exadata, Oracle Exalytics и даже Oracle Exalogic и Oracle SPARC SuperCluster. Для этих целей предлагается продукт Oracle Big Data Connectors, который обеспечивает эффективную интеграцию Hadoop с базой данных Oracle. Важно, что он позволяет загрузить данные из Hadoop в Oracle Database, используя внутренние форматы Oracle Database.

Таким образом, в сочетании с машиной баз данных Oracle Exadata Database Machine для работы со структурированными данными и машиной Oracle Exalytics InMemory Machine для предоставления пользователям высокоскоростной аналитической среды Oracle Big Data Appliance может служить базовым компонентом комплексной аналитической инфраструктуры крупного предприятия. Решения, предлагаемые Oracle, образуют технологический комплекс для выполнения четырех этапов работы с данными: получение, подготовка, анализ и выработка/принятие решений.

Принципиально новым является последний этап, который отличает подход Oracle к Big Data. Он подразумевает сочетание специализированных инструментов обработки неструктурированных данных и инструментов, построенных на традиционных алгоритмах. По-видимому, данный подход будет наиболее жизнеспособен в кратко- и среднесрочной перспективе. Данные исследования "Бизнес-аналитика в Великобритании: от данных к сути бизнеса", проведенного компанией Aberdeen, говорят, что 93% компаний отводят структурированным данным важную или даже первостепенную роль в рамках общей инициативы Big Data. По их мнению, именно структурированные данные формируют ядро проектов, в то время как другие источники информации служат лишь дополнением к ним, расширяя границы традиционного хранилища. В этом же исследовании отмечается, что бо,льшая часть организаций для поддержки новых источников данных задействует базовые компоненты своей ИТ-инфраструктуры.

Поэтому вопрос интеграции новых решений для Big Data и уже существующих компонентов станет одним из основных (если не самым главным). Компаниям, смотрящим в будущее и не исключающим для себя использование Big Data, мы можем рекомендовать только одно - уже сейчас при развитии своей инфраструктуры опираться на решения, которые в дальнейшем могут быть встроены и в полной мере использованы для работы с Big Data.

Александр Циолковской