Большие данные шаг за шагом

Источник: kommersant

Максим Игнатьев

Самые разные индустрии - от розничной торговли до нефтегазовой промышленности - сталкиваются с резко возросшим объемом данных, которые может получить компания о своей деятельности. Они приходят от разных источников: отзывы о магазине в интернете, показания "умных счетчиков" у потребителей газа, GPS-координаты с каждого грузовика, и многое, многое другое. Типичный вызов сегодняшнего дня - отсутствие в компании инструментов и навыков для их анализа, поэтому внедрение аналитической системы сталкивается с целым рядом препятствий. Они вполне преодолимы, но из-за новизны данной отрасли в ней только начинают появляться разработки, снижающие "входной порог" для клиента.

Можно выделить несколько подходов, которые снижают это порог. Наиболее важны возможность "точечных" внедрений и максимальное использование уже существующих в организации IT-решений и разработок. Именно здесь будут сосредоточены усилия Pivotal, компании, совместно созданной GE, EMC и VMWare. Билл Кук (Bill Cook), директор Pivotal по операционной деятельности, описывает процесс, ради поддержки которого по сути выстроена компания: "Вы можете начать с конкретного бизнес-кейса, одного приложения, и наращивать новые сервисы с той скоростью, которая комфортна. Находите в организации процессы, трансформация которых несет значительную и измеримую пользу бизнесу и начинайте с них, преобразуя один за другим".

Под трансформацией здесь понимается выстраивание нового бизнес-процесса, в котором активно используется аналитика больших данных, например, оценка манеры вождения водителя и ежемесячная переоценка страховой премии по КАСКО. Трудностей здесь надо преодолеть немало: найти для конкретного бизнеса эффективные трансформации, построить платформу для хранения сверхбольших массивов данных и их обработки в реальном времени, а также написать приложения, поддерживающие аналитику и новый бизнес-процесс. Каждый из этих этапов можно облегчить. Для поиска сценариев эффективного приложения аналитики требуется специалист особого профиля - исследователь данных (data scientist). Это пока крайне редкая специальность, и мало у кого подобные специалисты реально есть, поэтому в Pivotal трудится целый штат исследователей, которые помогают клиенту найти жизнеспособные сценарии внедрения больших данных. "Мы не хотим быть компанией исследователей данных", - говорит Билл Кук, - "но мы содержим штат таких экспертов потому, что нужно демонстрировать клиенту, что возможно именно в его бизнесе".

Что касается следующих этапов, то для их упрощения была задумана платформа Pivotal One, максимально ускоряющая сбор технологической мозаики - в зависимости от того, что уже имеется в компании. Начинать можно с системы хранения больших данных Hadoop, построенной на ее базе аналитической платформы Greenplum, быстрой системы управления данными GemFire, системы разработки Spring, основанной на Java - все эти элементы успешно взаимодействуют с уже существующими платформами предыдущих поколений, и по мере внедрения бесшовно интегрируются друг с другом. Поскольку вычислительные нагрузки нового поколения по своей природе "облачные", но подход к виртуализации у всех компаний разный - от использования общедоступных сервисов вроде Amazon до разработки своими силами нового решения, то работать все это может на любой облачной платформе, будь то VMWare, OpenStack, Amazon Web Services или собственная разработка.

Благодаря такой "неприхотливости" Pivotal One, для компании, внедряющей систему, становится возможным быстро получить действующий бизнес-кейс, эффективность которого измерима, а порядок внедрения которого может стать образцом для масштабирования данного эксперимента в другие подразделения и бизнес-процессы корпорации.