Эффективность использования Big Data в жизненном цикле управления геологоразведочной деятельностью нефтегазовых компаний -...

Технология "Большие данные" многими в добывающей промышленности воспринимается как нечто экзотическое и не имеющее отношения к производству.

В данной статье показаны возможности использования современных средств работы с большими объемами данных с широким разнообразием их структур применительно к задачам геологоразведочной деятельности добывающих компаний. С учетом современных вызовов в России даны примеры подобных программных средств с открытым кодом. Применение средств Big Data открывает более широкие перспективы для геологоразведочной деятельности.

Одна из важнейших бизнес-задач нефтегазовой или горнодобывающей компании - восполнение минерально-сырьевой базы (МСБ) [1]. Проще говоря, обеспечение наличия запасов, достаточных для поддержания установленного компанией уровня добычи. Для восполнения МСБ проводят геологоразведочные работы.

Важнейшие бизнес-процессы в нефтегазовой компании по геологоразведочным работам (ГГР) [2], составляющие жизненный цикл ГРР (рис.1.), это:

• оценка перспективных территорий;
• формирование программы ГРР;
• управление ГРР;
• анализ результатов ГРР.

Выявление перспективных территорий

Задача выявления перспективных территорий и зон интересов компании тесно связана с обработкой огромных массивов разнородных данных. Специалисты компании должны исследовать весь огромный массив информации, часто противоречивой и неполной, и определиться - стоит ли вкладывать средства компании в изучение определенной территории, стоит ли покупать тот или иной лицензионный участок.

Для оценки всего массива данных должно быть сформировано хранилище данных. В предыдущие годы это решалось созданием хранилища в реляционной СУБД для цифровых структурированных данных, неструктурированные данные размещались в файловых директориях. РСУБД присущ один крупный недостаток - жесткая привязанность структуры хранения к структуре исходных данных. Ввиду высокой неопределенности поиска данных использование запросов SQL к жестко структурированной БД малоэффективно.

Этого недостатка лишены хранилища на основе решения NoSQL в сочетании с системой поиска. Применение баз данных "key-value" (ключ-значение) обеспечивает единое индексирование всего массива данных независимо от их структуры. Использование поискового ядра, например Apache Lucene (http://lucene.apache.org / ), в качестве связующего элемента между интересующим объектом и массивом информации предоставляет широкие возможности нахождения нужной информации в условиях большой неопределенности.

В задаче выявления перспективных территорий технология Text Mining предоставляет возможность поиска литературных источников по заданной территории и заданной тематике, поиск схожих проектов и геологических результатов, схожих идей по проведению геологоразведочных работ и т. д. Пример такого инструментария - RapidMiner (http://rapidminer.com / ) или HP IDOL. Благодаря этой технологии становятся доступными для анализа значительно большие объемы источников данных, увеличивается глубина проработки литературы, отчетности и документации за меньшее время.

На этапе формирования программы ГРР важный элемент - оптимизация этой программы по различным критериям с учетом:

• стратегических планов компании;
• имеющихся производственных ресурсов компании;
• имеющихся на рынке сервисных компаний, свободных ресурсов компаний;
• сезонных и климатических особенностей исследуемых регионов;
• финансово-экономических условий в компании;
• конъюнктуры рынка;
• геологических условий исследуемых регионов, запасов;
• ограничительные условия лицензионных соглашений и т. д.

При наличии таких разнообразных критериев наилучшим образом подходят методы эволюционных вычислений [4,5], особенно генетические алгоритмы. Многокритериальная оптимизация с применением эволюционных методов (генетических алгоритмов) хорошо решается с применением одной из технологий Big Data - средств Data Mining.

Отдельная задача - оценка рисков проектов, входящих в программу ГРР [6]. И в этой задаче технологии "Больших данных" могут оказать существенную помощь. Ведь за счет значительно более быстрой обработки, за то же время средства работы со скоринговыми (рисковыми) [7] и прогнозными моделями [8] могут просчитать значительно большее число вариантов. Такие системы как RapidMiner или Pentaho Business Analytics (http://www.pentaho.com), в сочетании с Apache Hadoop могут значительно сократить время на оценку рисков и помочь точнее сформировать программу ГРР.

На этапе управления ГРР требуется обеспечение своевременного поступления данных, контроль работ в режиме реального времени, оперативный контроль операций во время бурения. С обеспечением своевременного поступления данных отлично справляется NoSQL база данных [9] в сочетании с поисковой машиной. Через систему краулеров ("паучков") обеспечивается постоянный опрос источников данных: датчиков и АСУ ТП, баз данных, консолей операторов, потовых серверов. Данные поступают в хранилище, индексируются, классифицируются и сразу доступны для анализа, что дает существенные преимущества по сравнению с традиционными системами хранения на базе РСУБД, для которых требуется целая система загрузки данных.

Благодаря использованию Hadoop возможно обеспечение функционирования постоянно действующих моделей на производстве, а именно:

• постоянно действующих скоринговых и прогнозных моделей для управления процессами бурения, морских исследований и других рисковых операций;
• постоянно действующих прокси-моделей геологической среды.

В задачах оценки качества и полноты полученных результатов большое значение имеет глубина оценки данных, которая тесно связана с сопоставлением данных между собой. Благодаря высокой скорости поисковых запросов, можно проводить более сложные сопоставления массивов данных за меньшее время.

Активно развивается технология обработки сейсмических данных с применением Hadoop. Такие компании, как Chevron, Shell, Yandex Terra, US Seismic, успешно применяют систему распределенных вычислений на базе MapReduce и средства ее программирования Hadoop для обработки полевых сейсмических данных.

В исследовании по прогнозам нефтегазоносности и схожих задачах возможно применение средств Text Mining и Data Mining, позволяющих находить аналогии по заданным шаблонам. Другими словами, возможен поиск аналогичных геологических структур методом аналогий.

Заключение

Внедрение технологий Big Data в задачах геологоразведочной деятельности компании - процесс не одновременный. Для успешного внедрения необходима последовательность, где каждый последующий шаг опирается на результат предыдущего. На рис. 3 показан пример последовательного внедрения. Первый шаг внедрения - создание хранилища данных, где важно обеспечить интеграцию данных из существующих систем, наладить постоянное пополнение данными и обеспечение контроля качества. Второй шаг - создание системы распределенных вычислений и хранения. Третий шаг - формирование аналитической части системы.

Технологии "Больших данных", безусловно, не способны заменить существующие традиционные системы обработки, анализа и моделирования. На рис. 4 показана схема взаимодействия с существующим ИТ-ландшафтом. В то же время использование этих технологий совместно с традиционными технологиями позволяет более эффективно работать с получаемыми данными, экономить время и средства компании.

Примеры применения технологий Big Data в нефтегазовых компаниях
• Chevron использует Hadoop (IBM BigInsights) для обработки сейсмических данных

• Shell использует Hadoop в виртуальном облаке Amazon (Amazon VPC) для обработки полевой сейсмики
• Компания PointCross использует Hadoop и NoSQL

• Университет Ставангера использует Hadoop для обработки полевых геологоразведочных данных

• Компании Total , Statoil, Лукойл Оверсиз, Норвежский директорат используют ApacheHBase и Apache Lucene для обеспечения хранения данных, доступа к ним и обеспечения задач моделирования

• Halliburton Landmark использует Pentaho в качестве аналитической системы, получив премию как лучший пользователь за 2014 год (2014 Pentaho Excellence Award Winner) и как часть решения в ПО DecisionSpace.

• US Seismic использует Hadoop для глубокой обработки данных 3D-микросейсмики в стволе скважины (Microseismic Imaging) для увеличения эффективности и качества бурения.