Анализ неструктурированной информации и состояние данного сегмента российского ИТ-рынка

Источник: tadviser

На вопросы по сегменту информационных систем в сфере анализа неструктурированной информации и состоянию данного сегмента российского ИТ-рынка ответил Дмитрий Романов, генеральный директор компании "Преферентум", к.ф.-м.н., доцент НИУ ВШЭ

С какими объектами работают программные продукты, которые вы предлагаете рынку?

ДМИТРИЙ РОМАНОВ: Мы работаем с неструктурированной информацией. С одной стороны, это сложное понятие, с другой - очень простое, поскольку мы все имеем дело с неструктурированной информацией ежедневно и ежеминутно. Web-страницы, аудиозаписи, текстовая информация, видео, фото - все это примеры неструктурированной информации, распределенной по различным источникам и устройствам - смартфон, диктофон, компьютер. Вот с этим мы и работаем, пытаемся извлекать полезную информацию. Как правило, в большинстве случаев, это все-таки текст - либо в электронном виде, либо в виде графического образа. Но бывает и комбинированная информация - например, когда служба поддержки разбирает инциденты, она работает и с голосовыми звонками клиентов, и со скриншотами, и с документами.

В декабре прошлого года от Сбербанка прошла официальная информация о 3 тысячах роботов - юристов, приступивших к работе в банке. Речь идет о программных разработках, аналогичных решениям вашей компании?

ДМИТРИЙ РОМАНОВ: Я не в курсе деталей данного проекта, но могу предполагать, что в нашей продуктовой линейке имеется нечто похожее. Сегодня выявляется много направлений, где рутинную и вместе с тем довольно интеллектуальную работу человека может брать на себя информационная система. Искусственный интеллект, о котором говорилось много десятилетий, незаметно подобрался к рынку и фактически уже используется бизнесом.

Как вы оцениваете сегмент российского ИТ-рынка, на котором работаете?

ДМИТРИЙ РОМАНОВ: Сегменту российского ИТ-рынка, на котором мы работаем, немногим больше 10 лет, но он все еще молодой. На начальном этапе его становления клиентами были в основном государственные структуры, спецслужбы, силовые ведомства, которым необходимо было анализировать неструктурированную информацию и предпринимать некие действия по итогам анализа. Кстати говоря, первый пример использования анализа речевой информации спецслужбами был описан еще в романе Александра Солженицына "В круге первом", когда в телефонном разговоре отлавливалось упоминание ключевых слов. Понятно, что с того времени технологии сильно развились, а в последние несколько лет они стали еще и массово доступны, то есть получили распространение в розничном сегменте. Технология распознавания голоса, автоматические переводчики - очень многие пользуются этими технологиями посредством приложений для смартфона, причем - бесплатно. Таким образом, сегодня мы наблюдаем, с одной стороны, повышение мощности и качества работы когнитивных технологий, с другой - рост их доступности. В корпоративной среде наблюдается аналогичная ситуация, когда эти технологии уже реально могут заменять человека на тех операциях, которые человек прежде считал исключительно своей прерогативой. В силу перечисленных факторов данный сегмент ИТ-рынка переживает бурный рост, хотя объемы пока и небольшие.

О каких объемах может идти речь, по вашей оценке?

ДМИТРИЙ РОМАНОВ: Я оцениваю годовой объем российского рынка технологий анализа неструктурированной информации, в корпоративном сегменте, включая государственный, на уровне нескольких сотен миллионов рублей, точно - меньше миллиарда. Но этот сегмент, повторюсь, очень активно растет. По оценкам IDC рост международного рынка будет составлять ежегодно порядка 50%, до 2020 года включительно.

А на международном рынке какой термин применяется для обозначения сегмента технологий распознавания неструктурированной информации?

ДМИТРИЙ РОМАНОВ: Единого общепринятого термина не существует. Используется спектр различных названий, которые отражают различные аспекты и нюансы технологий, - семантические технологии, когнитивные технологии, текстовая аналитика, обработка текстов на естественном языке (Natural Language Processing, NLP), интеллектуальный поиск (Intelligence Search, IS) или интеллектуальный поиск на предприятии (Enterprise Intelligence Search, EIS), приложения, основанные на поиске (Search Based Application, SBA).

А какой термин больше всего нравится вам?

ДМИТРИЙ РОМАНОВ: Текстовая аналитика. Текст - это то, во что преобразовывается и речь, и видео, и сканы, когда мы говорим о документированной информации. В итоге все равно приходим к тексту, так или иначе.

Вернемся к теме российского рынка - сколько игроков на нем? Из числа основных вендоров… Насколько велико присутствие на рынке западных ИТ-компаний?

ДМИТРИЙ РОМАНОВ: На российском рынке работают около двадцати игроков различного размера и мощности бизнеса. Российских игроков, пожалуй, заметно больше половины, хотя такие западные компании как IBM и HPдовольно активно продвигают свои технологии распознавания неструктурированной информации.

Что можно сказать о конкурентной ситуации на рынке?

ДМИТРИЙ РОМАНОВ: Конкуренция, безусловно, присутствует. На моей памяти не бывало ситуации, чтобы в наших проектах на этапе проведения конкурса отсутствовали бы конкуренты. Но я бы не сказал, что в условиях быстро растущего рынка эта конкуренция очень жесткая.

Импортозамещение повлияло на рыночную ситуацию?

ДМИТРИЙ РОМАНОВ: Наш сегмент еще настолько незрелый, не заполненный решениями, что особого влияния, честно говоря, я не заметил. На такой ранней стадии развития рынка попросту еще нечего особенно импортозамещать. Кроме того, для отечественных решений, должен отметить, в России есть преимущество априори, вне зависимости от политики импортозамещения, и связано это преимущество с русским языком как таковым - и государственным, и языком межнационального общения.

А возникают ли задачи на стыке языков - например, русского и английского?

ДМИТРИЙ РОМАНОВ: Такие задачи возникают, и они тоже находятся в поле нашего зрения. В своих разработках мы поддерживаем такие языки как английский, украинский. В настоящее время работаем над казахским, есть планы по поддержке французского, немецкого, испанского и португальского языков.

Какие задачи хотят решать госструктуры при помощи аналитического инструментария? Что вы им предлагаете?

ДМИТРИЙ РОМАНОВ: В государственном сегменте мы работаем по нескольким направлениям, но большинство решаемых задач связано, зачастую, с обработкой нормативно-правовых актов, что само по себе не удивительно, ведь документы - основное, с чем имеют дело государственные структуры. В нашей продуктовой линейке имеется ряд разработок, связанных с проведением правовой экспертизы. В частности, мы умеем выявлять в текстах неочевидные ошибки. Например, в тексте имеется ссылка на статью закона, которая уже утратила силу или вводится некая правовая норма, которая противоречит нормам другого документа. Вручную все это отследить достаточно сложно.

По каким основным направлениям развивается продуктовая линейка компании?

ДМИТРИЙ РОМАНОВ: Основных направления три. Первое направление связано с задачей "вытаскивания" структурированной компоненты из неструктурированных данных (название организации, должность, географическая локация, адрес, телефон и др.), после чего решается ряд прикладных задач. Например, можно сравнивать справочники, очищать данные, обогащать данные одной ИС из другой. Условное название первого направления - "Преферентум Дата" или, говоря языком трехбуквенного наименования, - Named Entity Recognition, то есть распознавание именованных сущностей. Второе направление - "Преферентум Класс" - связано с методами машинного обучения, классификацией текстов или других неструктурированных объектов, выявление степени их похожести. Под машинным обучением в данном случае понимается, конечно, не обучение человека машиной, а обучение машины человеком - с тем, чтобы машина, то есть - информационная система, могла выполнять работу человека почти как человек. Продукты данной линейки востребованы при обращениях клиентов в компанию или граждан в органы власти. Система читает сообщение, "понимает" кому оно адресовано, после чего отправляет его по одному из каналов, в зависимости от содержания. Раскладка загруженных документов по папкам, поиск плагиата - десятки самых различных сценариев существует в плане использования данной технологии. Причем очень важно, что данная информационная система, построенная на технологиях машинного обучения, - самообучаемая. И третье продуктовое направление предназначено для разнообразных формальных проверок, это - "Преферентум Роботс". На этом направлении решаются задачи по рутинной проверке документов, с выдачей экспертных заключений. Например, на этапе согласования договоров, как оказалось, около 80% ошибок - простейшие: сумма цифрами не бьется с суммой прописью, неверно посчитан НДС, реквизиты контрагента не совпадают с теми, что прописаны в базе данных контрагентов, просрочена доверенность, фигурирующая в договоре, и так далее. Человек тратит массу времени на исправление простейших ошибок, забывая проверить суть договора - насколько договор выгоден, например.

В чем основная технологическая сложность разработки умных программ, способных на экспертном уровне анализировать сложную текстовую информацию? Где берете кадры?

ДМИТРИЙ РОМАНОВ: У нас нет проблем с разработкой любых программ и с кадрами. Проблема с формализацией задачи, что напрямую связано с пониманием заказчика того, чем он занимается, и нашим пониманием его проблем. Заказчик знает свои бизнес-процессы, документооборот, узкие места, риски, но ничего не знает о технологиях распознавания. Слово "нейросеть" - предел того, что он слышал о когнитивных технологиях. Мы знаем все про текстовую аналитику, но часто не представляем в деталях бизнес-процессы заказчика. Стыковка знаний заказчика с нашими знаниями и есть самое сложное.

И каким образом решается эта проблема?

ДМИТРИЙ РОМАНОВ: Мы устраиваем демонстрации наших решений на территории заказчика, обучаем специалистов основам семантических технологий, настраиваем специальные стенды, на которых представители заказчика могут опытным путем убедиться в эффективности предлагаемых нами решений.

С какими научно-исследовательскими институтами вы активно сотрудничаете в рамках создаваемых разработок?

ДМИТРИЙ РОМАНОВ: Мы сотрудничаем с НИУ ВШЭ, Институтом проблем информатики РАН, рядом других российских институтов.

А с западными?

ДМИТРИЙ РОМАНОВ: Напрямую с западными институтами мы не контактируем. В этом нет необходимости, вся информация и так публикуется в различных специализированных изданиях, циркулирует в научном сообществе. Мы отслеживаем всю информацию по своему направлению, благо - научных работ в области семантических технологий, искусственного интеллекта много.

По многим направлениям развития ИТ западные технологии и решения - флагманские, российский рынок волей - неволей ориентируется на них, так сложилось исторически. Можно ли то же самое утверждать в контексте технологий анализа неструктурированной информации?

ДМИТРИЙ РОМАНОВ: Нет, в отношении технологий анализа неструктурированной информации это не соответствует действительности. Существует очень много российских - в ту пору еще советских - разработок, выполненных еще в 70-80-е годы прошлого века, которые до сих пор задают тон в этой сфере информационных технологий. Например, - классические работы Вапника и Червоненкиса по размерности, являющиеся ключевыми для всех разработок - и в России, и в мире - в области классификации и машинного обучения. Поэтому в части текстовой аналитики, и шире - неструктурированной информации, неверно было бы утверждать, что западные технологии впереди, а мы отстаем. Есть общие проблемы, связанные с развитием науки в стране, такие же, как проблемы в плане развития физики, химии, биологии и любой другой науки.

Какие события вы отнесете к самым большим успехам компании в 2016 году?

ДМИТРИЙ РОМАНОВ: Был завершен этап проекта в МВД, где был внедрен ряд интересных решений, в частности - самообучающаяся система антикоррупционной экспертизы проектов нормативных правовых актов, использующая механизмы краудсорсинга для формирования правил проверки. Конструктор нормативных актов - еще одна внедренная в МВД система. Нажав несколько кнопок, пользователь получает на выходе грамотный текст "О внесении изменений…", написанный на правильном юридическом языке. Еще одно событие - используемые в наших продуктах NER-технологии заняли первое место на соревновании по выделению именованных сущностей (персоны, организация, географические локации), проводившемся в рамках конференции "Диалог - 2016". Экспертами было размечено более 30 тысяч новостей из Интернета, и 16 компаний-участников соревновались, кто более качественно, полно и точно выделит эту информацию. И третье достижение чисто техническое, но важное, - мы смогли существенно продвинуться в повышении точности автоматической классификации. В некоторых случаях наши системы теперь способны выдавать точность, сравнимую с человеческой, - выше 97%.

Какова технологическая платформа решений компании?

ДМИТРИЙ РОМАНОВ: Технологическая платформа решений компании полностью нашей собственной разработки. Начинали мы когда-то на платформе IBM, но столкнувшись с рядом проблем, связанных, в частности, с особенностями поддержки русского языка и общей тяжеловесностью платформы, постепенно замещали отдельные компоненты на свои. В итоге мы получили уникальный стек технологий, основанный на собственных разработках и открытых библиотеках.

Ваш прогноз основных рыночных тенденций на 2017-й и ближайший период?

ДМИТРИЙ РОМАНОВ: Думаю, 2017-й год будет годом активного роста, вовлечения новых заказчиков в практическую сферу применения анализа неструктурированной технологии в интересах бизнеса и эффективного управления. И в следующие 2 -3 года российский рынок применения когнитивных технологий по-прежнему будет расти, причем - кратно, в разы.