Особенности извлечения знаний из текстов. Часть 1.

Источник: synsysbiz

Вязгина Елена

Лингвистический процессор Semantix предназначен для областей, где требуется автоматическая формализация потоков текстов на естественном языке: резюме, сообщения СМИ, информационно-рекламные материалы, почтовые сообщения, сводки происшествий, справки по уголовным делам, архивные материалы и др. Из текстов (документов) извлекаются интересующие пользователя объекты, их свойства и связи. Представляются факты участия объектов в действиях. Последние сами рассматриваются как комплексные объекты с их свойствами и связями. В результате на основе каждого документа строится специального вида семантическая сеть, отражающая его семантическую структуру. Такие сети отображаются на XML-файлы, которые служат для организации Баз Знаний, соответствующих семантических поисков, для решения логико-аналитических задач, а также для заполнения реляционнных БД.

Исследования ведущих аналитиков показывает, что совокупный объем цифровой информации в 2006 году составил 161 миллионов гигабайт. Предполагается, что за период с 2006 по 2010 год объем информации увеличится более чем в шесть раз. В более чем 80% случаев такая информация является неструктурированной - это тексты естественного языка. Человеку становится все труднее ориентироваться в потоках поступающей информации. В связи с этим при обработке информации требуются новые инновационные подходы, ориентированные на задачи конкретных пользователей.

Следует учитывать, что большая категория пользователей имеют определенные служебные обязанности, и соответственно, постоянные интересы. Им необходима вполне конкретная информация. Например, сотрудники информационно-аналитических подразделений выбирают из СМИ информацию об интересующих их событиях, катастрофах, террористических актах, персоналиях и др. Следователю важны фигуранты, места их жительства, телефоны, криминальные события, даты и др. Сотруднику кадровой службы нужно знать организации, где, кем и в какое время кандидат работал. Подобная информация называется информационными объектами или просто объектами [1,2,10]. Объекты различаются по типам. Каждая из перечисленных категорий пользователей интересуется набором объектов определенного типа. Находить нужные объекты в потоке текстов, читая их, во многих областях - непосильный труд.

Для обеспечения подобных пользователей нужной информацией требуются средства автоматического извлечения объектов из текстов с их представлением в формах, удобных для восприятия или последующей обработки. Речь идет об автоматической формализации текстов, связанной с извлечением знаний (Knowledge Extraction). Это проблемная область, которая находится в сфере внимания исследователей. Ее актуальность постоянно растет [3,4,5]. Для этой цели на протяжении последних 15 лет в рамках проектов ИПИ РАН разрабатывались семантико-ориентированные лингвистические процессоры [6,7]. Их научная база: расширенные семантические сети (РСС), методики представления сложных видов знаний, инструментальная среда ДЕКЛ обработки структур знаний, сетевые позиционные грамматики, онтологии, морфологический анализ на основе обобщенных окончаний [1,2,14]. Последний вариант такого процессора, изготовленного совместно с ЗАО <Синергетические Системы> в виде модуля SDK, получил название Semantix .

Продолжение следует.