Особенности извлечения знаний из текстов. Часть 3.

Вязгина Елена

2. Выделяемые объекты и связи.

Набор выделяемых объектов зависит от задач пользователя. В тоже время, качество лингвистического процесора в значительной степени определяется возможностями такого выделения. Ниже перечислены основные типы информационных объектов и связей, извлекаемые Semantix:

- лица (по ФИО) с их особенностями (потерпевший, террорист и др.)

- адреса, почтовые атрибуты

- организации

- должности

- террористические группы, ОПГ

- номера телефонов, факсов, электронных постовых адресов с их стандартизацией

- средства транспорта с выделением марки машины, государственного

номера, цвета и других атрибутов

- количественные характеристики (сколько лиц или других объектов принимали участие в том или ином событии)

- паспортные данные и другие документы с их атрибутами

- взрывчатые вещества

- наркотические вещества

- оружие с атрибутами

- словесное описание лиц, их приметы

- номера счетов, суммы денег с указанием типа валюты

- события (криминальные, террористические, поломки изделий и др.) с указанием участия в них информационных объектов

- время и место событий

- связи между различными типами информационных объектов, включая комплексные объекты (действия или события)

- другие объекты (опыт работы, знание языков ... до 40 типов).

На рис.1 представлено графическое изображение этих объектов в ДЕМО-версии . (ДЕМО-версия в сети Интернет находится на сайте www.semantix4you.com.

Рис.1. Набор выделяемых объектов процессором Semantix.

При выделении объектов учитываются возможные варианты называния объекта в тексте, в том числе, в краткой форме. Типовые объекты (ФИО, даты, адреса, должности и др.) приводятся к одному (стандартному) виду. Осуществляется идентификация объектов с учетом кратких наименований (например, отдельных фамилий или имен с ФИО), анафорических ссылок (указательных и личных местоимений, например, " Этот человек", "Он ..." ), определений (например, "Мэр Москвы Лужков" идентифицируется с последующими словами " мэр", "Лужков ").

В результате строится РСС, называемая содержательным портретом документа . При этом учитываются особенности ЕЯ, где с помощью глаголов, отглагольных существительных и причастных оборотов задаются одни и те же действия. При представлении на РСС они приводятся к одному виду - комплексному объекту. Более того, формы с отглагольными существительными могут быть компонентами глагольных форм. Аналогично, в РСС одни объекты могут быть компонентами других. Представляются причино-следственные и временные зависимости между действиями, событиями, которые отражают логическую связь предложений, заданную в явном виде - с помощью слов типа поэтому, затем и др. Пример содержательного портрета, изображенного в виде графа, представлен на Рис.2.

Рис.2. Графическое представление содержательного портрета документа.

На данном примере видно, что фигурант Агджа Мехмет Али во многих случаях задается его именем Агджа и в результате идентификации имеет много связей. С помощью эллипсов изображаются действия, которые связываются с предложениями.


Страница сайта http://185.71.96.61
Оригинал находится по адресу http://185.71.96.61/home.asp?artId=9914