(495) 925-0049, ITShop интернет-магазин 229-0436, Учебный Центр 925-0049
  Главная страница Карта сайта Контакты
Поиск
Вход
Регистрация
Рассылки сайта
 
 
 
 
 

Особенности извлечения знаний из текстов. Часть 3.

Вязгина Елена

2. Выделяемые объекты и связи.

Набор выделяемых объектов зависит от задач пользователя. В тоже время, качество лингвистического процесора в значительной степени определяется возможностями такого выделения. Ниже перечислены основные типы информационных объектов и связей, извлекаемые Semantix:

- лица (по ФИО) с их особенностями (потерпевший, террорист и др.)

- адреса, почтовые атрибуты

- организации

- должности

- террористические группы, ОПГ

- номера телефонов, факсов, электронных постовых адресов с их стандартизацией

- средства транспорта с выделением марки машины, государственного

номера, цвета и других атрибутов

- количественные характеристики (сколько лиц или других объектов принимали участие в том или ином событии)

- паспортные данные и другие документы с их атрибутами

- взрывчатые вещества

- наркотические вещества

- оружие с атрибутами

- словесное описание лиц, их приметы

- номера счетов, суммы денег с указанием типа валюты

- события (криминальные, террористические, поломки изделий и др.) с указанием участия в них информационных объектов

- время и место событий

- связи между различными типами информационных объектов, включая комплексные объекты (действия или события)

- другие объекты (опыт работы, знание языков ... до 40 типов).

На рис.1 представлено графическое изображение этих объектов в ДЕМО-версии . (ДЕМО-версия в сети Интернет находится на сайте www.semantix4you.com.

Рис.1. Набор выделяемых объектов процессором Semantix.

При выделении объектов учитываются возможные варианты называния объекта в тексте, в том числе, в краткой форме. Типовые объекты (ФИО, даты, адреса, должности и др.) приводятся к одному (стандартному) виду. Осуществляется идентификация объектов с учетом кратких наименований (например, отдельных фамилий или имен с ФИО), анафорических ссылок (указательных и личных местоимений, например, " Этот человек", "Он ..." ), определений (например, "Мэр Москвы Лужков" идентифицируется с последующими словами " мэр", "Лужков ").

В результате строится РСС, называемая содержательным портретом документа . При этом учитываются особенности ЕЯ, где с помощью глаголов, отглагольных существительных и причастных оборотов задаются одни и те же действия. При представлении на РСС они приводятся к одному виду - комплексному объекту. Более того, формы с отглагольными существительными могут быть компонентами глагольных форм. Аналогично, в РСС одни объекты могут быть компонентами других. Представляются причино-следственные и временные зависимости между действиями, событиями, которые отражают логическую связь предложений, заданную в явном виде - с помощью слов типа поэтому, затем и др. Пример содержательного портрета, изображенного в виде графа, представлен на Рис.2.

Рис.2. Графическое представление содержательного портрета документа.

На данном примере видно, что фигурант Агджа Мехмет Али во многих случаях задается его именем Агджа и в результате идентификации имеет много связей. С помощью эллипсов изображаются действия, которые связываются с предложениями.

Ссылки по теме


 Распечатать »
 Правила публикации »
  Написать редактору 
 Рекомендовать » Дата публикации: 07.04.2008 
 

Магазин программного обеспечения   WWW.ITSHOP.RU
Microsoft Office для дома и учебы 2019 (лицензия ESD)
Zend Guard 1 Year Subscription
IBM RATIONAL Rose Enterprise Floating User License + Sw Subscription & Support 12 Months
SAP Crystal Reports 2008 INTL WIN NUL License
VMware Workstation 14 Player for Linux and Windows, ESD
 
Другие предложения...
 
Курсы обучения   WWW.ITSHOP.RU
 
Другие предложения...
 
Магазин сертификационных экзаменов   WWW.ITSHOP.RU
 
Другие предложения...
 
3D Принтеры | 3D Печать   WWW.ITSHOP.RU
 
Другие предложения...
 
Новости по теме
 
Рассылки Subscribe.ru
Информационные технологии: CASE, RAD, ERP, OLAP
Программирование на Microsoft Access
CASE-технологии
OS Linux для начинающих. Новости + статьи + обзоры + ссылки
СУБД Oracle "с нуля"
Мир OLAP и Business Intelligence: новости, статьи, обзоры
Мастерская программиста
 
Статьи по теме
 
Новинки каталога Download
 
Исходники
 
Документация
 
 



    
rambler's top100 Rambler's Top100