(495) 925-0049, ITShop интернет-магазин 229-0436, Учебный Центр 925-0049
  Главная страница Карта сайта Контакты
Поиск
Вход
Регистрация
Рассылки сайта
 
 
 
 
 

Особенности извлечения знаний из текстов. Часть 3.

Вязгина Елена

2. Выделяемые объекты и связи.

Набор выделяемых объектов зависит от задач пользователя. В тоже время, качество лингвистического процесора в значительной степени определяется возможностями такого выделения. Ниже перечислены основные типы информационных объектов и связей, извлекаемые Semantix:

- лица (по ФИО) с их особенностями (потерпевший, террорист и др.)

- адреса, почтовые атрибуты

- организации

- должности

- террористические группы, ОПГ

- номера телефонов, факсов, электронных постовых адресов с их стандартизацией

- средства транспорта с выделением марки машины, государственного

номера, цвета и других атрибутов

- количественные характеристики (сколько лиц или других объектов принимали участие в том или ином событии)

- паспортные данные и другие документы с их атрибутами

- взрывчатые вещества

- наркотические вещества

- оружие с атрибутами

- словесное описание лиц, их приметы

- номера счетов, суммы денег с указанием типа валюты

- события (криминальные, террористические, поломки изделий и др.) с указанием участия в них информационных объектов

- время и место событий

- связи между различными типами информационных объектов, включая комплексные объекты (действия или события)

- другие объекты (опыт работы, знание языков ... до 40 типов).

На рис.1 представлено графическое изображение этих объектов в ДЕМО-версии . (ДЕМО-версия в сети Интернет находится на сайте www.semantix4you.com.

Рис.1. Набор выделяемых объектов процессором Semantix.

При выделении объектов учитываются возможные варианты называния объекта в тексте, в том числе, в краткой форме. Типовые объекты (ФИО, даты, адреса, должности и др.) приводятся к одному (стандартному) виду. Осуществляется идентификация объектов с учетом кратких наименований (например, отдельных фамилий или имен с ФИО), анафорических ссылок (указательных и личных местоимений, например, " Этот человек", "Он ..." ), определений (например, "Мэр Москвы Лужков" идентифицируется с последующими словами " мэр", "Лужков ").

В результате строится РСС, называемая содержательным портретом документа . При этом учитываются особенности ЕЯ, где с помощью глаголов, отглагольных существительных и причастных оборотов задаются одни и те же действия. При представлении на РСС они приводятся к одному виду - комплексному объекту. Более того, формы с отглагольными существительными могут быть компонентами глагольных форм. Аналогично, в РСС одни объекты могут быть компонентами других. Представляются причино-следственные и временные зависимости между действиями, событиями, которые отражают логическую связь предложений, заданную в явном виде - с помощью слов типа поэтому, затем и др. Пример содержательного портрета, изображенного в виде графа, представлен на Рис.2.

Рис.2. Графическое представление содержательного портрета документа.

На данном примере видно, что фигурант Агджа Мехмет Али во многих случаях задается его именем Агджа и в результате идентификации имеет много связей. С помощью эллипсов изображаются действия, которые связываются с предложениями.

Ссылки по теме


 Распечатать »
 Правила публикации »
  Написать редактору 
 Рекомендовать » Дата публикации: 07.04.2008 
 

Магазин программного обеспечения   WWW.ITSHOP.RU
Oracle Database Personal Edition Named User Plus Software Update License & Support
TeeChart for .NET Standard Business Edition 2017 single license
ZBrush 4R6 Win Commercial Single License ESD
YourKit Profiler for .NET - Floating License - 1 year of e-mail support and upgrades
SAP Crystal Reports XI R2 Dev 2006 INTL WIN NUL License (Version 11)
 
Другие предложения...
 
Курсы обучения   WWW.ITSHOP.RU
 
Другие предложения...
 
Магазин сертификационных экзаменов   WWW.ITSHOP.RU
 
Другие предложения...
 
3D Принтеры | 3D Печать   WWW.ITSHOP.RU
 
Другие предложения...
 
Новости по теме
 
Рассылки Subscribe.ru
Информационные технологии: CASE, RAD, ERP, OLAP
Новости ITShop.ru - ПО, книги, документация, курсы обучения
Программирование на Microsoft Access
CASE-технологии
OS Linux для начинающих. Новости + статьи + обзоры + ссылки
СУБД Oracle "с нуля"
Windows и Office: новости и советы
 
Статьи по теме
 
Новинки каталога Download
 
Исходники
 
Документация
 
 



    
rambler's top100 Rambler's Top100