Особенности извлечения знаний из текстов. Часть 5.

Вязгина Елена

4. Предметные области.

Настройка на предметную область осуществляется при наличии соответствующего корпуса текстов путем разработки лингвистических знаний (ЛЗ), определяющих набор выделяемых объектов и связей. У коллектива разработчиков имеется большой опыт настройки на различные предметные области и корпуса текстов - для русского и английского языков, см. рис.3. Результатом являются отлаженные правила ЛЗ, обеспечивающие выделение большого количества разнотипных объектов (до 40 типов).

Рис.3. Предметные области, на которые настроен процессор Semantix:

Рассмомтим эти области более подробно:

4.1. Документы о терроризме на русском языке . Анализ документов, в которых речь идет о террористических актах и группах. Обеспечиваетя выделение до 40 типов объектов, их связей и степень участия в криминальных действиях.

4.2. Документы о террористах на английском языке . Выделяются руководящие и другие лица, должности, организации, террористические группы, орудия преступления, время и место событий и т.д., а также связи и участие в действиях.

4.3. Сводки происшествий . Обеспечивается выделение фигурантов, их связей, организаций, дат, документов, номеров счетов, оружия ... (до 40 типов объектов) с указанием их участия в криминальных действиях

4.4. Обвинительные заключения , справки по уголовным делам. Объекты идентифицируются по всему полю текста. Выявляются их связи и криминальные действия.

4.5. Правительственные сообщения , СМИ. Выделяются лица, даты, организации, должности и другая значимая информация, а также связи и участие в действиях.

4.6 . Автобиографии на русском языке . Из русскоязычных резюме выделяются все атрибуты человека, периоды времени и место его работы, учебы, знание языков и т.д.

4.7. Автобиографии на английском языке . Из англоязычных резюме выделяются все атрибуты человека (см.п. 3.6.).

4.8. Документы СМИ на английском . Из англоязычных текстов выделяются упомянутые в СМИ лица,

должности, организации, даты, террористические и антитеррористические группы, оружие, события, их время. место, различные связи и др.

Как результат достаточно эффективного процесса настройки на различные предметные области, в Semantix имеется достаточно большой набор правил избирательного выявления из текстов разнотипных объектов.

Первые правила, осуществляющие выделение дат, адресов, лиц, автотранспорта, криминальных объектов (оружие, наркотики) и др., отлаживались на корпусе текстов ГУВД г. Москвы: сводки происшествий, справки по уголовным делам, записные книжки фигурантов и др. (более 500 тыс. документов). При этом удалось добиться уникальных результатов. Коэффициент шумов удалось свести до уровня, не превышающего 1-2%, а коэффициент потерь около 1%.

Далее ЛЗ были настроены на выделение объектов из автобиографий, написанных на русском языке. При этом потребовалась настройка на значительное количество объектов нового типа [13]. Соответствующие правила отлаживались на корпусе текстов, состоящих более чем из 1000 резюме. Процессор был настроен на работу с резюме на английском языке. Использовался корпус текста около 500 резюме.

Следующий этап - это тексты СМИ с дополнительным выделением террористических организаций, групп, отдельных лиц, а также сил, противоборствующих терроризму. Потребовались дополнительные правила для выделения арабских ФИО, идентификации объектов и др. Правила ЛЗ отлаживались на корпусе текстов около 1000 сообщений СМИ, правительственных сообщений и материалов из других источников (документы от 2-х до 40 кб.). Далее за счет ЛЗ процессор был настроен на работу с документами СМИ на английском языке [12]. Результатом явилось большое количество отлаженных правил выделения объектов из различных текстов русского и английского языков. В рамках системы Semantix пользователю предоставляется возможность выбора этих объектов, см. Приложение. Еще раз отметим, что если пользователю не требуется анализа предложений или его не интересуют какие-либо объекты из заданного перечня, то он указывает это в соответствующем меню. В результате скорость анализа может возрасти на порядок.


Страница сайта http://185.71.96.61
Оригинал находится по адресу http://185.71.96.61/home.asp?artId=9918