![]() |
Особенности извлечения знаний из текстов. Часть 5.Источник: synsysbiz Вязгина Елена
4. Предметные области. Настройка на предметную область осуществляется при наличии соответствующего корпуса текстов путем разработки лингвистических знаний (ЛЗ), определяющих набор выделяемых объектов и связей. У коллектива разработчиков имеется большой опыт настройки на различные предметные области и корпуса текстов - для русского и английского языков, см. рис.3. Результатом являются отлаженные правила ЛЗ, обеспечивающие выделение большого количества разнотипных объектов (до 40 типов). Рис.3. Предметные области, на которые настроен процессор Semantix: Рассмомтим эти области более подробно: 4.1. Документы о терроризме на русском языке . Анализ документов, в которых речь идет о террористических актах и группах. Обеспечиваетя выделение до 40 типов объектов, их связей и степень участия в криминальных действиях. 4.2. Документы о террористах на английском языке . Выделяются руководящие и другие лица, должности, организации, террористические группы, орудия преступления, время и место событий и т.д., а также связи и участие в действиях. 4.3. Сводки происшествий . Обеспечивается выделение фигурантов, их связей, организаций, дат, документов, номеров счетов, оружия ... (до 40 типов объектов) с указанием их участия в криминальных действиях 4.4. Обвинительные заключения , справки по уголовным делам. Объекты идентифицируются по всему полю текста. Выявляются их связи и криминальные действия. 4.5. Правительственные сообщения , СМИ. Выделяются лица, даты, организации, должности и другая значимая информация, а также связи и участие в действиях. 4.6 . Автобиографии на русском языке . Из русскоязычных резюме выделяются все атрибуты человека, периоды времени и место его работы, учебы, знание языков и т.д. 4.7. Автобиографии на английском языке . Из англоязычных резюме выделяются все атрибуты человека (см.п. 3.6.). 4.8. Документы СМИ на английском . Из англоязычных текстов выделяются упомянутые в СМИ лица, должности, организации, даты, террористические и антитеррористические группы, оружие, события, их время. место, различные связи и др. Как результат достаточно эффективного процесса настройки на различные предметные области, в Semantix имеется достаточно большой набор правил избирательного выявления из текстов разнотипных объектов. Первые правила, осуществляющие выделение дат, адресов, лиц, автотранспорта, криминальных объектов (оружие, наркотики) и др., отлаживались на корпусе текстов ГУВД г. Москвы: сводки происшествий, справки по уголовным делам, записные книжки фигурантов и др. (более 500 тыс. документов). При этом удалось добиться уникальных результатов. Коэффициент шумов удалось свести до уровня, не превышающего 1-2%, а коэффициент потерь около 1%. Далее ЛЗ были настроены на выделение объектов из автобиографий, написанных на русском языке. При этом потребовалась настройка на значительное количество объектов нового типа [13]. Соответствующие правила отлаживались на корпусе текстов, состоящих более чем из 1000 резюме. Процессор был настроен на работу с резюме на английском языке. Использовался корпус текста около 500 резюме. Следующий этап - это тексты СМИ с дополнительным выделением террористических организаций, групп, отдельных лиц, а также сил, противоборствующих терроризму. Потребовались дополнительные правила для выделения арабских ФИО, идентификации объектов и др. Правила ЛЗ отлаживались на корпусе текстов около 1000 сообщений СМИ, правительственных сообщений и материалов из других источников (документы от 2-х до 40 кб.). Далее за счет ЛЗ процессор был настроен на работу с документами СМИ на английском языке [12]. Результатом явилось большое количество отлаженных правил выделения объектов из различных текстов русского и английского языков. В рамках системы Semantix пользователю предоставляется возможность выбора этих объектов, см. Приложение. Еще раз отметим, что если пользователю не требуется анализа предложений или его не интересуют какие-либо объекты из заданного перечня, то он указывает это в соответствующем меню. В результате скорость анализа может возрасти на порядок. |