Особенности извлечения знаний из текстов. Часть 4.

Вязгина Елена

3. Факторы, определяющие качество процессора

Качество лингвистического процессора определяется рядом факторов. Во-первых, это возможности выделения объектов и связей. Имеется в виду типы выделяемых объектов, их количество. Процессор Semantix выделяет до 40 типов объектов, в том числе комлексных объектов, соответствующих действиям и событиям. С увеличением количества возникают дополнительные трудности, связанные с "коллизией" правил выделения: одни правила могут захватывать слова, относящиеся к другим объектам и выделяемым другими правилами. становится важным порядок применения правил.

Выделение связей - это не только глубинный анализ глагольных и других форм. Многие связи даются по умолчанию. В процессоре Semantix для ряда объектов организован специальный поиск связанных объектов, т.е. восстановление связей, данных по умолчанию. Будем называть подобные процессы идентификацией. Такие процессы организуются, чтобы связать лицо с его местом проживания или местом работы, принадлежащим ему автотранспортом и т.д. Эти объекты могут быть в тексте на значительном расстоянии. Отсюда трудности. Требуются специальные фильтры, чтобы не захватить и не связать посторонний объект.

Во-вторых, важный фактор - это избирательность правил и процедур идентификации: коэффициент шумов и потерь. Под шумами понимается наличие лишних слов в объектах. Потери - это когда объект не выявлен или выявлен частично: в тексте есть слова, которые не вошли в объект. В процессоре Semantix правила устроены таким образом, что они обеспечивают высокую степень избирательности и минимизацию шумов и потерь при большом количестве выделяемых объектов, см. п.3.

Третий фактор - возможность и трудоемкость настройки на корпус текстов (для повышения избирательности правил выделения объектов), а также настройки на новые объекты. В связи со сложностью процессов анализа такая настройка должна осуществляться через лингвистические знания (ЛЗ). Последние должны иметь все средства для повышения избирательности правил и необходимые удобства в плане их создания и корректировки. В идеале с помощью ЛЗ должна обеспечиваться настройка на особенности языка - признаки, которые даются словам, на типовые конструкции и формы языка. Лингвистический процессор должен быть в значительной степени индифирентен к языку. Его задача - поддерживать ЛЗ, в том числе, процесс применения правил выделения идентификации.

По такому принципу организован процессор Semantix, в котором за счет ЛЗ обеспечивается анализ сложных конструкций русского языка, а также анализ англо-язычных конструкций и форм, выделение англо-язычных объектов и их связей. Другими словами, обеспечивается анализ не только русского, но и английского языка. Это говорит об универсальности процессора.

Четвертый фактор - скорость работы лингвистического процессора, т.е. время анализа текстов. Скорость определяется конструктивными особенностями процессора (средствами уменьшения переборов), а также количеством выделяемых объектов. Применение правил их выделения связано с поиском нужных слов, где требуются переборы. Чем больше объектов и правил, тем больше переборов и больше время анализа.

В процессоре Semantix имеются различные средства уменьшения переборов. Помимо программных, также имеются средства, управляемые с помощью ЛЗ. Для каждого правила указывается, какие слова следует искать для инициирования процесса его применения. Задаются допустимые контексты (слева и справа от выявляемых слов), факультативные элементы [8].Таким образом обеспечивается достаточно высокая скорость (доли секунды на 1 кб. текста) при достаточно большом количестве выделяемых объектов. Отметим, что если объектов мало, то скорость значительно возрастает. В связи с этим в ЛЗ введены специальные средства, использующие список значимых слов и признаков (указывающих на наличие объектов) для выделения значимых предложений. Только их следует анализировать. И если в тексте много предложений без объектов, то таким образом скорость можно увеличить на порядки.


Страница сайта http://185.71.96.61
Оригинал находится по адресу http://185.71.96.61/home.asp?artId=9916