Метод валидации ответов на основе неточного сравнения семантических графов в вопросно-ответной системе
Аннотация
Обсуждаются эксперименты на вопросно-ответной дорожке
семинара РОМИП"2010. Исследовательская система ищет в
полнотекстовой коллекции краткие ответы на вопросы типа
"кто?" и "где?". В основе метода лежит сравнение графов
семантических связей вопроса и фрагмента текста,
содержащего ответ. Автор следует типовой архитектуре
вопросно-ответной системы, надстроенной поверх обычной
полнотекстовой поисковой системы. Экспериментально
показано, что применение предложенного семантического
фильтра позволило уменьшить уровень ошибок с 60% до
26%, при ухудшении полноты выдачи с 8% до 5%
Введение
Вопросно-ответные системы - это класс информационно-поисковых
систем, позволяющих использовать в качестве поисковых запросов
вопросы на естественном языке и получать в результатах не просто
список документов, содержащих ответ, а сам ответ - сжатый и
лаконичный. Источником информации для таких систем обычно
служит корпус текстов на естественном языке, например
общедоступные страницы Интернет. Вопросно-ответные системы
применяют методы компьютерной лингвистики (англ.: NLP - Natural 126
Language Processing) на каждом этапе работе и существенно зависят
от качества их реализации.
Целью работы является экспериментальное исследование
методов вопросно-ответного поиска, применѐнных к русскому
языку.
Для достижения этой цели были поставлены следующие задачи:
1. Изучить существующие методы и системы.
2. Построить экспериментальную вопросно-ответную систему.
3. Найти и приспособить доступные русскоязычные компоненты
компьютерной лингвистики для задачи вопросно-ответного
поиска.
4. Провести экспериментальную оценку качества работы системы
в различных конфигурациях.
В данной статье обсуждаются вопросы построения вопросно-
ответной системы и эксперименты на вопросно-ответной дорожке
семинара РОМИП"2010.
Файлы для загрузки