Компьютерный тезаурус русского языка типа WordNet

Источник: dialog-21

Введение

В настоящее время компьютерные словари, построенные по модели WordNet, являются одним из самых распространенных типов лексических ресурсов, используемых в сфере информационных технологий. Особенности этих словарей, объединяющих в себе черты
справочной системы и инструмента для проведения лингвистических исследований, открывают широкие возможности их практического и теоретического применения.

В области информационного поиска wordnet-словари удобно использовать для расширения запроса пользователя за счет парадигматически и синтагматически связанных слов, например, компонентов синсета вместе с его гипонимами и согипонимами или связей типа
"глагол - актант", которые дают возможность осуществлять контекстный поиск. Данные о синтагматических отношениях слов позволяют применять wordnet-словари для решения классической задачи снятия неоднозначности смысла слова. Wordnet можно использовать для
вычисления смысловой близости текстов на основе гиперонимических отношений. Wordnet-словари могут служить лексиконом для формальных грамматик, особенно в силу исчерпывающего описания валентностей глаголов, сочетаемости прилагательных и существительных.
Формат wordnet является удобным формализмом для представления состава и структуры лексики специальных подъязыков (например, медицинских, экономических терминов).
Wordnet-словари являются удобным инструментом для проведения исследований в области лексической семантики, например, гипонимические отношения в wordnet-словарях позволяют определять направление метонимических переносов и прогнозировать появление новых
лексико-семантических вариантов.
В рамках проекта RussNet представляется возможным соединить опыт, накопленный традиционной русской лексикографией, и практические возможности стандарта wordnet-словарей, что позволит представить лексику русского языка способом, удовлетворяющим потребностям современной компьютерной лингвистики.

История и эволюция WordNet

В 1985 г. Дж. Миллером и его коллегами из Лаборатории когнитологии Принстонского Университета (США) была разработана модель ментального лексикона человека. Ресурс получил название WordNet и со временем стал одним из наиболее авторитетных и широко используемых стандартов для построения лексико-семантических баз данных.
Популярность и широкое распространение WordNet обусловлены, прежде всего, его существенными содержательными и структурными характеристиками. Принстонский WordNet и все последующие варианты для других языков направлены на отображение состава и структуры лексической системы языка в целом, а не отдельных тематических областей. Например, настоящая версия WordNet охватывает общеупотребительную лексику современного английского языка - более 120 тысяч слов. Словарь состоит из 4 отдельных файлов для основных знаменательных частей речи: существительных, глаголов, прилагательных и наречий. Базовой структурной единицей Принстонского WordNet является синонимический ряд (синсет), объединяющий слова со схожим значением. Предполагается, что каждый синсет репрезентирует в словаре некоторое лексикализованное понятие данного языка. Для удобства использования словаря человеком каждый синсет дополнен дефиницией и примерами употребления слов в контексте. Синсеты в WordNet связаны между собой такими семантическими отношениями, как гипонимия (родовидовое), меронимия (часть-целое), лексический вывод (каузация, пресуппозиция) и др.; среди них особую роль играет гипонимия: она позволяет организовывать синсеты в иерархические структуры (деревья). Лексика каждой части речи представлена в виде набора деревьев (леса). Для разных частей речи родовидовые отношения могут иметь дополнительные характеристики и различаться областью охвата, например, только некоторые группы прилагательных в WordNet связаны гипонимическими отношениями.
В оригинальной версии словаря не содержится информации о тематической организации лексики, так как, по мнению Дж. Миллера, она представляет собой иной тип структурирования лексики, отличный от собственно семантического, представленного в WordNet.
Основные принципы WordNet не претерпели значительных изменений со времени его создания, однако работы по его усовершенствованию продолжаются, например, в последней версии WordNet 1.7.1 введена информация о частотности значений. Широкое использование
WordNet обусловлено в значительной степени тем, что он распространяется свободно.

Проект EuroWordNet

Новый этап в эволюции wordnet-словарей связан с проектом EuroWordNet1 (1996-1999 гг.), в рамках которого не только было создано несколько тезаурусов для европейских языков (голландского, испанского, итальянского, немецкого, французского, чешского и эстонского), но и впервые была реализована идея об объединении отдельных wordnet-представлений в общую систему. Все компоненты EuroWordNet были построены по единой модели, что, однако, не предполагало прямого перевода английского варианта WordNet 1.5., перед разработчиками стояла задача - отразить все особенности лексических систем национальных языков. Совместимость компонентов EuroWordNet обеспечивалась единством принципов и заданным набором общих понятий (Basic Concepts), на которых определялась система межъязыковых отсылок (Inter-Lingual-Index), дающих возможность переходить от лексикализованных значений одного языка к сходным, но не обязательно тождественным значениям в другом языке. Данный индекс позволяет использовать EuroWordNet не только для информационного поиска в рамках одного языка, но и для многоязычного поиска.
В рамках проекта EuroWordNet первоначальная структура словаря претерпела серьезные изменения. Был расширен набор семантических отношений за счет парадигматических отношений, связывающих слова разных частей речи (например, XPOS_NEAR_SYNONYMY: dead - death; XPOS_HYPERONYMY: to love - emotion; XPOS_ANTONYMY: to live - dead) и синтагматических отношений между глаголами и актантами-существительными (например, ROLE_INSTRUMENT: to write - pencil). Увеличение числа связей сопровождалось на практике ограничением классов знаменательной лексики: в тезаурусе представлены только существительные и глаголы.
Был сформирован новый подход к построению wordnet-словарей: с опорой на использование лексикографических источников (толковых, переводных и синонимических словарей) и результатов обработки корпусов современных текстов.

Успешное завершение проекта EuroWordNet послужило толчком к созданию большого числа wordnet-представлений для языков разных типов (например, венгерского, турецкого, арабского, тамильского, китайского и пр.), а а также многоязычных ресурсов типа EuroWordNet(например, проект BalkaNet нацелен на объединение греческого, румынского, болгарского, сербского, турецкого и чешского wordnet-словарей). В 2001 г. была создана Всемирная Ассоциация WordNet (Global WordNet Association), целью которой является объединение уже существующих и только развивающихся национальных ресурсов этого типа, усовершенствование системы межъязыковых индексов и разработка общих стандартов, позволяющих использовать модель WordNet для языков разных типов.

Файлы для загрузки

Скачать полный текст статьи в .pdf