(495) 925-0049, ITShop интернет-магазин 229-0436, Учебный Центр 925-0049
  Главная страница Карта сайта Контакты
Поиск
Вход
Регистрация
Рассылки сайта
 
 
 
 
 

Компьютерный тезаурус русского языка типа WordNet

Введение

В настоящее время компьютерные словари, построенные по модели WordNet, являются одним из самых распространенных типов лексических ресурсов, используемых в сфере информационных технологий. Особенности этих словарей, объединяющих в себе черты
справочной системы и инструмента для проведения лингвистических исследований, открывают широкие возможности их практического и теоретического применения.

В области информационного поиска wordnet-словари  удобно использовать для расширения запроса пользователя за счет парадигматически и синтагматически связанных слов, например, компонентов синсета вместе с его гипонимами и согипонимами или связей типа
"глагол - актант", которые дают возможность осуществлять контекстный поиск. Данные о синтагматических отношениях слов позволяют применять wordnet-словари для решения классической задачи снятия неоднозначности смысла слова. Wordnet можно использовать для
вычисления смысловой близости текстов на основе гиперонимических отношений. Wordnet-словари могут служить лексиконом для формальных грамматик, особенно в силу исчерпывающего описания валентностей глаголов, сочетаемости прилагательных и существительных.
Формат wordnet является удобным формализмом для представления состава и структуры лексики специальных подъязыков (например, медицинских, экономических терминов).
Wordnet-словари являются удобным инструментом для проведения исследований в области лексической семантики, например, гипонимические отношения в wordnet-словарях позволяют определять направление метонимических переносов и прогнозировать появление новых
лексико-семантических вариантов.
В рамках проекта RussNet представляется возможным соединить опыт, накопленный традиционной русской лексикографией, и практические возможности стандарта wordnet-словарей, что позволит представить лексику русского языка способом, удовлетворяющим потребностям современной компьютерной лингвистики.

История и эволюция WordNet

В 1985 г. Дж. Миллером и его коллегами из Лаборатории когнитологии Принстонского Университета (США) была разработана модель ментального лексикона человека. Ресурс получил название WordNet и со временем стал одним из наиболее авторитетных и широко используемых стандартов для построения лексико-семантических баз данных.
Популярность и широкое распространение WordNet обусловлены, прежде всего, его существенными содержательными и структурными характеристиками. Принстонский WordNet и все последующие варианты для других языков направлены на отображение состава и структуры лексической системы языка в целом, а не отдельных тематических областей. Например, настоящая версия WordNet охватывает общеупотребительную лексику современного английского языка - более 120 тысяч слов. Словарь состоит из 4 отдельных файлов для основных знаменательных частей речи: существительных, глаголов, прилагательных и наречий. Базовой структурной единицей Принстонского WordNet является синонимический ряд (синсет), объединяющий слова со схожим значением. Предполагается, что каждый синсет репрезентирует в словаре некоторое лексикализованное понятие данного языка. Для удобства использования словаря человеком каждый синсет дополнен дефиницией и примерами употребления слов в контексте. Синсеты в WordNet связаны между собой такими семантическими отношениями, как гипонимия (родовидовое), меронимия (часть-целое), лексический вывод (каузация, пресуппозиция) и др.; среди них особую роль играет гипонимия: она позволяет организовывать синсеты в иерархические структуры (деревья). Лексика каждой части речи представлена в виде набора деревьев (леса). Для разных частей речи родовидовые отношения могут иметь дополнительные характеристики и различаться областью охвата, например, только некоторые группы прилагательных в WordNet связаны гипонимическими отношениями.
В оригинальной версии словаря не содержится информации о тематической организации лексики, так как, по мнению Дж. Миллера, она представляет собой иной тип структурирования лексики, отличный от собственно семантического, представленного в WordNet.
Основные принципы WordNet не претерпели значительных изменений со времени его создания, однако работы по его усовершенствованию продолжаются, например, в последней версии WordNet 1.7.1 введена информация о частотности значений. Широкое использование
WordNet обусловлено в значительной степени тем, что он распространяется свободно.

Проект EuroWordNet

Новый этап в эволюции wordnet-словарей связан с проектом EuroWordNet1 (1996-1999 гг.), в рамках которого не только было создано несколько тезаурусов для европейских языков (голландского, испанского, итальянского, немецкого, французского, чешского и эстонского), но и впервые была реализована идея об объединении отдельных wordnet-представлений в общую систему. Все компоненты EuroWordNet были построены по единой модели, что, однако, не предполагало прямого перевода английского варианта WordNet 1.5., перед разработчиками стояла задача - отразить все особенности лексических систем национальных языков. Совместимость компонентов EuroWordNet обеспечивалась единством принципов и заданным набором общих понятий (Basic Concepts), на которых определялась система межъязыковых отсылок (Inter-Lingual-Index), дающих возможность переходить от лексикализованных значений одного языка к сходным, но не обязательно тождественным значениям в другом языке. Данный индекс позволяет использовать EuroWordNet не только для информационного поиска в рамках одного языка, но и для многоязычного поиска.
В рамках проекта EuroWordNet первоначальная структура словаря претерпела серьезные изменения. Был расширен набор семантических отношений за счет парадигматических отношений, связывающих слова разных частей речи (например, XPOS_NEAR_SYNONYMY: dead - death; XPOS_HYPERONYMY: to love - emotion; XPOS_ANTONYMY: to live - dead) и синтагматических отношений между глаголами и актантами-существительными (например, ROLE_INSTRUMENT: to write - pencil). Увеличение числа связей сопровождалось на практике ограничением классов знаменательной лексики: в тезаурусе представлены только существительные и глаголы.
Был сформирован новый подход к построению wordnet-словарей: с опорой на использование лексикографических источников (толковых, переводных и синонимических словарей) и результатов обработки корпусов современных текстов.

Успешное завершение проекта EuroWordNet послужило толчком к созданию большого числа wordnet-представлений для языков разных типов (например, венгерского, турецкого, арабского, тамильского, китайского и пр.), а а также многоязычных ресурсов типа EuroWordNet(например, проект BalkaNet нацелен на объединение греческого, румынского, болгарского, сербского, турецкого и чешского wordnet-словарей). В 2001 г. была создана Всемирная Ассоциация WordNet (Global WordNet Association), целью которой является объединение уже существующих и только развивающихся национальных ресурсов этого типа, усовершенствование системы межъязыковых индексов и разработка общих стандартов, позволяющих использовать модель WordNet для языков разных типов.

Файлы для загрузки


 Распечатать »
 Правила публикации »
  Написать редактору 
 Рекомендовать » Дата публикации: 11.03.2014 
 

Магазин программного обеспечения   WWW.ITSHOP.RU
Microsoft 365 Apps for business (corporate)
ABBYY Lingvo x6 Европейская Профессиональная версия, электронный ключ
IBM RATIONAL Clearcase Floating User From Rational Clearcase Lt Floating User Trade Up License + Sw Subscription & Support 12 Months
Allround Automation Direct Oracle Access Standard license
Quest Software. Toad for Oracle Development Suite
 
Другие предложения...
 
Курсы обучения   WWW.ITSHOP.RU
 
Другие предложения...
 
Магазин сертификационных экзаменов   WWW.ITSHOP.RU
 
Другие предложения...
 
3D Принтеры | 3D Печать   WWW.ITSHOP.RU
 
Другие предложения...
 
Новости по теме
 
Рассылки Subscribe.ru
Информационные технологии: CASE, RAD, ERP, OLAP
CASE-технологии
СУБД Oracle "с нуля"
Компьютерные книги. Рецензии и отзывы
eManual - электронные книги и техническая документация
Вопросы и ответы по MS SQL Server
Мир OLAP и Business Intelligence: новости, статьи, обзоры
 
Статьи по теме
 
Новинки каталога Download
 
Исходники
 
Документация
 
 



    
rambler's top100 Rambler's Top100