|
|
|||||||||||||||||||||||||||||
|
Базовая самоформирующаяся онтологияИсточник: semanticspider
Семантический Паук - собиратель информации из Всемирной Паутины. Найти и классифицировать Когда-нибудь, когда он вырастет, наш Паучок будет бегать по Паутине, читать информацию, написанную людьми и для людей и выделять из нее данные, пригодные для машин. Потом уже большие Машины начнут пользоваться этой информацией и вот тут-то и наступит время Терминаторов, но до этого еще далеко. А пока Семантический Паук делает первые шаги. Зачем это нужно? Глобальная цель - научиться в автоматическом режиме составлять онтологии, которые в дальнейшем станут базой для получения новых знаний. Постановка задачи Есть набор страниц из интернет, есть онтология некой предметной области (Tbox в owl). Необходимо в автоматическом режиме выделить на рассматриваемых страницах объекты онтологии и дополнить онтологию (Abox). Метод решения Язык программирования - java, основа краулера - проект crawler4j, первая онтология - онтология работы над проектами (MoWoP). Проект "Базовая самоформирующаяся онтология"ToDo:
Тестовый запуск: человек + фирма. Ч.1Решено работать в онлайн режиме: все черновые записи - в блоге, все тестовые запуски и полученные результаты (или не полученные :-) ) - на соответствующие страницы сайта. А почему бы и нет? Возможно, только алгоритмы будут закрытыми, хотя на текущий момент закрывать особо нечего Итак, эксперимент №1
Организация
Данные связаны следующим образом:
Весь этот набор данных представляется собой мини-онтологию. Ну хорошо, конечно не онтологию, но основные принципы соблюдены и ничто не мешает дальнейшему маштабированию схемы. Задача семантического паука - на основе имеющихся данных (онтология частично заполнена, т.е. присутствует A-Box и частично Е-box) и массива данных постараться заполнить остальные поля. Для начала предположим, что нам известны ФИО человека и название компании, далее в схему должны быть добавлены шаблоны, потом - словари синонимов и т.д. Вопрос 1: По каким страницам искать.
Вопрос 2: хранение "онтологии" и найденных данных Вопрос 3: алгоримт перебора страниц и выделения релевантных данных
Тестовый запуск: человек + фирма. Ч.2Мини-онтология, несмотря на то, что она мини, будет у нас носить все черты полноценной предметной онтологии - т.е. разрабатываться в protege, храниться в owl-файле и обрабатываться по правилам и логике "больших" баз знаний. Ссылки по теме
|
|