|
|
|||||||||||||||||||||||||||||
|
Предметно-ориентированная система научной осведомленностиИсточник: aselibrary
В. Туманов, А. Прохоров, Д. Лазарев, М. Соловьева Введение Успешное использование и развитие систем деловой осведомленности или бизнес- аналитики (Business Intelligence System, BI System) привело к идее разработки и создания систем научной осведомленности (Science Intelligence System, SI System). В статье [1] система научной осведомленности определена "как информационная инфраструктура, которая обеспечивает принятие решений и совместную работу научного сообщества в рамках выделенной предметной области знаний". Там же рассмотрена общая архитектура таких систем в разрезе категорий основных пользователей и использования современных информационных технологий. В основу создания таких систем положены технологии складирования данных (Data Warehousing), анализа и извлечения знаний (Data Mining) [2]. В системах научной осведомленности научные решения, методология и методы исследований интегрируются в общую библиотеку решений, а данные из разнородных источников интегрируются в общее хранилище данных, которое через предметно-ориентированные информационные ресурсы поставляет информацию пользователям: ученым, технологам, представителям промышленности и государства. Особенностью систем научной осведомленности является предоставление пользователям, помимо собственно профессиональной информации, инструментария для анализа данных. В докладе [3] был рассмотрен общий подход к построению систем управления фундаментальными знаниями на примере физико-химических данных. В докладе [4] был использован аналогичный подход для создания интеллектуальной информационной системы по физической химии радикальных реакций, при этом модель системы рассматривалась с точки зрения внедрения в нее элементов прикладного искусственного интеллекта для производства новых предметных знаний. В статье [5] было дано определение предметно-ориентированных систем научной осведомленности как узкоспециализированных систем научной осведомленности, которые кроме возможности решения задач интеллектуального анализа данных наделены способностью производства новых профессиональных знаний. Целью настоящей работы является описание программно-технологической архитектуры предметно-ориентированной системы научной осведомленности по физической химии радикальных реакций и ее отдельных программных компонентов. Предметно-ориентированная система научной осведомленности по физической химии радикальных реакций Разрабатываемая предметно-ориентированная система научной осведомленности по физической химии радикальных реакций рассматривается как интеллектуальная система в интернете, назначением которой является сбор, хранение, верификация, извлечение, распространение и производство новых предметно-ориентированных знаний по физической химии радикальных реакций. Предметную область системы составляют следующие объекты и их основные характеристики: Для разработки и создания системы был использован подход на основе портальных технологий, технологии интеллектуальных агентов, технологий прикладного искусственного интеллекта, технологии баз и хранилищ данных. Активным компонентом системы является интеллектуальный агент, который можно представить в виде веб-приложения, расположенного за внешним информационным порталом. При этом сами агенты ориентированы на обработку научных данных в узкоспециализированном разделе предметной области. Система состоит из нескольких программных слоев. Первый слой реализован как предметно-ориентированное веб-приложение, которое предоставляет пользователю интерфейс и принимает управляющие решения на основе таблиц решений. Данное веб-приложение предоставляет доступ к следующим программным компонентам системы: информационной подсистеме, аналитической подсистеме, подсистеме дистанционного обучения, встроенной подсистеме объяснений и подсистеме производства новых профессиональных знаний. Второй слой состоит из интеллектуальных агентов, реактивных агентов и обученных искусственных нейронных сетей, которые реализуют работу встроенных в портал экспертных систем и выполняют функции поиска информации. Агенты распределены в различных узлах локальной сети. Третий слой представляет собой хранилище знаний, которое состоит из: Система предназначена для решения следующих задач: Хранилище знаний Хранилище знаний по определению есть предметно-ориентированная, интегрированная, поддерживающая временные ряды данных электронная коллекция, которая содержит данные, знания, процедуры генерирования знаний. Оно используется для анализа и исследования данных, производства новых знаний и поддержки принятия решений. Хранилище знаний настоящей системы содержит эмпирические и рассчитанные факты, продукционные правила и процедуры расчета, а в совокупности с экспертными системами образует виртуальную подсистему производства новых профессиональных знаний (констант скорости и энергий активации радикальных реакций, энергий диссоциации связей молекул). Хранилище знаний как компонент производства новых профессиональных знаний включает в себя: В результате работы пользователей системы хранилище знаний пополняется новыми профессиональными знаниями. В качестве механизмов производства новых знаний в настоящей системе используются встроенные в портал экспертные системы, обученные искусственные нейронные сети и интеллектуальные агенты. Как показала опытная эксплуатация системы, использование встроенных экспертных систем оправдано в тех случаях, когда возможно использовать знания экспертов или получить такие знания в процессе интеллектуального анализа данных, что является трудоемким по времени процессом. Более перспективным оказалось использование искусственных нейронных систем, которые в некоторых случаях лучше аппроксимируют зависимости в данных и дают более точный прогноз реакционной способности. Однако искусственные нейронные сети не всегда можно обучить из-за отсутствия представительной обучающей выборки. Структуры данных для хранилища и баз данных Информационный компонент системы является частью хранилища знаний и состоит из баз и хранилища данных. Хранилище данных системы реализовано как взаимосвязанные киоски данных, построенных методом многомерного моделирования. Информационный компонент системы включает в себя: Для проектирования структур данных был использован метод многомерного моделирования [6]. Факты не являются аддитивными и полуаддитивными по всем измерениям. Однако факт - значение энергии диссоциации связи - можно считать полуаддитивным по некоторой комбинации измерений, если необходимо определить среднюю прочность связей в молекуле. Последняя величина используется в некоторых химико-физических расчетах в органическом синтезе. Логическая структура данных КД ЭООМ аналогична многомерной модели КД ЭДСОМ с той лишь разницей, что те же самые таблицы измерений находятся в логической связи с таблицей фактов, содержащей значения энтальпии образования молекул. Логическая структура базы данных по энтальпиям образования радикалов включает в себя таблицы измерений Rad_Compounds, Reference, Method и таблицу dH_Value, содержащую значения энтальпии образования радикала. Логическая структура базы данных библиографических ссылок представляет собой объединение в виртуальной таблице таблиц измерений Reference всех киосков данных. Производство новых данных Производство новых данных в рамках предметной области рассматриваемой системы научной осведомленности выполняется с помощью экспертных систем. Экспертные системы (ЭС), предназначенные для функционирования в среде Интернет, конструируются в виде набора интеллектуальных программных агентов - автономных программ с определенным поведением. Под агентом понимается вычислительная система, помещенная во внешнюю среду, способная взаимодействовать с ней, совершая автономные рациональные действия для достижения определенных целей [7]. Абстрактно агент может быть представлен функцией: action: S → A, (1) где внешняя среда описывается множеством состояний среды S, а возможные действия агента описываются множеством действий А. Резидентные агенты являются интеллектуальными агентами. Они обладают своей базой знаний и механизмом вывода для принятия решений. Резидентный агент является, как правило, агентом с состоянием: он обладает внутренней структурой данных, которая может быть модифицирована в зависимости от восприятия текущего состояния внешний среды. Таким образом, текущее состояние внешней среды влияет на выбор действий агента. Пусть I - множество внутренних состояний агента и P - множество возможных восприятий окружающей среды. Тогда резидентного агента можно представить парой функций: функцией, отвечающей за изменение внутреннего состояния, refine: I X P → I, (2) и функцией действия action: I → A. (3) Реактивные агенты - вычислители не обладают своей базой знаний и функционируют по схеме "условие-действие". Они принимают входные данные, обрабатывают их и возвращают ответ резидентному агенту. Действие этих агентов определяется текущим состоянием и может быть представлено функцией (1). Реактивные обучаемые агенты имеют свою базу знаний и наделены возможностью обучения и расширения своей базы знаний. Обучение агента выполняется в автономном режиме работы с участием эксперта или без эксперта. Возможность использования накопленного опыта агентом может быть представлена функцией: action: S X A → A. (4) Отметим, что условие автономности обучения предполагает пассивность агента в обучении, и такого агента нельзя считать самообучающимся агентом, поскольку он только периодически повышает свою квалификацию. Поисковый агент предназначен для поиска и извлечения необходимых данных из объектов хранилища знаний и может быть представлен функцией (1). Программные агенты функционируют в рамках простой модели "Запрос-Ответ-Соглашение". После получения входных данных производится опрос резидентных агентов. На основе полученных ответов принимается решение, какому агенту поручить выполнение предусмотренных в экспертной системе действий. После опроса агентов формируется матрица ответов, на основе анализа которой принимается решение о том, какому агенту отдать решение задачи. При некоторых условиях решение задачи может быть отдано двум агентам. Экспертная система оценки энергии диссоциации связи по кинетическим данным была реализована на основе рассмотренной выше многоагентной архитектуры и встроена в портал системы научной осведомленности по физической химии радикальных реакций. Энергия диссоциации связи является одной из фундаментальных характеристик молекулы и влияет на скорость протекания химической реакции, которая описывается совокупностью характеристик: константой скорости реакции, энергией активации реакции, показателем частоты соударений реагирующих инградиентов и температурой (кинетическими данными). Экспертную систему обслуживают следующие агенты: Агент типа A1 выполняет поиск в базе расчетных данных. Этот агент предлагает свои услуги, если в расчетных данных хранилища знаний по энергиям диссоциации связей имеются данные. Агент типа A2 выполняет поиск в экспериментальных данных хранилища знаний. Этот агент предлагает свои услуги, если в экспериментальных данных по энергиям диссоциации связей имеются данные. Агент типа A3 выполняет оценку энергии диссоциации связи молекулы на основе эмпирической модели радикальных реакций. Этот агент предлагает свои услуги, если вектор входных параметров содержит достаточно данных для проведения расчета. Оценка реакционной способности может быть выполнена как в жидкой фазе, так и газовой фазе. Алгоритм выполнения оценки изложен в [4]. Агент типа A4 использует для выполнения оценки энергии диссоциации связи молекулы обученную искусственную нейронную сеть. Этот агент принимает решение об оказании своих услуг, если его обученная искусственная нейронная сеть отвечает заданным входным данным. Агент имеет возможность переобучать свою сеть в автономном режиме. Интеллектуальный агент - резидент - выполняет анализ входных данных, выбирает агентов исполнителей, анализирует полученный результат и возвращает его на интерфейс экспертной системы. Пользователь с помощью интерфейса экспертной системы может сохранить полученный результат в базе расчетных данных, заполнив специальную анкету проведения расчета. Для представления знаний в базе знаний интеллектуального агента-резидента используется продукционная модель, то есть знания представляются в виде продукций: (i): Q; P; A B; N, (5) где i - имя продукции, Q - сфера применения продукции, P − условие применимости ядра продукции, A B − ядро продукции, N - постусловия продукции. В базе знаний продукция представляется в виде таблицы правил и таблицы фактов. Таблица правил содержит ядра продукций в виде пары объектов <условие>-<вывод>. Например, ЕСЛИ радикал = алкильный И молекул = парафин ТО класс = R1 + R1H. Таблицы фактов содержат описание параметров класса, параметров радикала и параметров молекулы. Для представления внутренних состояний и возможных действий в зависимости от текущего состояния внешней среды используется внутренняя структура в виде таблицы решений "состояние-действие". История изменений внутреннего состояния резидентного агента сохраняется в его базе знаний для обеспечения возможности возврата к предыдущему состоянию, если текущие действия агента признаются человеком - экспертом неадекватными. Экспертная система для управления оценкой реакционной способности реагентов радикальных реакций также разработана на основе многоагентной архитектуры, которая включает в себя резидентного агента, агента вычислителя и набора искусственных нейронных сетей для предсказания реакционной способности реагентов для определенных классов реакций. Предварительно обученные нейронные сети реализованы как отдельные веб-сервисы в распределенной вычислительной среде. Реакционная способность реагентов в жидкой или газовой фазах определяется, как правило, либо парой значений "температура - константа скорости (скорость взаимодействия реагентов)", либо тройкой значений "интервал температур - энергия активации реакции - предэкспонент". Интерфейс системы В главном меню предметно-ориентированной системы научной осведомленности по физической химии радикальных реакций каждый пункт (URL-ссылка) соответствует варианту использования системы. Пункт меню "E&k" отсылает пользователя к подсистеме оценки реакционной способности элементарной реакции, которая включает в себя встроенную экспертную систему и набор искусственных нейронных сетей для производства новых значений констант скорости и энергий активации радикальной химической реакции. Пункт меню "E&kDB" предоставляет пользователю интерфейс для поиска данных о реакционной способности молекул в радикальных реакций в жидкой и газовой фазах. Киоск экспериментальных данных по константам скорости молекул в радикальных реакций в жидкой фазе насчитывает более 31000 записей. Данные по газовой фазе включают в себя только расчетные значения констант и энергий активаций. База данных по константам скорости молекул в газовой фазе собирается NIST и опубликована на сайте http://kinetics.nist.gov/kinetics/index.jsp. Пункт меню "BDEDB" предоставляет пользователям доступ к киоску данных по энергиям диссоциации связей органических молекул, который в настоящее время содержит более 1000 записей. Пункт меню "BDE" отсылает пользователя к экспертной системе для оценки энергий диссоциации связей органических молекул по кинетическим данным радикальных реакций отрыва. Пункт меню "Bibliography" предоставляет пользователю доступ к базе данных библиографических ссылок. Пункт меню "Expert" предоставляет доступ к интерфейсу эксперта, который может редактировать данные в базах данных и хранилище знаний. Пункт меню "e-learning" отправляет пользователя в подсистему дистанционного обучения, которая включает в себя электронные курсы лекций, электронные задачники и тесты контроля знаний в удаленном режиме. Полученные в результате использования пользователем экспертных систем константа скорости реакции или энергия диссоциации связи органической молекулы могут быть сохранены в хранилище знаний. Такая возможность делает систему активной и позволяет заинтересованному научному сообществу накапливать в ней новые знания. Возможность пополнения системы предметными знаниями накладывает на ее функционал определенные ограничения. Такие ограничения связаны с необходимостью обеспечить достоверность заносимых в нее данных. Поэтому хранилище знаний системы состоит из двух разделов: базового раздела, составленного экспертами по данным научных публикаций, и раздела, произведенного пользователями системы. При попытке занесения новых данных экспертная система контекстного управления на основе нечетких рассуждений делает ряд проверок и выводов о достоверности этих данных, а затем принимает решение либо о занесении данных с определенным показателем их надежности либо об отказе в запоминании данных. При сохранении данных система просит пользователя заполнить анкету. Заключение Разработка и публикация в интернете предметно-ориентированных систем научной осведомленности на основе использования хранилищ знаний с применением многоагентой технологии позволит научному сообществу создавать распределенные сети для сбора, хранения, извлечения, интеллектуального анализа, распространения и производства новых знаний в узкоспециализированных областях исследований и технологий. Отметим, что представленная в данной работе система представляет собой самостоятельно функционирующий объект в сети Интернет: она предназначена развиваться через пополнение ее хранилища знаний пользователями и экспертами. Включение в такие системы подсистемы дистанционного обучения предметно-ориентированным знаниям значительно расширяет круг ее потенциальных пользователей (студентов и аспирантов), что способствует самостоятельному формированию у них профессиональных знаний, а преподавательскому составу высших учебных заведений предоставляет дополнительный учебный материал и электронный ресурс-справочник. Литература: 1. Hackathorn R. Science Intelligence. Can a Business Intelligence Approach Enable "Smart" Science? DM Review. - 2005. [Электронный ресурс]. - режим доступа: http://www.DMReview.com. Ссылки по теме
Файлы для загрузки
|
|