Компания ABBYY представила новую разработку - ABBYY Recognition Server IFilter, которая позволяет поисковым системам Microsoft индексировать графические документы для последующего поиска по их содержимому. Теперь пользователи корпоративной сети смогут легко и быстро находить нужные для работы данные, даже если они хранятся в таких форматах, как TIFF, JPEG, PDF и DjVu, говорится в сообщении ABBYY.
Как отмечается, семейство продуктов Microsoft SharePoint предлагает сервис корпоративного поиска, позволяющий быстро находить нужную информацию как в структурированных, так и в неструктурированных источниках данных. Схема работы сервиса такова: поисковый агент SharePoint периодически обходит корпоративные библиотеки и автоматически индексирует новые или недавно изменённые документы, после чего они становятся доступными для поиска. Однако не все документы хранятся в форматах, пригодных для полнотекстового индексирования. Так, важные для организации документы (копии отсканированных договоров, факсы, входящая корреспонденция, а также архивы газет, журналов и книг) нередко сохраняются в графическом виде, что делает поиск по их содержимому невозможным. Интегрируясь в поисковый модуль SharePoint, решение ABBYY успешно решает эту проблему: в его состав входит специальный плагин IFilter, благодаря которому поисковый сервис Microsoft может задействовать программный продукт ABBYY Recognition Server для непосредственного извлечения содержимого из файлов графических форматов, отметили в компании.
Текстовые файлы поисковый агент SharePoint индексирует самостоятельно, а для извлечения данных из изображений привлекает решение ABBYY: IFilter передает изображения в ABBYY Recognition Server, система распознаёт документы и затем возвращает распознанный текст в Microsoft SharePoint Server для индексирования. Обработка изображений не приводит к дополнительной загрузке ресурсов SharePoint: ABBYY Recognition Server устанавливается на отдельный сервер, причём производительность решения может быть в любой момент повышена путём подключения к нему дополнительных мощностей, подчеркнули в ABBYY.
Помимо интеграции с Microsoft SharePoint, ABBYY Recognition Server IFilter может работать и с Microsoft Windows Search, системой локального поиска на компьютере пользователя. Один установленный в корпоративной сети ABBYY Recognition Server даёт возможность всем сотрудникам организации осуществлять полнотекстовый поиск документов, хранящихся на их персональных компьютерах в виде изображений. При этом все ресурсоёмкие процессы происходят незаметно для пользователей - им становится доступен окончательный результат поиска. На компьютеры сотрудников требуется установить всего лишь лёгкий плагин к Microsoft Windows Search, непосредственная обработка документов будет осуществляться на сервере.
ABBYY Recognition Server создан на базе технологий распознавания ABBYY и способен обрабатывать документы на более чем 190 языках. Также система успешно "читает" многоязычные документы, при этом в одном и том же документе могут быть использованы языки различных видов письменности (например, китайский и немецкий, иврит и французский). Решение поддерживает популярные графические форматы, включая TIFF, JPEG, PDF, DjVu, BMP, PCX, DCX и PNG. Таким образом, ABBYY Recognition Server применим не только в процессе индексации документов: по словам разработчиков, он может служить и в качестве инструмента для обработки бумажных и конвертации электронных документов.