ABBYY Recognition Server

ABBYY Recognition ServerABBYY Recognition Server представляет собой высокопроизводительное серверное решение для автоматизации процессов оптического распознавания и конвертирования документов в/из формата PDF в промышленных масштабах. Благодаря серверной архитектуре это приложение особенно эффективно для задач, связанных с обработкой средних и больших объёмов документов.

Архитектура ABBYY Recognition Server позволяет обеспечить не только скорость и высокое качество обработки массивов изображений, но и централизацию управления процессами, масштабируемость, гибкость, надежность потоковой обработки и интегрируемость с другими приложениями.

Возможности

Распознавание и конвертация

  • Высокое качество распознавания и восстановления оформления документа
    • Поддерживает до 190 языков распознавания печатного текста, включая языки на основе латинского, греческого, армянского и кириллического алфавитов.
    • Распознавание многоязычных документов.
    • Режим быстрого распознавания увеличивает скорость обработки изображений хорошего качества в 2-2,5 раза.
    • Модуль FineReader XIX обеспечивает распознавания текстов, напечатанных в период с 1600 по 1937 на английском, французском, итальянском, немецком и испанском языках. FineReader XIX поддерживает такие специальные шрифты, как Fraktur, Schwabacher и большинство готических шрифтов.
    • Модуль CJK обеспечивает распознавание документов на 4 азиатских языках: китайского (традиционная и упрощённая орфография), японского и корейского. Результаты можно сохранять в следующих форматах: DOC, RTF, XLS, HTML, TXT, CSV, PDF (дополнительно), XML (дополнительно).
    • Поддержано распознавание различных типов текста: типографская печать, печатная машинка, матричный принтер, MICR (E13B), OCR-A, OCR-B.
  • Преобразование PDF-файлов
    • При обработке PDF-файлов Recognition Server определяет наличие текстового слоя и его целостность. Подобный подход обеспечивает значительно более быстрое и качественное преобразование PDF-файлов.
    • Осуществляется преобразование изображений в файлы формата PDF с возможностью полнотекстового поиска, поддерживает создание PDF-файлов с тэгами.
    • Поддержана возможность сохранения в создаваемых PDF-файлах различных метаданных: закладок, гиперссылок, кросс-ссылок и т.п
    • Поддержаны алгоритмы шифрования и другие средства разграничения доступа: сохранение результатов распознавания в виде PDF-файла, защищённого паролем.
  • Распознавание штрих-кодов
    • Поддерживает распознавание наиболее популярных 1D и 2D штрих-кодов.
    • Автоматически идентифицирует и распознаёт штрих-коды, расположенные на документе под любым углом по отношению к горизонтали.
  • Конвертация документов
    • Экспорт распознанного текста в различные форматы.
    • Распознанный документ может быть одновременно сохранен в нескольких различных форматах.
  • Контроль качества распознавания
    • Доступна установка порога качества распознавания изображений, основанная на допустимом количестве неуверенно распознанных символов на страницу.

Обработка заданий

  • Настройка процесса обработки
    • Предусмотрена детальная настройка процесса обработки документов, в течение которого задания отправляются от одного ресурса к другому (входящая папка -> станция обработки -> исходящая папка).
  • Изменение настроек обработки по умолчанию
    • Возможно с помощью XML-описания - файла формата XML, который содержит параметры обработки документа или набора документов (расположен во входящей папке вместе с изображениями, которые надо обработать).
  • Анализ результатов обработки
    • Возможно с помощью XML-результата - файла формата XML, который содержит информацию о процессе обработки, параметрах, статистические данные и результаты обработки задания (расположен рядом с результатами в исходящей папке, если задание выполнено успешно, и в папке исключений в ином случае).
  • Планирование обработки заданий
    • Возможно планирование обработки заданий, то есть настройка очерёдности обработки заданий, включая назначение приоритетов, времени (день, месяц, час).
  • Выставление приоритетов
    • Доступно выставление приоритетов выполнения заданий, в соответствии с приоритетами формируется очередь заданий.
  • Поддержка сложной структуры папок
    • Поддержаны входящие папки со сложной структурой, т.е. с вложенными папками. При создании исходящей папки программа автоматически повторяет структуру входящей.

Отказоустойчивость

  • Предусмотрены следующие возможности, с помощью которых ведётся автоматический контроль работы ABBYY Recognition Server без вмешательства человека:
    • периодическая проверка работоспособности станции,
    • автоматическое восстановление связи со станцией после временного сбоя в работе станции,
    • автоматический запуск менеджера сервера после перезагрузки операционной системы,
    • автоматическое возвращение задания в очередь или перенаправление задания на другую доступную станцию в случае сбоя работы станции .

Масштабируемость

  • Многопроцессорная работа
    • Создание и запуск нескольких процессов по обработке и распознаванию одновременно, таким образом можно легко расширять мощность системы, увеличивая количество станций обработки (увеличивая количество процессоров).
  • Равномерная загрузка
    • Менеджер сервера автоматически распределяет задания между станциями обработки, выравнивая нагрузку между процессорами.
    • Менеджер сервера самостоятельно разделяет многостраничный документ на части и отправляет каждую из частей на свободную станцию обработки. Затем все части документа снова будут собраны в одно задание. Таким образом, распознавание/конвертация нескольких частей одного документа происходит одновременно.

Администрирование

  • Интерфейс консоли управления использует Microsoft Management Console (MMC) в качестве сервиса для визуализации управления приложением.
  • Доступна настройка параметров процессов обработки, приоритетов выполнения заданий и порога качества распознавания. Возможно изменение очерёдности выполнения заданий.
  • Реализована возможность вести журнал событий и контролировать работу сервера (например, получать уведомления в случае непредвиденных ситуаций).
  • Возможно использование RPC (протокола вызова удалённых процедур) поверх TCP/IP. Можно задействовать любой порт, разрешённый политикой безопасности, и использовать ресурсы другой локальной сети

Интеграция с другими приложениями

  • Лёгкость и простота интеграции
    • Достаточно быстро и просто интегрировать Recognition Server со сторонними приложениями с помощью открытого API (создание COM-компонент).
    • Доступно управление настройками обработки заданий из третьих приложений (с помощью XML-описаний).
  • Перемещение дополнительных метаданных
    • Структура XML-описаний позволяет включить в описание специальное поле данных. Эти данные будут переданы на сервер при формировании задания и сохранены в XML-результате.

Как работает ABBYY Recognition Server?

ABBYY Recognition Server - это специальное серверное приложение для распознавания документов и конвертации PDF-файлов, работающее на платформе Windows.

В структуре ABBYY Recognition Server можно выделить 3 основные компоненты:

1.

Менеджер сервера, который служит для управления всеми запросами, настройками обработки и сервисами, а также распределяет задания по распознаванию и конвертации между станциями обработки.

2.

Станцию обработки, на которой происходит непосредственно процесс распознавания/конвертации. В локальной сети может быть установлено неограниченное количество таких станций.

3.

Консоль управления обеспечивает общий интерфейс администрирования для настройки, изменения конфигурации и мониторинга. Консоль управления может быть расположена на любом компьютере в сети (по умолчанию она устанавливается совместно с менеджером сервера).

Дополнительно обеспечивается доступ к ABBYY Recognition Server посредством открытого интерфейса программирования (открытого API), что даёт возможности как для реализации клиентской части, так и для интеграции со сторонними приложениями. Также возможен анализ XML-результата после распознавания.

В том случае, когда ABBYY Recognition Server устанавливается как самостоятельное приложение для распознавания и конвертации документов и PDF-файлов, самым простым сценарием действий будет следующий:

  • Системный администратор или ИТ-специалист  устанавливает компоненты ABBYY Recognition Server и настраивает процессы обработки для сотрудников (входящие/исходящие папки, расписание, приоритеты, параметры обработки).
  • После установки и настройки сервера пользователям достаточно положить изображения во входящую папку и забрать результаты распознавания/конвертации из исходящей папки. Всё остальное ABBYY Recognition Server сделает в автономном режиме.

Термины, используемые в описании компонент ABBYY Recognition Server

  • Входящая папка - папка с изображениями, которые необходимо обработать. Может представлять собой папку на локальном компьютере, в локальной сети или на FTP-сервере. Входящая папка может быть выбрана либо непосредственно пользователем, либо в соответствии с предопределённым списком. Изображения могут быть размещены во входящей папке любым пользователем, у которого есть к ней доступ.
  • Исходящая папка - папка, содержащая результаты обработки заданий.
  • Папка исключений  содержит XML-результат и изображения, процесс обработки которых прошёл некорректно или был остановлен программой.
  • Задание - единица обработки, которая состоит из набора документов и параметров обработки. Одно задание может содержать один или несколько документов, включая многостраничные (например, многостраничный TIFF-файл). Параметры обработки задаются администратором при настройке сервера. Задание может также содержать файл XML-описания, определяющий параметры распознавания/конвертации изображений отличные от первоначально заданных.
  • XML-описание - файл формата XML, созданный пользователем или с помощью открытого API. Содержит параметры обработки документа или набора документов. XML-описание может быть расположено во входящей папке вместе с изображениями.
  • XML-результат - файл формата XML, созданный программой. Содержит информацию о процессе и результатах обработки задания. Этот файл может быть размещён рядом с результатами в исходящей папке.

ABBYY Recognition Server состоит из 4 частей:

  • серверная часть управляет всеми сервисами, запросами и настройками обработки;
  • открытый интерфейс программирования даёт возможности как для реализации клиентской части, например, простейшего интерфейса для создания инструкций по обработке документов серверной части (таких как XML-описания), так и для интеграции со сторонними приложениями;
  • станция обработки предназначена для осуществления процесса распознавания изображений документов и конвертации PDF-файлов;
  • консоль управления обеспечивает общий интерфейс администрирования для настройки и мониторинга работы.

В зависимости от требований проекта возможна как локальная установка, все компоненты устанавливаются на один компьютер, так и сетевая, каждая компонента устанавливается на отдельный компьютер в локальной сети.

Где использовать ABBYY Recognition Server?

ABBYY Recognition Server может быть использован как составная часть для любого серверного и клиент-серверного решения по автоматизации документооборота и архивирования на корпоративном рынке, так и как полностью готовое к использованию решение.

Наиболее успешным является применение ABBYY Recognition Server для решения следующих задач:

  • Преобразование больших объёмов документов.
    Распознавание и конвертация документов - это достаточно ресурсозатратная работа, которая замедляет осуществление других важных работ на компьютерах сотрудников. Осуществляя распознавание документов как фоновый процесс, используя несколько станций распознавания, можно снизить его влияние на другие рабочие процессы на компьютерах, что поможет избежать излишней траты, как ресурсов оборудования, так и человеческих.
  • Ввод документов для последующего индексирования.
    Благодаря специальному режиму анализа (DA для полнотекстового индексирования), ABBYY Recognition Server может автоматически определить и распознать весь текст на изображении, включая текст на картинках, в диаграммах, подписях, логотипах. Распознанный таким образом текст может быть легко проиндексирован в системе электронного документооборота или архива, что обеспечивает в дальнейшем качественный полнотекстовый поиск в подобном документе.
  • Полнотекстовое преобразование для ввода данных.
    ABBYY Recognition Server можно использовать как модуль, который осуществляет полнотекстовое распознавание неструктурированных документов, для интеграции этой функциональности в существующую систему ввода документов (как дополнительного или основного ядра распознавания).
  • Создание архива документов в PDF формате.
    Удобство и простота использования файлов PDF формата (их можно открыть и прочитать на любом компьютере), маленький размер самого файла PDF, возможность закрыть данные паролем, - все эти факторы приводят к увеличению популярности файлов PDF формата во всё мире. С помощью ABBYY Recognition Server вы можете легко и быстро конвертировать любые документы в PDF-файлы, создавая компактный электронный архив с возможностью полнотекстового поиска по каждому документу.

Спецификация

Сопроводительная техническая документация

  • Встроенная справочная система (формат CHM, на английском языке) содержит подробное описание открытого API и общие сведения о лицензировании и активации.
  • Примеры кода, поставляемые вместе с ABBYY Recognition Server 1.0, демонстрируют использование открытого API для решения типовых задач и помогают понять как использовать эту компоненту для решения необходимых задач.
  • Руководство системного администратора (на английском языке) содержит информацию об установке, активации лицензии и администрировании ABBYY Recognition Server .

Внутренняя функциональность

Открытый интерфейс программирования

  • Программный интерфейс, который позволяет создавать XML-описания, организовывать взаимодействие программы ABBYY Recognition Server с третьими приложениями и анализировать XML-результаты.
  • Полностью соответствует стандарту COM и может использоваться в любой COM -совместимой среде разработки, в т.ч. в  Visual Basic , C ++ и языках сценариев.

Консоль управления

  • Для работы консоли управления ABBYY Recognition Server используется Microsoft  Management Console ( MMC ) в качестве сервиса для визуализации управления приложением MMC.

Форматы ввода/вывода

Поддерживаемые форматы изображений:

  • BMP: чёрно-белый, серый, цветной
  • PCX, DCX: чёрно-белый, серый, цветной
  • JPEG: серый, цветной
  • JPEG 2000, part1: серый, цветной
  • PNG: чёрно-белый, серый, цв етной
  • TIFF: чёрно-белый, серый, цветной, многостраничный.
    • Способы сжатия: несжатый, CCITT Group 3, CCITT Group 3 FAX (2 D ), CCITT Group 4, PackBits , JPEG , ZIP
  • PDF

Форматы сохранения документов:

  • Microsoft Word (*.DOC)
  • Rich Text Format (*.RTF)
  • Microsoft Word XML (*.XML) (только для Microsoft Office Word 2003)
  • XML со схемой представления данных (*. XML ).
  • Adobe Acrobat (*.PDF)
  • HTML. Поддержаны различные кодовые страницы Windows, DOS, Mac, ISO и кодовые страницы Unicode ( UTF-8).
  • Microsoft PowerPoint (*.PPT)
  • Формат с разделением запятыми (*. CSV ). Поддержаны различные кодовые страницы Windows, DOS, Mac, ISO и кодовые страницы ( UTF-16, UTF-8).
  • Обычный текст (*.TXT ). Поддержаны различные кодовые страницы Windows, DOS, Mac, ISO и кодовые страницы Unicode ( UTF-16, UTF-8).
  • Microsoft Excel (*.XLS)
  • DBF. Поддержаны различные кодовые страницы Windows, DOS, Mac, ISO .

Языки распознавания

Поддержано до 190 языков распознавания печатного текста (OCR):

  • 37 основных языков, для которых FineReader предоставляет словарную поддержку и проверку правописания:
    • армянский (восточный, западный, грабар), башкирский, болгарский, каталанский, хорватский, чешский, датский, голландский (Нидерланды и Бельгия), английский, эстонский, финский, французский, немецкий (новая и старая орфография), греческий, венгерский, индонезийский, итальянский, латышский, литовский, норвежский (нюнорск и букмол), польский, португальский (Португалия и Бразилия), румынский (латиница), русский, словацкий, словенский, испанский, шведский, татарский, турецкий и украинский.
  • 5 языков для распознавания документов, напечатанных в XVII - XIX столетиях:
    • английский, французский, немецкий, итальянский и испанский.
  • 133 дополнительных языков, в которых используются латинский, кириллический или греческий алфавиты:
    • абхазский, адыгейский, африкаанс, агульский, албанский, алтайский, аварский, аймара, азербайджанский (кирилица), азербайджанский (латиница), баскский, белорусский, бемба, блэкфут, бретонский, буготу, бурятский, себуанский, чаморро, чеченский, чукотский, чувашский, конго, корсиканский, крымско-татарский, кроу, дакота, даргинский, дунганский, эскимосский (кириллица), эскимосский (латиница), эвенский, эвенкийский, фарерский, фризский, фриульский, гагаузский, галисийский, ганда, немецкий (Люксембург), гуарани, хани, хауса, гавайский, исландский, ингушский, ирландский, цзинпо, кабардино-черкесский, калмыкский, карачаево-балкарский, каракалпакский, кашубский, гэлао, казахский, хакасский, хантыйский, кикуйю, киргизский, корякский, кпелле, кумыкский, курдский, лакский, латинский, лезгинский, луба, македонский, малагасийский, малайский, малинке, мальтийский, мансийский, маори, марийский, майа, мяо, минангкабау, могавк, молдавский (кириллица), монгольский, мордовский, ацтекский, ненецкий, нивхский, ногайский, ньянджа, оджибве, осетинский, папьяменто, провансальский, кечуа, ретороманский, цыганский, рунди, русский (старая орфография), руанда, саамский, самоа, гелький (Шотландия), селькупский, сербский (кириллица), сербский (латиница), шона, сомали, лужицкий, сото, сунданский, суахили, свази, табасаранский, тагальский, таити, таджикский, ток-писин, тонга, тсвана, дун, туркменский, тувинский, удмуртский, уйгурский (кириллица), уйгурский (латиница), узбекский (кириллица), узбекский (латиница), фиджи, валлийский, волоф, коса, якутский, сапотек, зулу.
  • 4 искусственных языка:
    • эсперанто, интерлингва, идо, оксиденталь.
  • 6 языков программирования:
    • Basic, C/C++, COBOL, Fortran, JAVA и Pascal.
  • Простые химические формулы.
  • Цифры.

Типы штрих-кодов

  • Одномерные: Check Code 39, Check Interleaved 25, Code 128, Code 39, EAN 13, EAN 8, Interleaved 25, CODABAR (без контрольной суммы), UCC Code 128, Code 2 of 5 (Industrial, IATA, Matrix), Code 93, UPC-A, UPC-E и Postnet.
  • Двумерные: PDF 417.

Системные требования

Менеджер сервера (Server manager)

  • Компьютер с процессором Intel Pentium / Celeron / Xeon , AMD K 6/ Athlon / Duron / Sempron или другим совместимым с ними процессором с тактовой частотой не менее 500 МГц.
  • Операционная система Microsoft Windows Vista, Windows Server 2003, Windows XP, Windows 2000.
  • Оперативная память: 128 Мб.
  • Пространство на жёстком диске: 15 Мб для установки, плюс 100 Мб для работы программы.
  • Необходимо иметь права на чтение и запись для следующих разделов системного реестра:
    • HKEY _ CLASSES _ ROOT
    • HKEY _ LOCAL _ MACHINE \ Software\ABBYY
    • HKEY_CURRENT_USER\Software\ABBYY

Открытый интерфейс программирования (Open API)

  • Компьютер с процессором Intel Pentium / Celeron / Xeon , AMD K 6/ Athlon / Duron / Sempron или другим совместимым с ними процессором с тактовой частотой не менее 200 МГц.
  • Операционная система Microsoft Windows Vista, Windows Server 2003, Windows XP, Windows 2000, Windows ME/98.
  • Оперативная память: 128 Мб.
  • Пространство на жёстком диске: 15 Мб.

Станция обработки (Processing station)

  • Компьютер с процессором Intel Pentium / Celeron / Xeon , AMD K 6/ Athlon / Duron / Sempron или другим совместимым с ними процессором с тактовой частотой не менее 500 МГц.
  • Операционная система Microsoft Windows  Vista, Windows Server 2003, Windows XP, Windows 2000.
  • Оперативная память: 128 Мб. Дополнительно 100 Мб для каждого процесса распознавания.
  • Пространство на жёстком диске: 230 Мб для установки, плюс 100 Мб для работы программы.

Консоль управления (Remote administration console)

  • Компьютер с процессором Intel Pentium / Celeron / Xeon , AMD K 6/ Athlon / Duron / Sempron или другим совместимым с ними процессором с тактовой частотой не менее 200 МГц.
  • Операционная система Microsoft Windows Vista, Windows Server 2003, Windows XP, Windows 2000.
  • Оперативная память: 128 Мб.
  • Пространство на жёстком диске: 15 Мб.


Страница сайта http://185.71.96.61
Оригинал находится по адресу http://185.71.96.61/home.asp?artId=6898