OmniPage — коммерческое программное обеспечение для оптического распознавания текста (OCR), предназначенное для преобразования отсканированных документов, изображений и PDF-файлов в редактируемые и поисковые форматы. Продукт развивается с конца 1980-х — начала 1990-х годов и прошёл несколько версий и смен владельцев в процессе коммерческой истории. Основная цель OmniPage — автоматизация извлечения текстовой информации из бумажных носителей и её последующая конвертация в форматы, пригодные для редактирования в текстовых редакторах, электронных таблицах и системах управления документами.
Программное обеспечение обычно включает модули предобработки изображений (коррекция ориентации, удаление шума, выравнивание), собственно OCR-движок, распознающее макет страниц, а также инструменты экспорта в различные форматы и интеграции с офисными приложениями. OmniPage используется в корпоративных и частных сценариях для оцифровки архивов, автоматизации ввода данных и создания доступных для поиска репозиториев документов. В доступных описаниях подчеркивается сочетание точности распознавания и поддержки множества языков и форматов.
- Распознавание текста — преобразование изображений символов в машинно-читаемый текст с поддержкой нескольких языков.
- Предобработка изображений — коррекция наклона, удаление шума, выравнивание и улучшение качества для повышения точности OCR.
- Анализ макета страницы — сохранение структуры документа, включая колонки, таблицы, заголовки и графические элементы.
- Экспорт в форматы — сохранение результатов в популярных форматах, таких как DOCX, PDF (поисковый), RTF, TXT и другие.
- Пакетная обработка — возможность одновременной обработки большого количества файлов и автоматизации рабочих процессов.
- Интеграция с приложениями — взаимодействие с офисными пакетами, системами управления документами и сервисами для автоматизации задач.
- Распознавание таблиц — извлечение табличных данных с сохранением ячеек и структуры для дальнейшей обработки в электронных таблицах.
- Поддержка языков — распознавание широкого набора языков и алфавитов для многомовных документов.
- Инструменты проверки — средства для ручной и автоматической проверки и корректировки распознанного текста.