IronOCR

IronOCR — коммерческая библиотека для платформы .NET, предназначенная для оптического распознавания текста (OCR) в растровых изображениях и PDF-документах. Библиотека реализует набор функций для извлечения текста, обработки изображений перед распознаванием и экспорта результатов в различные форматы, включая обычный текст и так называемые searchable PDF. Решение ориентировано на интеграцию в серверные и клиентские приложения, использующие экосистему .NET и языки семейства C#.

Разработка IronOCR включает средства взаимодействия с движками распознавания, поддержку нескольких языков и механизмов предварительной обработки изображений (фильтрация, бинаризация, выравнивание). В документации продукта подчёркивается совместимость с распространёнными форматами изображений и PDF, возможность пакетной обработки документов и расширяемость для встраивания в бизнес-процессы, требующие автоматизированного извлечения текстовой информации из сканов и фотографий.

Распознавание текста: извлечение текста из растровых изображений и страниц PDF с поддержкой стилевых и структурных особенностей документа.
Многоязычная поддержка: распознавание текста на нескольких языках и скриптах, включая латиницу, кириллицу и другие алфавиты в зависимости от доступных словарей и моделей.
Экспорт результатов: сохранение распознанного текста в виде текстовых файлов и создание searchable PDF с наложенным слоем распознанного текста поверх исходного изображения.
Интеграция с Tesseract: возможность использовать движок Tesseract как один из вариантов механизма распознавания либо применять собственные алгоритмы и фильтры для улучшения качества.
Предобработка изображений: набор фильтров и инструментов для очистки, выравнивания, удаления шума и улучшения контраста, направленных на повышение точности OCR.
Пакетная обработка и автоматизация: средства для обработки больших наборов документов и интеграции в рабочие процессы с последовательной обработкой файлов.
Настраиваемость и расширяемость: API для настройки параметров распознавания, добавления пользовательских словарей и обработки специфичных типов документов.
Совместимость с .NET: ориентированность на экосистему .NET, простая интеграция в проекты на C# и других языках платформы, поддержка распространённых версий фреймворка и .NET Core/NET.
Обработка PDF: извлечение страниц из PDF, распознавание текста в отсканированных страницах и формирование документов с поисковым слоем.
Управление качеством распознавания: инструменты для оценки и повышения точности, включая постобработку, коррекцию ошибок распознавания и использование пользовательских правил.