CuneiForm — программное обеспечение для оптического распознавания текста (OCR), разработанное компанией Cognitive Technologies. Программа предназначена для преобразования изображений и отсканированных документов в редактируемый текст с сохранением структуры документа, включая разделение на абзацы, распознавание шрифтов и расположение блоков. Интерфейс и форматы ввода/вывода ориентированы на применение в офисной и прикладной обработке документов, цифровизации архивов и подготовке материалов для последующего редактирования и поиска.
История проекта включает несколько этапов развития: от ранних версий как проприетарного продукта до появления более поздних релизов с поддержкой различных языков и кодировок. В разных релизах уделялось внимание повышению точности распознавания, работе с многостраничными документами, таблицами и графическими элементами, а также интеграции с другими приложениями для пакетной обработки. Информация о конкретных версиях и датах релизов доступна в публичных описаниях разработчика; при отсутствии исчерпывающих данных текст признаёт ранние ограничения в источниках и описывает типичные возможности OCR-систем такого класса.
- Распознавание печатного текста на сканах и фотографиях с преобразованием в редактируемые форматы.
- Сохранение структуры документа: разделение на блоки, абзацы и строки, базовое сохранение формата.
- Поддержка нескольких языков и кодировок, включая варианты для языков с различными алфавитами.
- Пакетная обработка многостраничных документов и возможность работы с форматами изображений и PDF.
- Инструменты предобработки изображений: коррекция наклона, подавление шумов и улучшение контраста для повышения точности распознавания.
- Экспорт распознанного текста в распространённые форматы для дальнейшего редактирования и индексирования.
- Интеграция с другими приложениями и рабочими процессами для автоматизации оцифровки документов.
- Механизмы обучения и настройки словарей для повышения качества распознавания специализированной лексики.