AnyOCR

Бесплатно
Открытый исходный код
Windows
macOS
Linux

Сайт: github.com/anyforge/anyocr

AnyOCR — программный инструмент для оптического распознавания текста (OCR), ориентированный на кроссплатформенное использование и оптимизированный для запуска через ONNX Runtime. Продукт включает набор подготовленных нейросетевых моделей для ключевых этапов обработки изображения: детекции текстовых регионов, определения ориентации текста и собственной текстовой транскрипции. Архитектура AnyOCR предполагает разделение задач на отдельные модули, что упрощает интеграцию в прикладные решения и позволяет гибко подбирать модели для различных языковых наборов и требований к скорости и точности.

Источники конкретной реализации AnyOCR в открытых публикациях ограничены; если сведения о проекте отсутствуют или неполны, ниже приводится скомпонованное описание типичной функциональности подобных ONNX-ориентированных OCR-решений. AnyOCR рассчитан на использование в сценариях автоматизации ввода данных, обработки документов, мобильных приложений и серверных пайплайнов, где важны переносимость, детерминированность инференса и совместимость с аппаратным ускорением, предоставляемым ONNX Runtime.

  • Кроссплатформенность: поддержка запуска на различных операционных системах и аппаратных конфигурациях за счёт использования ONNX Runtime.
  • Модульная архитектура: отдельные компоненты для детекции текста, классификации ориентации и распознавания символов, позволяющие комбинировать и заменять модели.
  • Поддержка языковых наборов: готовые настройки и словари для неклассических и латинских алфавитов, включая адаптации для китайских и англоязычных наборов символов.
  • Высокая производительность инференса: оптимизация под ONNX Runtime обеспечивает стабильность и ускорение при использовании CPU и ускорителей (GPU, NPU) при наличии соответствующей поддержки.
  • Гибкость в обучении и дообучении: возможность замены или дообучения моделей при наличии размеченных данных для специфичных доменов или шрифтов.
  • Пайплайн предобработки: стандартные операции подготовки изображений (нормализация, коррекция наклона, бинарызация) для повышения качества распознавания.
  • Конфигурируемые параметры качества: настройки баланса между скоростью и точностью, пороговые значения для детекции и постобработки результатов.
  • Интеграция с системами обработки документов: удобные входы/выходы для включения в ETL‑процессы, RPA и back‑office приложения.
  • Постобработка и корректировка: средства для нормализации выходного текста, применение языковых правил и фильтрация шумовых сегментов.
  • Локальная работа и конфиденциальность: архитектура позволяет выполнять распознавание локально без передачи изображений на внешние сервисы, если это требуется политикой развертывания.
Подробнее