CLOVA OCR

Бесплатно
Открытый исходный код
Android
iOS

Сайт: clova.ai

CLOVA OCR — это программный сервис и набор моделей для оптического распознавания текста, разработанный в рамках экосистемы CLOVA компании NAVER. Решение предназначено для автоматизированного извлечения текстовой информации из изображений и документов, включая этапы детекции текстовых блоков, сегментации строк и символов, а также постобработки и структурирования распознанных данных. В архитектуре сервиса обычно объединяются сверточные и рекуррентные нейронные сети, методы трансформеров и модули для пред- и постобработки изображений, что обеспечивает работу с различными языками, шрифтами и качеством исходных материалов.

Исторически CLOVA OCR является частью набора инструментов и SDK, ориентированных на интеграцию в мобильные и облачные приложения: он может предоставляться как API, а также в виде локальных библиотек для встраивания в клиентские решения. Применение охватывает распознавание машинно-печатного и рукописного текста, извлечение ключевых полей из бланков и документов, преобразование изображений в редактируемые форматы и подготовку данных для последующей обработки (поиска, индексации, анализа). Документация и SDK обычно включают примеры использования, настройки языковых моделей и параметры для повышения устойчивости к искажениям и шуму.

  • Детекция текста: обнаружение областей с текстом на изображении и выделение прямоугольных или многоугольных регионов для последующего распознавания.
  • Распознавание символов (OCR): преобразование пиксельных изображений строк и слов в последовательности символов с поддержкой множества языков и кодировок.
  • Поддержка многократных языков: модели и словари, позволяющие работать с азиатскими и латинскими системами письма, а также комбинированными документами.
  • Извлечение ключевой информации: распознавание и структурирование полей на формах, счетах, квитанциях и удостоверениях (например, даты, суммы, имена, идентификаторы).
  • Мобильная интеграция: SDK и примеры для встраивания в мобильные приложения с оптимизациями по производительности и энергопотреблению.
  • Постобработка и нормализация: коррекция ошибок распознавания, нормализация форматов дат и чисел, удаление артефактов и объединение фрагментов текста.
  • API и облачная служба: веб-интерфейсы и RESTful API для передачи изображений, получения результатов в структурированном формате и управления задачами пакетной обработки.
  • Локальные и гибридные варианты развёртывания: возможность работать в облаке, локально на сервере предприятия или в виде смешанного решения для учёта требований к приватности и задержкам.
  • Тюнинг и адаптация моделей: механизмы обучения на пользовательских данных и настройки для специфичных доменов (страницы документов, чеки, паспорта и т. п.).
  • Интеграция с обработкой естественного языка: конвейеры, объединяющие результаты OCR с NLP-модулями для семантического анализа, категоризации и поиска.
Подробнее