Indic-OCR

Бесплатно
Открытый исходный код

Сайт: indic-ocr.github.io

Indic-OCR — это набор открытых инструментов и моделей, ориентированных на распознавание текста на индийских (индических) письменностях (скриптах Индии и соседних регионов). Проект объединяет подготовленные модели Tesseract для множества индийских языков, средства для анализа и детекции макета страницы (в том числе Olena) и инфраструктуру для развёртывания OCR как сервиса внутри организаций.

Идея Indic-OCR состоит в том, чтобы упростить и стандартизировать рабочие цепочки распознавания индийских письменностей, включая предобработку, сегментацию, распознавание и постобработку. В официальной документации указывается, что модели Tesseract были обучены специально с учётом особенностей письма, таких как зависимые глифы, конъюнкты и порядок диакритических знаков. При этом проект масштабируется на несколько скриптов, включая Ol Chiki (сантали) и Meetei Meyek (манипури).

Проект включает компонент «OCR Service», позволяющий разворачивать собственный сервер OCR с использованием Java, Maven, Olena, Tesseract и набора моделей (Tessdata) для индийских скриптов. В опубликованных описаниях отмечается, что этот сервис задуман как «батарейки включены» решение, пригодное для внедрения в сообщество или организацию.

  • Поддержка множества индийских письменностей через специализированные обученные модели Tesseract (например, для деванагари, бенгали, каннада, малаялам и др.)
  • Улучшенное обучение Tesseract с учётом индийской морфологии: обработка зависимых знаков как отдельных глифов и реорганизация порядка вывода
  • Интеграция инструментария Olena для детекции макета, анализа структуры документов и сегментации блоков текста
  • Возможность развёртывания OCR как сервис (API-сервер) внутри организации с использованием Java-стека и готовой инфраструктуры
  • Поддержка расширения: возможность обучения моделей на новых шрифтах или добавления новых индических языков при необходимости
  • Унификация конвейера OCR: от загрузки изображений и макетного анализа до распознанного текста и постобработки
  • Открытость к сообществу и возможность совместной доработки моделей и модулей
Подробнее