rusOCR

Бесплатно
Открытый исходный код
Windows
macOS
Linux

Сайт: github.com/search?q=rusocr

rusOCR — программная библиотека для оптического распознавания текста (OCR), ориентированная на работу с кириллическими алфавитами и спецификой российских шрифтов. Она разрабатывается как инструмент для автоматизированного извлечения текстовой информации из растровых изображений, сканов документов, книг и фотографий, где встречаются кириллические символы, диакритика и особенности макета, характерные для русскоязычных источников. В случаях, когда публичной документации о проекте недостаточно, описание ниже объединяет общие принципы функционирования OCR-систем, адаптированных под кириллицу, и типичный набор возможностей, ожидаемых от такой библиотеки.

Исторически адаптация OCR под кириллицу требовала учёта набора шрифтов, лигатур, морфологических особенностей и частых шумов в сканах старых документов. Библиотеки подобного рода обычно включают предварительную обработку изображения, сегментацию строк и символов, модель распознавания на основе статистических методов или нейронных сетей и постобработку с учётом языковых моделей. В случае rusOCR в описании подчёркивается специализация на русскоязычных данных, поддержка различных кодировок вывода и интеграция с инструментами для пакетной обработки больших массивов документов.

  • Поддержка кириллицы: полная обработка русского алфавита и сопутствующих символов, корректная идентификация букв в разных регистрах и шрифтах.
  • Предобработка изображений: шумоподавление, коррекция наклона (deskew), бинаризация и выравнивание контрастности для повышения качества распознавания.
  • Сегментация макета: обнаружение зон текста, колонок, заголовков и блоков со смешанным содержимым (таблицы, подписи).
  • Модели распознавания: использование обучаемых алгоритмов (например, сверточных или рекуррентных нейросетей) и/или гибридных подходов для повышения точности на русских текстах.
  • Постобработка и словарная коррекция: применение языковых словарей, морфологической нормализации и правил для снижения числа ошибок и восстановления разорванных слов.
  • Поддержка различных форматов ввода/вывода: чтение растровых изображений популярных форматов и экспорт распознанного текста в UTF-8, PDF с возможностью поиска и другие текстовые форматы.
  • Интеграция и расширяемость: API и командная строка для встраивания в конвейеры обработки документов, возможность дообучения моделей на пользовательских корпусах.
  • Масштабируемость: оптимизации для пакетной обработки больших объёмов сканов и возможность распараллеливания задач.
  • Совместимость с устаревшими шрифтами: методы распознавания редких и исторических гарнитур, часто встречающихся в архивных материалах.
  • Локализация и кодировки: корректная работа с кириллическими кодировками и учёт языковых особенностей при формировании выходного текста.
Подробнее