OCRopus

Бесплатно
Открытый исходный код
macOS
Linux

Сайт: ocropus.github.io

OCRopus — это свободная система оптического распознавания символов (OCR), ориентированная на анализ документов и распознавание текста. Разработанная под руководством Томаса Брёйеля из Немецкого исследовательского центра искусственного интеллекта (DFKI) и при поддержке Google, OCRopus была анонсирована 9 апреля 2007 года. Система предназначена для обработки больших объёмов документов, таких как книги и архивы, и предоставляет исследователям и разработчикам мощные инструменты для создания и адаптации моделей распознавания.

OCRopus отличается модульной архитектурой, что позволяет легко интегрировать различные компоненты для анализа структуры документа, распознавания текста и языкового моделирования. Изначально использовавший движок Tesseract, OCRopus с версии 0.4.0 перешёл на собственный сегментный распознаватель, а с версии 1.0, выпущенной в ноябре 2014 года, стал использовать рекуррентные нейронные сети (LSTM) для распознавания текста. Система поддерживает работу с различными алфавитами, включая латиницу, кириллицу, греческий и индийские письменности, а также предоставляет инструменты для обучения и настройки моделей под специфические шрифты и языки.

  • Модульный дизайн: возможность замены и расширения компонентов системы, включая анализ структуры документа, распознавание символов и языковое моделирование.
  • Поддержка различных языков и шрифтов: включая латиницу, кириллицу, греческий и индийские письменности.
  • Использование рекуррентных нейронных сетей (LSTM): для повышения точности распознавания текста.
  • Поддержка формата hOCR: для вывода результатов распознавания в HTML-подобном формате, удобном для дальнейшей обработки.
  • Инструменты для обучения и настройки моделей: включая инструменты для разметки данных и создания обучающих наборов.
  • Кроссплатформенность: поддержка операционных систем Linux, FreeBSD и macOS.
  • Открытый исходный код: лицензия Apache 2.0, позволяющая свободное использование и модификацию системы.
Подробнее