Calamari OCR

Calamari OCR — это высокопроизводительный инструмент оптического распознавания символов (OCR), разработанный для обработки текстовых строк с использованием глубоких нейронных сетей. Основанный на TensorFlow, он сочетает в себе сверточные нейронные сети (CNN) и сети с долгосрочной и краткосрочной памятью (LSTM), обученные с применением алгоритма Connectionist Temporal Classification (CTC). Это решение ориентировано на точное распознавание текста, включая как современные, так и исторические шрифты, такие как немецкий фрактурный стиль.

Calamari OCR был представлен в 2018 году как открытое программное обеспечение, предназначенное для решения задач OCR на уровне строк текста. В отличие от полноценных OCR-пайплайнов, таких как OCRopus или Tesseract, Calamari фокусируется исключительно на распознавании текста, предоставляя гибкие возможности для интеграции и настройки. Он активно используется в научных и исследовательских проектах, связанных с цифровизацией исторических документов и книг.

Глубокие нейронные сети: Использование CNN и LSTM для повышения точности распознавания.
Алгоритм CTC: Применение Connectionist Temporal Classification для обучения моделей без необходимости выравнивания входных и выходных последовательностей.
Поддержка GPU: Возможность использования графических процессоров для ускорения обучения и предсказания.
Техники предобучения и голосования: Применение методов предобучения и голосования для улучшения качества распознавания.
Модульная структура: Возможность интеграции в существующие пайплайны OCR и настройки под специфические задачи.
Поддержка различных форматов данных: Работа с форматами PageXML, Abbyy, HDF5 и другими для удобства обработки данных.
Открытый исходный код: Распространение под лицензией GPL-3.0, что обеспечивает прозрачность и возможность модификации.