PDF Candy OCR

PDF Candy OCR — это онлайн-инструмент для оптического распознавания текста (OCR) в PDF-файлах, а также часть пакета PDF Candy, который доступен и как настольное приложение для Windows. Он предназначен для преобразования отсканированных документов в редактируемый текст, что позволяет извлекать содержимое из изображений и сканов внутри PDF, делая его доступным для редактирования и поиска.

Онлайн-версия работает через веб-интерфейс: пользователь загружает PDF, выбирает язык распознавания, запускает процесс и получает файл с извлечённым текстом. В десктопной версии для Windows предусмотрена возможность обработки файлов локально, без необходимости подключения к сети, а также добавлены дополнительные функции управления PDF и редактирования. Точная история развития OCR-модуля в рамках PDF Candy публично не документирована, и некоторые детали зависят от версии.

Инструмент ориентирован на широкий круг пользователей — от тех, кто хочет преобразовать один скан на лету, до тех, кто обрабатывает большие объёмы документов, — и интегрирован в экосистему преобразования, редактирования и управления PDF, предлагаемую в составе PDF Candy.

Поддержка распознавания текста на 19 языках, что позволяет работать с документами на разных языках.
Возможность обработки онлайн через браузер без установки отдельного ПО.
Десктоп-версия для Windows, позволяющая выполнять OCR без подключения к интернету.
Преобразование отсканированных PDF в редактируемые форматы, такие как текст или внутри PDF.
Сохранение исходного форматирования документа максимально близким к оригиналу, насколько позволяет распознавание.
Поддержка пакетной обработки файлов (многократная обработка сразу нескольких документов).
Интеграция с другими инструментами PDF Candy: преобразование, слияние, разделение, сжатие и защита PDF.
Работа с файлами любого размера (в пределах ограничений версии) и отсутствие ограничения на длину документа.
В десктоп-версии — отсутствие необходимости передачи данных через сервер, что повышает конфиденциальность при обработке.