VietOCR

Бесплатно
Открытый исходный код
Windows
macOS
Linux

Сайт: vietocr.sourceforge.net

VietOCR — это графический клиент для движка оптического распознавания символов Tesseract, ориентированный на распознавание вьетнамского языка и других языков с использованием соответствующих тренировочных наборов. Проект представляет собой настольное приложение, реализованное на платформах Java и .NET (в разных реализациях), и предназначено для упрощения процесса сканирования и преобразования изображений в редактируемый текст. VietOCR объединяет возможности пакетной обработки, интеграции со сканерами и базовые инструменты постобработки для повышения качества результатов распознавания.

История проекта и подробная документация могут быть ограничены в публичных источниках; в случае отсутствия исчерпывающих сведений описание ниже основано на общедоступных характеристиках подобных интерфейсов к Tesseract и отмеченных функциях, приписываемых VietOCR в пользовательских описаниях. Приложение используется для подготовки изображений к распознаванию, выбора языковых пакетов Tesseract, управления очередями файлов и применения простых корректировок выходного текста, а также служит промежуточным слоем между сканером и движком OCR.

  • Интерфейс: графический пользовательский интерфейс с поддержкой настройки параметров распознавания и удобной загрузки изображений.
  • Поддержка языка: интеграция с тренировочными данными Tesseract для вьетнамского языка и возможности переключения между языковыми моделями.
  • Пакетная обработка: обработка множества файлов в очереди для автоматического распознавания без ручного запуска каждого документа.
  • Интеграция сканера: поддержка подключения сканеров (TWAIN/интерфейсы платформы) для прямого захвата страниц в приложение.
  • Предобработка изображений: базовые инструменты для улучшения качества изображения перед распознаванием — поворот, обрезка, изменение контраста и преобразование в оттенки серого.
  • Постобработка текста: средства для исправления типичных ошибок OCR, включая замену символов, фильтрацию и применение пользовательских правил для повышения точности.
  • Форматы вывода: экспорт распознанного текста в стандартные текстовые файлы с возможностью выбора кодировки.
  • Настройки Tesseract: доступ к параметрам движка Tesseract, таким как выбор psm (page segmentation mode) и конфигурационные файлы для тонкой настройки распознавания.
  • Локализация и поддержка языков: интерфейс и справочные сообщения с возможностью адаптации под разные языки и региональные настройки.
  • Применение в рабочих процессах: использование в архивации документов, цифровизации печатных материалов, подготовке текстов для перевода и последующего анализа.
Подробнее