Azure Computer Vision

Azure Computer Vision (OCR) — это служба оптического распознавания текста, разработанная корпорацией Microsoft в составе облачной платформы Azure. Сервис предназначен для извлечения печатного и рукописного текста из изображений и документов, поддерживает множественные языки и форматы и доступен как через облачный API, так и в форме контейнерного образа для локального развёртывания. Технология объединяет методы компьютерного зрения и обработки естественного языка для выделения текстовых блоков, определения их структуры и последующего преобразования в машинно-читаемый формат.

Служба эволюционировала от традиционных алгоритмов распознавания к использованию моделей глубокого обучения, что позволило повысить точность распознавания в условиях сложного фона, различных шрифтов и неравномерного освещения. Помимо базового извлечения символов, сервис включает функции распознавания ориентации страницы, сегментации блоков текста, определения языка и представления результатов в структурированном виде, удобном для интеграции с другими приложениями и workflow. Для локальных и регуляторно чувствительных сценариев предлагается контейнерная версия, обеспечивающая выполнение распознавания внутри инфраструктуры заказчика.

Извлечение печатного текста: распознавание набранного текста из изображений страниц, фотографий и сканов.
Распознавание рукописного текста: обработка рукописных заметок и форм, включая постобработку для повышения читаемости.
Многоязычная поддержка: детекция и распознавание текста на множестве языков и письменностей.
Структурированный вывод: возвращение результатов с координатами блоков, строк и слов для последующей визуализации или анализа.
Определение ориентации и выравнивание: автоматическое исправление наклона и поворота для улучшения качества распознавания.
Форматы ввода и интеграция: поддержка распространённых форматов изображений и интеграция через REST API и SDK.
Контейнеры для локального развёртывания: возможность запуска сервисов на собственном оборудовании для соблюдения требований конфиденциальности и локального хранения данных.
Постобработка и коррекция: инструменты для фильтрации шумов, нормализации текста и улучшения результатов при сложных условиях съёмки.
Совместимость с другими сервисами: интеграция с инструментами анализа изображений, извлечения сущностей и процессами автоматизации документов.
Масштабируемость и управление нагрузкой: облачные возможности для обработки больших объёмов данных и параллельной обработки изображений.

Аналоги Azure Computer Vision

ABBYY FineReader PDF

Azure Computer Vision