Azure Computer Vision (OCR) — это служба оптического распознавания текста, разработанная корпорацией Microsoft в составе облачной платформы Azure. Сервис предназначен для извлечения печатного и рукописного текста из изображений и документов, поддерживает множественные языки и форматы и доступен как через облачный API, так и в форме контейнерного образа для локального развёртывания. Технология объединяет методы компьютерного зрения и обработки естественного языка для выделения текстовых блоков, определения их структуры и последующего преобразования в машинно-читаемый формат.
Служба эволюционировала от традиционных алгоритмов распознавания к использованию моделей глубокого обучения, что позволило повысить точность распознавания в условиях сложного фона, различных шрифтов и неравномерного освещения. Помимо базового извлечения символов, сервис включает функции распознавания ориентации страницы, сегментации блоков текста, определения языка и представления результатов в структурированном виде, удобном для интеграции с другими приложениями и workflow. Для локальных и регуляторно чувствительных сценариев предлагается контейнерная версия, обеспечивающая выполнение распознавания внутри инфраструктуры заказчика.
- Извлечение печатного текста: распознавание набранного текста из изображений страниц, фотографий и сканов.
- Распознавание рукописного текста: обработка рукописных заметок и форм, включая постобработку для повышения читаемости.
- Многоязычная поддержка: детекция и распознавание текста на множестве языков и письменностей.
- Структурированный вывод: возвращение результатов с координатами блоков, строк и слов для последующей визуализации или анализа.
- Определение ориентации и выравнивание: автоматическое исправление наклона и поворота для улучшения качества распознавания.
- Форматы ввода и интеграция: поддержка распространённых форматов изображений и интеграция через REST API и SDK.
- Контейнеры для локального развёртывания: возможность запуска сервисов на собственном оборудовании для соблюдения требований конфиденциальности и локального хранения данных.
- Постобработка и коррекция: инструменты для фильтрации шумов, нормализации текста и улучшения результатов при сложных условиях съёмки.
- Совместимость с другими сервисами: интеграция с инструментами анализа изображений, извлечения сущностей и процессами автоматизации документов.
- Масштабируемость и управление нагрузкой: облачные возможности для обработки больших объёмов данных и параллельной обработки изображений.