TextRazor — это сервис и набор инструментов для семантического анализа текста, предназначенный для извлечения структурированной информации из неструктурированных текстовых данных. Он предоставляет API для автоматической идентификации сущностей, извлечения ключевых фраз, определения тематик и классификации текстов, а также для построения синтаксического разбора и анализа зависимостей. Решение ориентировано на использование в приложениях поиска, аналитики контента, системах рекомендаций и автоматизации обработки естественного языка.
Платформа реализована в виде облачного сервиса с возможностью интеграции через HTTP API и SDK для различных языков программирования; также заявлена поддержка развёртывания в локальной инфраструктуре для предприятий с требованиями к конфиденциальности и контролю данных. В доступных описаниях сервис акцентирует внимание на сочетании правил извлечения, статистических методов и онтологий для повышения точности распознавания и сопоставления сущностей, а также предоставляет механизмы для расширения словарей и пользовательской настройки.
- Извлечение сущностей: обнаружение и нормализация именованных сущностей (персоны, организации, географические объекты, продукты и т. п.) с сопоставлением с базами знаний.
 - Ключевые фразы и термины: выделение релевантных фрагментов текста, представляющих основное содержание или терминосистему документа.
 - Тематики и категоризация: определение тематических направлений текста и классификация по пользовательским или предопределённым категориям.
 - Синтаксический разбор и зависимости: построение деревьев зависимости и маркировка синтаксических связей между элементами предложения.
 - Лемматизация и POS-теггинг: приведение слов к начальной форме и определение частей речи для дальнейшей лингвистической обработки.
 - Настраиваемые словари и правила: возможность добавления пользовательских сущностей, правил извлечения и расширения онтологий для специфичных доменов.
 - Интеграция и масштабирование: API-интерфейсы и SDK для быстрой интеграции в приложения, а также опции для локального развёртывания и корпоративного использования.
 - Поддержка мультиъязычности: обработка текстов на нескольких языках с учётом языковых особенностей морфологии и синтаксиса.
 - Форматы вывода и расширяемость: структурированные результаты в машиночитаемых форматах для последующей аналитики, агрегирования и визуализации.
 - Применение в задачах аналитики: использование для мониторинга медиа, автоматического тегирования контента, извлечения фактов и построения поисковых индексов.