TextRazor

TextRazor — это сервис и набор инструментов для семантического анализа текста, предназначенный для извлечения структурированной информации из неструктурированных текстовых данных. Он предоставляет API для автоматической идентификации сущностей, извлечения ключевых фраз, определения тематик и классификации текстов, а также для построения синтаксического разбора и анализа зависимостей. Решение ориентировано на использование в приложениях поиска, аналитики контента, системах рекомендаций и автоматизации обработки естественного языка.

Платформа реализована в виде облачного сервиса с возможностью интеграции через HTTP API и SDK для различных языков программирования; также заявлена поддержка развёртывания в локальной инфраструктуре для предприятий с требованиями к конфиденциальности и контролю данных. В доступных описаниях сервис акцентирует внимание на сочетании правил извлечения, статистических методов и онтологий для повышения точности распознавания и сопоставления сущностей, а также предоставляет механизмы для расширения словарей и пользовательской настройки.

Извлечение сущностей: обнаружение и нормализация именованных сущностей (персоны, организации, географические объекты, продукты и т. п.) с сопоставлением с базами знаний.
Ключевые фразы и термины: выделение релевантных фрагментов текста, представляющих основное содержание или терминосистему документа.
Тематики и категоризация: определение тематических направлений текста и классификация по пользовательским или предопределённым категориям.
Синтаксический разбор и зависимости: построение деревьев зависимости и маркировка синтаксических связей между элементами предложения.
Лемматизация и POS-теггинг: приведение слов к начальной форме и определение частей речи для дальнейшей лингвистической обработки.
Настраиваемые словари и правила: возможность добавления пользовательских сущностей, правил извлечения и расширения онтологий для специфичных доменов.
Интеграция и масштабирование: API-интерфейсы и SDK для быстрой интеграции в приложения, а также опции для локального развёртывания и корпоративного использования.
Поддержка мультиъязычности: обработка текстов на нескольких языках с учётом языковых особенностей морфологии и синтаксиса.
Форматы вывода и расширяемость: структурированные результаты в машиночитаемых форматах для последующей аналитики, агрегирования и визуализации.
Применение в задачах аналитики: использование для мониторинга медиа, автоматического тегирования контента, извлечения фактов и построения поисковых индексов.