OCR++

OCR++ — это фреймворк с открытым исходным кодом, предназначенный для извлечения структурированной информации из научных статей. Он был разработан с целью автоматизации обработки научных публикаций, включая извлечение метаданных, структуры документа, библиографии и ссылок на наборы данных. Основной задачей OCR++ является повышение эффективности и точности обработки научных текстов, что особенно важно для создания цифровых библиотек и научных баз данных.

Фреймворк был представлен в 2016 году группой исследователей из Индийского института технологий в Карнапуре. Он использует гибридный подход, комбинируя правила и машинное обучение для анализа различных типов научных статей. OCR++ продемонстрировал значительное улучшение точности и скорости извлечения информации по сравнению с существующими инструментами того времени, обеспечивая около 50% улучшения точности и 52% сокращения времени обработки.

Извлечение метаданных: извлечение таких данных, как название статьи, имена авторов, их аффилиации и адреса электронной почты.
Анализ структуры документа: определение заголовков разделов, основного текста, заголовков таблиц и рисунков, URL-адресов и сносок.
Извлечение библиографии: идентификация цитат и ссылок на другие работы.
Обработка PDF-документов: преобразование PDF-файлов в XML-формат с использованием инструмента pdf2xml для последующего анализа.
Экспорт в TEI-формат: возможность экспорта извлеченной информации в структурированные документы, закодированные в формате TEI (Text Encoding Initiative).
Открытый исходный код: доступность исходного кода фреймворка позволяет исследователям и разработчикам адаптировать и расширять его функциональность.