OCR++ — это фреймворк с открытым исходным кодом, предназначенный для извлечения структурированной информации из научных статей. Он был разработан с целью автоматизации обработки научных публикаций, включая извлечение метаданных, структуры документа, библиографии и ссылок на наборы данных. Основной задачей OCR++ является повышение эффективности и точности обработки научных текстов, что особенно важно для создания цифровых библиотек и научных баз данных.
Фреймворк был представлен в 2016 году группой исследователей из Индийского института технологий в Карнапуре. Он использует гибридный подход, комбинируя правила и машинное обучение для анализа различных типов научных статей. OCR++ продемонстрировал значительное улучшение точности и скорости извлечения информации по сравнению с существующими инструментами того времени, обеспечивая около 50% улучшения точности и 52% сокращения времени обработки.
- Извлечение метаданных: извлечение таких данных, как название статьи, имена авторов, их аффилиации и адреса электронной почты.
- Анализ структуры документа: определение заголовков разделов, основного текста, заголовков таблиц и рисунков, URL-адресов и сносок.
- Извлечение библиографии: идентификация цитат и ссылок на другие работы.
- Обработка PDF-документов: преобразование PDF-файлов в XML-формат с использованием инструмента pdf2xml для последующего анализа.
- Экспорт в TEI-формат: возможность экспорта извлеченной информации в структурированные документы, закодированные в формате TEI (Text Encoding Initiative).
- Открытый исходный код: доступность исходного кода фреймворка позволяет исследователям и разработчикам адаптировать и расширять его функциональность.