Transkribus — платформа для распознавания, транскрипции и публикации рукописных и печатных исторических документов, разработанная с целью поддержки исследований в области гуманитарных и архивных наук. Система объединяет инструменты для автоматического распознавания текста (HTR — Handwritten Text Recognition и OCR), ручной корректировки транскрипций, аннотирования и управления коллекциями. Пользователям предоставляются как предобученные модели, так и возможности обучения специализированных пользовательских моделей на основе загруженных образцов.
Платформа используется архивами, библиотеками, исследовательскими группами и частными лицами для оцифровки, структурирования и публикации исторических материалов. Transkribus обеспечивает рабочие процессы от загрузки изображений страниц до экспорта текста и публикации собраний, включая инструменты для оценки качества распознавания, коллективной работы и управления правами доступа. История проекта связана с академическими инициативами по цифровой культуре и развитием методов машинного обучения для анализа рукописных текстов.
- Распознавание рукописного текста (HTR) — модели глубокого обучения для автоматической транскрипции рукописных и печатных источников.
- Обучение пользовательских моделей — возможность создавать и дообучать модели на собственных датасетах для повышения точности на специфичных почерках.
- Инструменты редактирования — интерфейсы для ручной корректировки распознанного текста и проверки результатов.
- Аннотирование и разметка — поддержка добавления метаданных, тегов и структурной разметки документов.
- Управление коллекциями — организация, хранение и публикация оцифрованных сборников с настройками доступа.
- Экспорт и интеграция — экспорт транскриптов в стандартные форматы и интеграция с системами управления коллекциями и исследовательскими платформами.
- Оценка качества — метрики точности распознавания и инструменты для оценки производительности моделей.
- Коллективная работа — поддержка совместной работы нескольких пользователей над проектами и моделями.