Paperwork — это свободное программное обеспечение с открытым исходным кодом, предназначенное для управления личными и служебными документами в цифровом виде. Проект разрабатывался как веб-приложение с возможностью установки на собственный сервер или локальную машину, обеспечивая централизованное хранение, индексацию и поиск отсканированных документов и заметок. Основная цель Paperwork — предоставить пользователю простой интерфейс для оцифровки, организации и поиска документов, сочетая функции сканирования, распознавания текста и классификации.
Архитектура Paperwork включает серверную часть, базу данных и веб-интерфейс, через который выполняется загрузка файлов, настройка меток и проведение полнотекстового поиска. Проект поддерживает обработку изображений и PDF-файлов, интеграцию с системами OCR для извлечения текста и создания индексируемых записей. Исторически Paperwork возник как ответ на потребность в удобной самохостируемой альтернативе коммерческим сервисам управления документами; подробная документация и активность сообщества могли меняться со временем, поэтому часть сведений может отличаться в зависимости от версии и форков.
- Сканирование и импорт: загрузка отсканированных изображений и PDF, добавление документов через веб-интерфейс или прямую синхронизацию файловой папки.
- OCR (распознавание текста): интеграция с движками оптического распознавания для извлечения текста из изображений и создания полнотекстовых записей.
- Полнотекстовый поиск: индексирование извлечённого текста и метаданных для быстрого поиска по содержимому документов.
- Метки и категории: возможность присваивать документам теги, категории и пользовательские поля для структурирования коллекции.
- Организация файлов: хранение оригинальных файлов и созданных текстовых представлений в единой структуре для удобной синхронизации с файловыми сервисами.
- Веб-интерфейс: удобная панель управления для просмотра, редактирования метаданных, аннотирования и поиска документов через браузер.
- Экспорт и резервное копирование: функции экспорта документов и базы данных для резервного копирования и миграции между инстансами.
- Самохостинг и конфиденциальность: возможность установки на собственном сервере, что позволяет хранить данные под контролем пользователя и интегрировать систему в локальную инфраструктуру.
- Поддержка форматов: работа с распространёнными форматами изображений и PDF, а также обработка многостраничных документов.
- Интеграция с внешними инструментами: поддержка подключаемых модулей и настройки рабочих процессов для автоматизации преобразования и маркировки документов.