Common Crawl

Common Crawl — некоммерческая организация и проект по созданию и поддержке открытого архива веб-данных, представляющего собой периодически обновляемые массивы снимков части международного интернета. Проект собирает данные с помощью краулеров, формирует архивы в формате WARC/WAT/WET и предоставляет их в виде больших наборов данных для исследователей, разработчиков и организаций, работающих с обработкой естественного языка, индексированием, анализом ссылочной структуры и другими задачами, требующими массовых веб-корпусов.

Архивы Common Crawl содержат сырые HTML-документы, метаданные об ответах сервера, выделенный текст и структурированные представления страниц, что позволяет выполнять масштабный анализ контента, тренировать модели и воспроизводить исследования. Проект действует как открытая ресурсная платформа: данные доступны без платы за доступ, распространяются в неизменённом виде и сопровождаются описаниями форматов и примерами использования. Организация развивается за счёт грантов, пожертвований и партнёрских программ и ориентирована на предоставление инфраструктуры для крупномасштабных исследований интернета.

Форматы данных: WARC для сырых HTTP-ответов, WAT для метаданных и WET для извлечённого текстового содержимого.
Регулярные снапшоты: периодические обходы веба, обеспечивающие серию снимков, пригодных для временных и исторических исследований.
Открытый доступ: наборы данных доступны публично без платного API или подписки, с возможностью скачивания и облачной обработки.
Масштаб: объёмы данных измеряются в петабайтах, что делает проект пригодным для задач больших данных и обучения масштабных моделей.
Метаданные и аннотации: включение структурированных описаний ответа сервера, ссылочной структуры и дополнительных метрик качества страниц.
Совместимость с инструментами: данные совместимы с широко используемыми инструментами обработки WARC и аналитическими платформами в облаке.
Применение: исследовательские работы по поиску и ранжированию, лингвистический анализ, мониторинг веб-экосистемы и разработка алгоритмов обработки естественного языка.
Политика использования: данные предоставляются без гарантий; пользователи несут ответственность за соблюдение применимых правовых и этических норм при их применении.