Common Crawl — некоммерческая организация и проект по созданию и поддержке открытого архива веб-данных, представляющего собой периодически обновляемые массивы снимков части международного интернета. Проект собирает данные с помощью краулеров, формирует архивы в формате WARC/WAT/WET и предоставляет их в виде больших наборов данных для исследователей, разработчиков и организаций, работающих с обработкой естественного языка, индексированием, анализом ссылочной структуры и другими задачами, требующими массовых веб-корпусов.
Архивы Common Crawl содержат сырые HTML-документы, метаданные об ответах сервера, выделенный текст и структурированные представления страниц, что позволяет выполнять масштабный анализ контента, тренировать модели и воспроизводить исследования. Проект действует как открытая ресурсная платформа: данные доступны без платы за доступ, распространяются в неизменённом виде и сопровождаются описаниями форматов и примерами использования. Организация развивается за счёт грантов, пожертвований и партнёрских программ и ориентирована на предоставление инфраструктуры для крупномасштабных исследований интернета.
- Форматы данных: WARC для сырых HTTP-ответов, WAT для метаданных и WET для извлечённого текстового содержимого.
 - Регулярные снапшоты: периодические обходы веба, обеспечивающие серию снимков, пригодных для временных и исторических исследований.
 - Открытый доступ: наборы данных доступны публично без платного API или подписки, с возможностью скачивания и облачной обработки.
 - Масштаб: объёмы данных измеряются в петабайтах, что делает проект пригодным для задач больших данных и обучения масштабных моделей.
 - Метаданные и аннотации: включение структурированных описаний ответа сервера, ссылочной структуры и дополнительных метрик качества страниц.
 - Совместимость с инструментами: данные совместимы с широко используемыми инструментами обработки WARC и аналитическими платформами в облаке.
 - Применение: исследовательские работы по поиску и ранжированию, лингвистический анализ, мониторинг веб-экосистемы и разработка алгоритмов обработки естественного языка.
 - Политика использования: данные предоставляются без гарантий; пользователи несут ответственность за соблюдение применимых правовых и этических норм при их применении.