BLOOM

Бесплатно
Открытый исходный код

Сайт: bigscience.huggingface.co

BLOOM — это большая многоязычная языковая модель с открытым доступом, разработанная в рамках инициативы BigScience и насчитывающая приблизительно 176 млрд параметров. Модель спроектирована как автодекодерный трансформер (decoder-only), способный генерировать продолжения текста на основании заданного входного контекста. Она предназначена для поддержки исследований, открытого аудита и использования языковых моделей высокого класса с прозрачностью и реплицируемостью.

Разработка BLOOM велась коллективом сотен волонтёров, исследователей и инженеров из разных стран, в рамках годового воркшопа BigScience. Обучение модели проводилось в промежутке с марта по июль 2022 года на суперкомпьютере Jean Zay при поддержке ресурсов CNRS / GENCI. Корпус для обучения, названный ROOTS, включал тексты на 46 естественных языках и 13 языках программирования, объёмом порядка 1,6 ТБ (на уровне ~350–370 млрд токенов). BLOOM распространяется под лицензией, разрешающей исследовательское и прикладное использование при соблюдении ограничений по «ответственному ИИ».

Модель применяется в задачах генерации текста, диалоговых систем, машинного перевода, многозадачного обучения с подсказками (prompting) и экспериментальных исследований поведения больших языковых моделей. Благодаря открытости кода, весов и контрольным точкам, исследователи могут анализировать внутренние представления, свойства внимания и устойчивость к смещениям.

  • Поддержка 46 естественных языков и 13 языков программирования
  • Архитектура автодекодерного трансформера с механизмом ALiBi для позиционных смещений
  • Публикация весов, контрольных точек и учебных данных с прозрачностью
  • Возможность zero-shot и few-shot использования через подсказки (prompting)
  • Открытая лицензия с ограничениями для ответственного использования
  • Многозадачное дообучение (multitask finetuning) и экспериментальная настройка для различных заданий
  • Доступ исследователям к внутренним состояниям (включая скрытые слои, распределения внимания и логиты)
  • Сценарии запуска как на мощных кластерах, так и в распределённых или гибридных средах (включая частичную выгрузку на CPU / сжатые представления)
Подробнее