MobileBERT — это компактная и ускоренная версия модели BERT, предназначенная для использования на устройствах с ограниченными вычислительными ресурсами. Эта модель была предложена как компромисс между производительностью и эффективностью: сохранить способности модели к пониманию естественного языка, но снизить задержки и вес модели. В основе MobileBERT лежит архитектура, использующая инвертированные «бутылочные» (inverted bottleneck) блоки и продвинутые методы дистилляции знаний из более крупной модели.
Изначально создаётся учительская модель на базе BERT с инвертированными бутылочными блоками (inverted-bottleneck incorporated BERT-Large), после чего из неё посредством пошаговой (progressive) дистилляции знаний передаются внутренние представления и механизмы вниманий в более легкую модель-студент MobileBERT. Такой подход позволяет значительно уменьшить размер и время вывода по сравнению с BERT-Base, сохраняя при этом конкурентный уровень качества на стандартных задачах естественного языка.
- Глубокая, тонкая архитектура: MobileBERT имеет большое число слоёв (как у BERT Large), но с уменьшенной шириной внутренних слоёв для экономии параметров.
 - Инвертированные бутылочные блоки: используются для разделения внутреннего (внутри блока) и межблокового представлений, что облегчает дистилляцию и сжатие.
 - Прогрессивная дистилляция знаний: знания передаются поэтапно, блок за блоком, с выравниванием представлений и распределений внимания между учителем и студентом.
 - Сохранение производительности: при существенно меньшем размере и более быстром выводе модель показывает результаты, близкие к BERT Base на таких бенчмарках, как GLUE и SQuAD.
 - Уменьшение задержки на мобильных устройствах: MobileBERT может работать с низкой латентностью (например, десятки миллисекунд) на современных смартфонах.
 - Универсальность задач: модель остаётся task-agnostic — её можно дообучать на различные задачи NLU (классификация, извлечение, ответы на вопросы и др.).