Яндекс разработал новые методы сжатия языковых моделей — с их помощью размер модели можно уменьшить до 8 раз, сохранив качество ответов на 95%.
Способ включает два инструмента: первый сжимает нейросети, а второй исправляет ошибки, возникающие в процессе уменьшения модели. Решение позволит сократить расходы на необходимое оборудование до 8 раз и запускать нейросети на устройствах с меньшей вычислительной мощностью.
Кстати, методы сжатия нейросетей уже доступны для применения — код опубликован на GitHub.