Google Research анонсировала TurboQuant — алгоритм, который сжимает рабочую память ИИ без потери точности и, по данным компании, способен уменьшить KV-кэш как минимум в шесть раз, удешевляя запуск моделей
Что происходит
- Google Research представила новый алгоритм сжатия памяти TurboQuant, предназначенный для резкого уменьшения объема рабочей памяти, используемой системами искусственного интеллекта, без потери точности.
- Исследователи описывают TurboQuant как способ «сжать рабочую память ИИ без влияния на производительность», то есть уменьшить размер так называемого KV‑кэша минимум в шесть раз, сохранив качество ответов моделей.
- Технология основана на векторном квантовании — методе, при котором числовые представления данных заменяются более компактными кодами из ограниченного набора значений, что снижает требования к памяти и пропускной способности кэша при обработке запросов ИИ.
- В интернете TurboQuant уже сравнивают с вымышленным стартапом Pied Piper из ситкома «Кремниевая долина», где прорывным продуктом был алгоритм, сжимавший файлы почти без потерь. Пользователи называют разработку Google Pied Piper за похожий фокус на экстремальном сжатии без ухудшения качества.
- Гендиректор Cloudflare Мэттью Принс сравнил потенциальный эффект от снижения затрат на работу ИИ с китайской моделью DeepSeek, известной ориентацией на эффективность при ограниченных ресурсах.
- TurboQuant пока не используется широко в продуктах Google и остается лабораторным достижением. Кроме того, алгоритм нацелен на память при инференсе (процесс использования обученной модели искусственного интеллекта или нейросети для обработки новых, реальных данных и получения предсказаний/результатов), а не на ресурсы, необходимые для обучения ИИ‑моделей.
Что это значит
- Разработка TurboQuant вписывается в тренд на удешевление инфраструктуры искусственного интеллекта: по мере роста моделей и числа пользователей ключевым ограничением становятся не только вычислительные мощности, но и объем и скорость оперативной памяти, которую такие системы потребляют при каждом запросе.
- Подход Google адресует именно узкое место инференса — KV‑кэш: чем компактнее эти промежуточные представления, тем больше одновременных запросов может обслужить один сервер и тем дешевле становится запуск моделей при прочих равных, что важно для крупных облачных провайдеров и массовых потребительских сервисов.
- Сравнение с DeepSeek показывает, что гонка в ИИ идет не только за точностью и размером моделей, но и за эффективностью: если китайская разработка стала символом экономичного обучения на менее мощном «железе», то TurboQuant демонстрирует стремление за счет алгоритмов выжать больше из уже существующих ресурсов при эксплуатации моделей.
- Отсылка к Pied Piper иллюстрирует, что идеи агрессивного сжатия, показанные в массовой культуре как вымышленные, постепенно реализуются в реальных технологиях: если раньше подобные сравнения касались файловых форматов и сетей доставки контента, то теперь речь идет о внутренней памяти систем ИИ как новом поле для оптимизации.
- Разграничение между памятью для инференса и памятью для обучения важно для оценки эффекта: TurboQuant не снимает проблемы дефицита ресурсов при обучении гигантских моделей, которые по‑прежнему требуют огромных объемов оперативной памяти и специализированных чипов, но способен сделать дешевле и доступнее повседневный запуск уже обученных систем.
- Если подобные алгоритмы сжатия покажут устойчивый выигрыш без деградации качества, это может изменить экономику отрасли: снижение затрат на единичный запрос открывает путь к более дешевым тарифам для клиентов, расширению доступа к ИИ‑сервисам и появлению большего числа специализированных приложений, которые раньше были экономически невыгодны.
- Конкуренция вокруг методов квантования и сжатия ИИ‑моделей усиливается: разные игроки рынка ищут способы уменьшить размер весов, оптимизировать вычисления и память, а TurboQuant добавляет к этому направлению фокус на рабочем кэше, что подчеркивает переход индустрии от простого наращивания мощности к комплексной оптимизации всего стека — от алгоритмов до оборудования.
Источник: https://trends.rbc.ru/trends/industry/69c53be59a7947fe6caa15b8