TurboQuant : Google réussit à diviser la mémoire de l'IA par 6, sans perdre en précision

Google Research a publié mardi un papier sur un nouvel algorithme de compression pour modèles d'IA. En quelques heures, les actions des fabricants de mémoire flanchaient.
Quand le cache explose, le GPU pleure
L'algorithme s'appelle TurboQuant, et il s'attaque à un des problèmes les plus agaçants et les moins discutés de l'IA actuelle : le memory blow-up à l'inférence.
Concrètement, le cache clé-valeur (KV cache) est cette mémoire de travail qui stocke le contexte de la conversation pour éviter au modèle de tout recalculer à chaque token généré. Plus le prompt est long, plus le cache explose — et plus votre GPU pleure.
Tant que vous faites joujou avec des prompts de 3 lignes, ça passe. Mais dès qu'on parle de documents longs, de workflows multi-étapes ou d'agents persistants, la mémoire devient le vrai facteur limitant.
Le CEO de Cloudflare Matthew Prince y voit carrément le "moment DeepSeek" de Google, et Internet n'a pas tardé à comparer l'algo au Pied Piper de la série Silicon Valley (un algo de compression révolutionnaire, quasi sans perte, qui change les règles du jeu).
![]()
Encore une histoire de bits
Accrochez-vous, on rentre dans le technique. Le principe de TurboQuant repose sur deux briques complémentaires.
La première, PolarQuant, convertit les vecteurs de données en coordonnées polaires au lieu des coordonnées cartésiennes classiques. En gros, au lieu de dire "3 blocs vers l'est, 4 vers le nord", on dit "5 blocs à 37 degrés".
L'avantage : les angles suivent des distributions prévisibles et se répartissent sur une grille circulaire dont les limites sont connues d'avance. Du coup, plus besoin de l'étape de normalisation que les méthodes classiques de quantification traînent comme un boulet.
Habituellement, cette normalisation oblige à stocker des constantes de calibration sans compression pour chaque petit bloc de données, ce qui ajoute 1 à 2 bits par valeur et sabote en partie le gain de compression.
La deuxième brique, QJL, intervient en correcteur d'erreur : elle applique un seul bit résiduel pour nettoyer le bruit laissé par la première étape.
Résultat combiné : chaque valeur du cache KV passe de 16 bits à 3, et l'empreinte mémoire est divisée par 6. Le tout sans entraînement, sans fine-tuning et, selon les benchmarks de Google sur Gemma, Mistral et Llama, sans aucune perte de précision mesurable.
Sur les tâches "aiguille dans une botte de foin" (retrouver une info précise dans un long texte), TurboQuant obtient des scores parfaits tout en compressant le cache par 6. En version 4 bits sur GPU H100, l'algo délivre un speedup de 8x sur le calcul de l'attention par rapport au baseline 32 bits non compressé.
Wall Street n'a pas ri

Là où ça devient savoureux, c'est la réaction des marchés. Le jour même de l’annonce de Google, Micron a perdu 3%, Western Digital 4,7% et SanDisk 5,7%.
Les investisseurs ont rapidement fait le calcul : si l'industrie IA a besoin de 6 fois moins de mémoire pour faire tourner ses modèles, ça change sérieusement l'équation des centaines de milliards prévus en dépenses d'infrastructure.
Reste que les algorithmes de compression existent depuis des années sans avoir fondamentalement bouleversé les volumes d'achat de mémoire. Et surtout, la demande IA reste colossale.
Compresser plus, dépenser pareil
Certains y voient le "moment DeepSeek" de Google, mais la comparaison a ses limites : TurboQuant n'est pas encore déployé en production. Et surtout, il ne cible que l'inférence, pas l'entraînement, qui continue d'engloutir des quantités astronomiques de RAM.
L'histoire de l'informatique suggère d'ailleurs que ce type de gain d'efficacité ne réduit pas nécessairement les dépenses : il a plutôt tendance à les rediriger.
C'est le paradoxe de Jevons, un grand classique en informatique : quand le stockage devient moins cher, on stocke plus. Quand la bande passante augmente, les applications trouvent toujours les moyens de la consommer.
Les gains d'efficacité réduisent rarement les dépenses, ils augmentent l'usage. Il y a fort à parier que TurboQuant permettra surtout de faire tourner des modèles plus gros et de servir plus d'utilisateurs par GPU, pas de réduire la facture globale.
Pour Google, l'algo a aussi un intérêt direct sur la recherche vectorielle, la techno qui permet à Google Search, YouTube et la pub ciblée de trouver du contenu pertinent parmi des milliards d'entrées. TurboQuant compresse mieux que les méthodes existantes, tout en retrouvant les bons résultats avec la même précision.
Reste que le vrai test sera le passage à l'échelle en production. TurboQuant est un résultat de labo solide, mais les systèmes IA restent limités par l'infrastructure, l'énergie, les coûts et la complexité de faire fonctionner tous les composants ensemble. La compression, aussi élégante soit-elle, ne change pas cette donne.
À propos de l'auteur
Nicolas Lecointre
Chief Happiness Officer des développeurs, ceinture noire de sudo. Pour rire, j'ai créé Les Joies du Code. J'utilise Vim depuis 10 ans parce que je sais pas comment le quitter.
À lire également

Passbolt : le gestionnaire de mots de passe open source que votre équipe mérite vraiment
Je connais l’histoire, vous la connaissez, on la connaît tous. Le stagiaire qui est resté six mois, qui a fini par avoir accès à un peu (beaucoup) plus de choses...
Articles similaires

Claude ouvre son contexte à 1 million de tokens : ce que ça change vraiment


Dans le plus grand des calmes, Zuckerberg se construit un agent IA CEO pour l'aider à diriger Meta


Claude ouvre son contexte à 1 million de tokens : ce que ça change vraiment

Mozilla lance cq, le Stack Overflow des agents IA

Dans le plus grand des calmes, Zuckerberg se construit un agent IA CEO pour l'aider à diriger Meta

OpenAI acquiert Astral, le créateur de uv et Ruff
Plus de contenu

Quand je viens de perdre plusieurs milliers d'enregistrements à cause d'un mauvais backup
Quand le binôme trouve une solution simple à un truc que j'avais surcomplexifié

Quand je pense avoir terminé mon dev et que le testeur me remonte un bug critique

Quand je tombe sur du code commenté avec justesse et sans faute d'orthographe

Quand le dev senior sauve notre mise en prod

Quand un client m'envoie ses maquettes faites sous Paint

"Corrige ça une bonne fois pour toutes maintenant"

Quand quelqu'un de la compta vient me voir à mon poste pour un problème d'imprimante

Quand je viens de perdre plusieurs milliers d'enregistrements à cause d'un mauvais backup
Quand le binôme trouve une solution simple à un truc que j'avais surcomplexifié

Quand je pense avoir terminé mon dev et que le testeur me remonte un bug critique

Quand je tombe sur du code commenté avec justesse et sans faute d'orthographe

Quand le dev senior sauve notre mise en prod


