TurboQuant : Google réussit à diviser la mémoire de l'IA par 6, sans perdre en précision

Google Research a publié mardi un papier sur un nouvel algorithme de compression pour modèles d'IA. En quelques heures, les actions des fabricants de mémoire flanchaient.

Quand le cache explose, le GPU pleure

L'algorithme s'appelle TurboQuant, et il s'attaque à un des problèmes les plus agaçants et les moins discutés de l'IA actuelle : le memory blow-up à l'inférence.

Concrètement, le cache clé-valeur (KV cache) est cette mémoire de travail qui stocke le contexte de la conversation pour éviter au modèle de tout recalculer à chaque token généré. Plus le prompt est long, plus le cache explose — et plus votre GPU pleure.

Tant que vous faites joujou avec des prompts de 3 lignes, ça passe. Mais dès qu'on parle de documents longs, de workflows multi-étapes ou d'agents persistants, la mémoire devient le vrai facteur limitant.

Le CEO de Cloudflare Matthew Prince y voit carrément le "moment DeepSeek" de Google, et Internet n'a pas tardé à comparer l'algo au Pied Piper de la série Silicon Valley (un algo de compression révolutionnaire, quasi sans perte, qui change les règles du jeu).

Pied Piper, Silicon Valley

Encore une histoire de bits

Accrochez-vous, on rentre dans le technique. Le principe de TurboQuant repose sur deux briques complémentaires.

La première, PolarQuant, convertit les vecteurs de données en coordonnées polaires au lieu des coordonnées cartésiennes classiques. En gros, au lieu de dire "3 blocs vers l'est, 4 vers le nord", on dit "5 blocs à 37 degrés".

L'avantage : les angles suivent des distributions prévisibles et se répartissent sur une grille circulaire dont les limites sont connues d'avance. Du coup, plus besoin de l'étape de normalisation que les méthodes classiques de quantification traînent comme un boulet.

Habituellement, cette normalisation oblige à stocker des constantes de calibration sans compression pour chaque petit bloc de données, ce qui ajoute 1 à 2 bits par valeur et sabote en partie le gain de compression.

La deuxième brique, QJL, intervient en correcteur d'erreur : elle applique un seul bit résiduel pour nettoyer le bruit laissé par la première étape.

Résultat combiné : chaque valeur du cache KV passe de 16 bits à 3, et l'empreinte mémoire est divisée par 6. Le tout sans entraînement, sans fine-tuning et, selon les benchmarks de Google sur Gemma, Mistral et Llama, sans aucune perte de précision mesurable.

Sur les tâches "aiguille dans une botte de foin" (retrouver une info précise dans un long texte), TurboQuant obtient des scores parfaits tout en compressant le cache par 6. En version 4 bits sur GPU H100, l'algo délivre un speedup de 8x sur le calcul de l'attention par rapport au baseline 32 bits non compressé.

Wall Street n'a pas ri

Leonardo DiCpario dans le Loup de Wall Street

Là où ça devient savoureux, c'est la réaction des marchés. Le jour même de l’annonce de Google, Micron a perdu 3%, Western Digital 4,7% et SanDisk 5,7%.

Les investisseurs ont rapidement fait le calcul : si l'industrie IA a besoin de 6 fois moins de mémoire pour faire tourner ses modèles, ça change sérieusement l'équation des centaines de milliards prévus en dépenses d'infrastructure.

Reste que les algorithmes de compression existent depuis des années sans avoir fondamentalement bouleversé les volumes d'achat de mémoire. Et surtout, la demande IA reste colossale.

Compresser plus, dépenser pareil

Certains y voient le "moment DeepSeek" de Google, mais la comparaison a ses limites : TurboQuant n'est pas encore déployé en production. Et surtout, il ne cible que l'inférence, pas l'entraînement, qui continue d'engloutir des quantités astronomiques de RAM.

L'histoire de l'informatique suggère d'ailleurs que ce type de gain d'efficacité ne réduit pas nécessairement les dépenses : il a plutôt tendance à les rediriger.

C'est le paradoxe de Jevons, un grand classique en informatique : quand le stockage devient moins cher, on stocke plus. Quand la bande passante augmente, les applications trouvent toujours les moyens de la consommer.

Les gains d'efficacité réduisent rarement les dépenses, ils augmentent l'usage. Il y a fort à parier que TurboQuant permettra surtout de faire tourner des modèles plus gros et de servir plus d'utilisateurs par GPU, pas de réduire la facture globale.

Pour Google, l'algo a aussi un intérêt direct sur la recherche vectorielle, la techno qui permet à Google Search, YouTube et la pub ciblée de trouver du contenu pertinent parmi des milliards d'entrées. TurboQuant compresse mieux que les méthodes existantes, tout en retrouvant les bons résultats avec la même précision.

Reste que le vrai test sera le passage à l'échelle en production. TurboQuant est un résultat de labo solide, mais les systèmes IA restent limités par l'infrastructure, l'énergie, les coûts et la complexité de faire fonctionner tous les composants ensemble. La compression, aussi élégante soit-elle, ne change pas cette donne.