Ollama passe à MLX : l'IA locale sur Mac passe la seconde
Ollama, l'outil devenu incontournable pour faire tourner des LLM en local, vient de sortir sa version 0.19 en preview.
Et cette nouvelle version est bien plus qu'une mise à jour de routine : sur Mac, le moteur d'inférence repose désormais sur MLX, le framework de machine learning open source d'Apple.
En clair, Ollama arrête de se contenter du GPU via les API Metal classiques et exploite directement l'architecture mémoire unifiée des puces Apple Silicon. Le genre de changement qui ne se voit pas dans l'interface, mais qui se ressent clairement dès le premier prompt.
Mémoire vive, très vive
Pour comprendre pourquoi c'est significatif, un petit détour par l'architecture s'impose.
Sur un Mac Apple Silicon, le CPU, le GPU et le Neural Engine partagent la même mémoire physique (concrètement : votre modèle mange la même RAM que vos apps, pas une VRAM séparée qu'il faut approvisionner en parallèle).
MLX, qu'Apple a publié en open source fin 2023, est conçu spécifiquement pour tirer parti de cette particularité : les tenseurs vivent dans un espace mémoire unique, accessibles par tous les processeurs sans transfert.
Jusqu'ici, Ollama sur Mac passait par des couches d'abstraction plus génériques. En passant à MLX, le logiciel exploite directement ce que les puces Apple ont de mieux à offrir.
Les benchmarks ont parlé
Les chiffres annoncés par l'équipe Ollama sont plutôt prometteurs. Sur un Mac M5 avec le modèle Qwen3.5-35B-A3B :
- Prefill (le temps de digérer votre prompt) : 1810 tokens/s contre 1154 en version 0.18. Soit une vitesse d'exécution plus rapide de 57%.
- Decode (la vitesse à laquelle le modèle vous répond) : 112 tokens/s contre 58 auparavant. Soit +93% !
En passant à la quantification int4 (un format qui réduit la précision des poids du modèle pour gagner en vitesse et en mémoire), ça monte encore : 1851 tokens/s en prefill et 134 tokens/s en decode.
Pour un modèle MoE (Mixture of Experts, une architecture où seule une fraction du réseau s'active à chaque requête) de 35 milliards de paramètres (dont environ 3 milliards actifs par requête) qui tourne sur un laptop, on aurait eu du mal à y croire il y a encore deux ans.
À noter également : Ollama 0.19 repense son système de cache pour les conversations longues, en stockant des snapshots à des points stratégiques du prompt. Vos conversations ne repartent plus de zéro à chaque question.
M5 : le turbo en série
Les possesseurs de puces M5, M5 Pro et M5 Max ont droit à un bonus supplémentaire.
Apple a intégré dans le GPU de la série M5 des accélérateurs dédiés aux opérations de multiplication matricielle (le calcul de base de tout réseau de neurones). Ollama 0.19, via MLX, les exploite grâce aux TensorOps de Metal 4, ce qui accélère à la fois le temps de premier token et la vitesse de génération.
Pour les Mac M1 à M4, MLX apporte quand même un gain substantiel grâce à l'accès direct à la mémoire unifiée. Mais les Neural Accelerators du M5, eux, c'est gravé dans le silicium : aucune mise à jour logicielle ne pourra vous offrira ça sur une puce plus ancienne.
Petit bémol quand même : Ollama recommande un Mac avec au minimum 32 Go de mémoire unifiée pour profiter de cette intégration. Ce qui exclut de facto les MacBook Air et MacBook Pro d'entrée de gamme (encore à 8 ou 16 Go sur les configs de base).
Faire tourner un LLM de 35 milliards de paramètres en local, ça reste un sport qui demande un minimum d'équipement. Mais pour ceux qui utilisent déjà Ollama comme moteur pour des outils ou assistants locaux, le gain est immédiat grâce au passage à MLX.
La version 0.19 est disponible dès maintenant en preview sur le site d'Ollama.
À propos de l'auteur
Nicolas Lecointre
Chief Happiness Officer des développeurs, ceinture noire de sudo. Pour rire, j'ai créé Les Joies du Code. J'utilise Vim depuis 10 ans parce que je sais pas comment le quitter.
À lire également
Passbolt : le gestionnaire de mots de passe open source que votre équipe mérite vraiment
Je connais l’histoire, vous la connaissez, on la connaît tous. Le stagiaire qui est resté six mois, qui a fini par avoir accès à un peu (beaucoup) plus de choses...
Articles similaires
TurboQuant : Google réussit à diviser la mémoire de l'IA par 6, sans perdre en précision
Claude ouvre son contexte à 1 million de tokens : ce que ça change vraiment
Anthropic laisse fuiter 512 000 lignes de Claude Code sur npm
TurboQuant : Google réussit à diviser la mémoire de l'IA par 6, sans perdre en précision
Claude ouvre son contexte à 1 million de tokens : ce que ça change vraiment
Anthropic laisse fuiter 512 000 lignes de Claude Code sur npm
Mozilla lance cq, le Stack Overflow des agents IA
Plus de contenu
Quand je retire les commentaires d'un bout de code complexe
Quand j'essaie de copier une ligne dans les logs en temps réel
Quand je ramène des viennoiseries au bureau
Quand un utilisateur m'écrit juste "ça marche pas"
Quand je combine 2 bouts de code trouvés sur Stack Overflow
Quand on nous oblige à assister à une réunion avec le client
Quand on a un warning incompréhensible mais que tout fonctionne parfaitement
Quand je me lève en sachant que je vais commencer ma journée par du debug
Quand je retire les commentaires d'un bout de code complexe
Quand j'essaie de copier une ligne dans les logs en temps réel
Quand je ramène des viennoiseries au bureau
Quand un utilisateur m'écrit juste "ça marche pas"