Ollama passe à MLX : l'IA locale sur Mac passe la seconde

Ollama, l'outil devenu incontournable pour faire tourner des LLM en local, vient de sortir sa version 0.19 en preview.

Et cette nouvelle version est bien plus qu'une mise à jour de routine : sur Mac, le moteur d'inférence repose désormais sur MLX, le framework de machine learning open source d'Apple.

En clair, Ollama arrête de se contenter du GPU via les API Metal classiques et exploite directement l'architecture mémoire unifiée des puces Apple Silicon. Le genre de changement qui ne se voit pas dans l'interface, mais qui se ressent clairement dès le premier prompt.

Mémoire vive, très vive

Pour comprendre pourquoi c'est significatif, un petit détour par l'architecture s'impose.

Sur un Mac Apple Silicon, le CPU, le GPU et le Neural Engine partagent la même mémoire physique (concrètement : votre modèle mange la même RAM que vos apps, pas une VRAM séparée qu'il faut approvisionner en parallèle).

MLX, qu'Apple a publié en open source fin 2023, est conçu spécifiquement pour tirer parti de cette particularité : les tenseurs vivent dans un espace mémoire unique, accessibles par tous les processeurs sans transfert.

Jusqu'ici, Ollama sur Mac passait par des couches d'abstraction plus génériques. En passant à MLX, le logiciel exploite directement ce que les puces Apple ont de mieux à offrir.

Les benchmarks ont parlé

Les chiffres annoncés par l'équipe Ollama sont plutôt prometteurs. Sur un Mac M5 avec le modèle Qwen3.5-35B-A3B :

Prefill (le temps de digérer votre prompt) : 1810 tokens/s contre 1154 en version 0.18. Soit une vitesse d'exécution plus rapide de 57%.
Decode (la vitesse à laquelle le modèle vous répond) : 112 tokens/s contre 58 auparavant. Soit +93% !

En passant à la quantification int4 (un format qui réduit la précision des poids du modèle pour gagner en vitesse et en mémoire), ça monte encore : 1851 tokens/s en prefill et 134 tokens/s en decode.

Pour un modèle MoE (Mixture of Experts, une architecture où seule une fraction du réseau s'active à chaque requête) de 35 milliards de paramètres (dont environ 3 milliards actifs par requête) qui tourne sur un laptop, on aurait eu du mal à y croire il y a encore deux ans.

À noter également : Ollama 0.19 repense son système de cache pour les conversations longues, en stockant des snapshots à des points stratégiques du prompt. Vos conversations ne repartent plus de zéro à chaque question.

M5 : le turbo en série

Les possesseurs de puces M5, M5 Pro et M5 Max ont droit à un bonus supplémentaire.

Apple a intégré dans le GPU de la série M5 des accélérateurs dédiés aux opérations de multiplication matricielle (le calcul de base de tout réseau de neurones). Ollama 0.19, via MLX, les exploite grâce aux TensorOps de Metal 4, ce qui accélère à la fois le temps de premier token et la vitesse de génération.

Pour les Mac M1 à M4, MLX apporte quand même un gain substantiel grâce à l'accès direct à la mémoire unifiée. Mais les Neural Accelerators du M5, eux, c'est gravé dans le silicium : aucune mise à jour logicielle ne pourra vous offrira ça sur une puce plus ancienne.

Petit bémol quand même : Ollama recommande un Mac avec au minimum 32 Go de mémoire unifiée pour profiter de cette intégration. Ce qui exclut de facto les MacBook Air et MacBook Pro d'entrée de gamme (encore à 8 ou 16 Go sur les configs de base).

Faire tourner un LLM de 35 milliards de paramètres en local, ça reste un sport qui demande un minimum d'équipement. Mais pour ceux qui utilisent déjà Ollama comme moteur pour des outils ou assistants locaux, le gain est immédiat grâce au passage à MLX.

La version 0.19 est disponible dès maintenant en preview sur le site d'Ollama.