Spotify Wrapped 2025 : comment le géant du streaming génère 700 millions de rétrospectives personnalisées

Chaque année début décembre, des millions d'utilisateurs partagent leur Spotify Wrapped sur les réseaux sociaux, et l'édition 2025 ne fait pas exception.

Mais derrière ces jolies cartes colorées se cache un défi d'ingénierie data colossal pour les centaines de millions de rétrospectives générées par le géant du streaming musical.

Ce que Spotify calcule (et comment)

Spotify a communiqué sur les différentes "règles du jeu" en place pour les chiffres et stats mises en avant pour sa nouvelle rétrospective.

Pour commencer, les données sont collectées du 1er janvier à mi-novembre.

Aperçu des stories générées par Spotify Wrapped 2025

Première info : vos "Top Songs" ne sont pas classées par temps d'écoute total, mais par nombre de streams. Autrement dit, un titre que vous avez écouté 50 fois pendant 30 secondes passera devant un album que vous avez laissé tourner en entier 10 fois.

D'ailleurs, un stream n'est comptabilisé qu'après 30 secondes d'écoute (et il faut avoir écouté au moins 30 titres différents dans l'année pour débloquer cette stat).

Pour les Top Albums, la logique est différente : Spotify exige que vous ayez écouté au moins 70% des titres d'un album pour qu'ils apparaissent dans votre classement. Le fait d'écouter un seul titre en boucle n'aura donc absolument aucune incidence sur cette donnée.

La nouvelle fonctionnalité des "Clubs", introduite dans ce Spotify Wrapped 2025, illustre bien l'approche data (et astucieuse) de Spotify.

Les différents clubs introduits dans la rétrospective 2025 de Spotify

Chaque titre est associé à des étiquettes émotionnelles, et ces tags sont dérivés des noms de playlists créées par les utilisateurs ! Concrètement, si des milliers de personnes ajoutent une chanson à des playlists intitulées "rupture douloureuse" ou "triste", le titre hérite automatiquement de ces étiquettes.

Une forme de crowd-tagging qui évite d'étiqueter à la main des millions de morceaux.

Enfin, l'âge d'écoute repose sur un concept de psychologie appelé "reminiscence bump", qui constate que l'on a tendance à rester attaché à la musique que l'on a découvert entre 16 et 21 ans.

L'algorithme analyse les dates de sortie de tous les titres que vous avez écoutés cette année. S'il détecte que vous écoutez beaucoup plus de musique des années 90 que la moyenne des utilisateurs de votre âge, il en déduit que cette période a probablement marqué votre adolescence, et vous attribue l'âge correspondant aujourd'hui.

En gros, si vous avez 35 ans mais que vous écoutez surtout du rock des années 70, Spotify supposera que vous avez le profil musical de quelqu'un qui avait 16-21 ans à cette époque, donc entre 55 et 60 ans aujourd'hui.

L'architecture : Google Cloud et le défi du pétaoctet

Côté infrastructure, Spotify s'appuie sur Google Cloud Platform. Le pipeline de données repose sur plusieurs briques : Scio (une API Scala open-source développée par Spotify pour Apache Beam), Dataflow pour l'exécution des traitements, Bigtable pour le stockage clé-valeur, et BigQuery pour l'analyse.

Le défi principal consiste à joindre les données d'écoute de l'année entière avec les métadonnées (artistes, albums, genres) pour plus de 700 millions d'utilisateurs. En 2021, Spotify documentait déjà un pétaoctet de données pour ce job de jointure, un volume qui a forcément augmenté depuis.

Pour Wrapped 2020, les équipes de Spotify avaient documenté une optimisation majeure : le Sort Merge Bucket (SMB). Dans un système distribué classique, joindre deux tables massives implique de redistribuer les données entre les nœuds ("shuffle"), une opération coûteuse en temps et en ressources.

L'astuce du SMB : pré-partitionner les données par identifiant utilisateur et les trier en amont. La jointure se fait ensuite partition par partition, sans redistribution. Résultat : une réduction d'environ 50% des coûts Dataflow selon Spotify.

Le "Thundering Herd Problem"

Générer les données en amont, c'est une chose. Les servir à des dizaines de millions d'utilisateurs qui ouvrent tous l'application au même moment le jour du lancement, c'en est une autre. Ce pic de charge massif (et prévisible), les ingénieurs l'appellent le "Thundering Herd Problem".

La solution de Spotify combine plusieurs approches : un pré-calcul complet des données pendant le mois de novembre, une infrastructure Kubernetes avec auto-scaling pour absorber la montée en charge, et des tests de charge intensifs.

Pour ces tests, les équipes utilisent Moshpit, un outil interne intégré à Backstage, leur plateforme open-source de portail développeur. Il permet de simuler des milliers de requêtes simultanées vers n'importe quel service backend, avec un contrôle fin sur l'intensité et la durée du test.

Détail amusant : pour que les tests soient représentatifs, Spotify utilise les comptes de ses propres employés comme jeu de données. Leurs profils couvrent suffisamment de pays et de langues différents, et leurs données Wrapped sont disponibles plus tôt dans le cycle de développement que celles des utilisateurs externes.

Pour donner un ordre de grandeur, lors de Wrapped 2022, Spotify a enregistré 150 millions d'utilisateurs engagés, dont plusieurs dizaines de millions dans les 3 à 4 premières heures suivant le lancement.

L'IA en 2025 : une utilisation mesurée

Wrapped 2024 avait introduit un podcast personnalisé généré par intelligence artificielle, s'appuyant sur la technologie Audio Overviews de Google NotebookLM. Les retours ont été mitigés, et Spotify a choisi de ne pas reconduire cette feature.

Pour 2025, l'IA fait son retour sous une forme différente avec "Listening Archive". Un modèle de langage (LLM) génère des résumés narratifs de vos journées d'écoute les plus marquantes : votre plus grande journée de découvertes, votre journée d'écoute la plus intense, votre journée la plus nostalgique, etc.

À noter que pour y avoir accès, il faut avoir cumulé plus de 20 jours d'écoute significative dans l'année et être éligible à au moins deux "journées spéciales" (?). Spotify sélectionne ensuite jusqu'à cinq journées et génère un résumé pour chacune.

La philosophie reste sobre : l'IA intervient pour le storytelling et la mise en forme, pas pour le calcul des données elles-mêmes.

Au final, Wrapped montre surtout à quel point la personnalisation à grande échelle repose sur une infrastructure et des pipelines solides. Alors que l'expérience utilisateur paraît simple et fluide, la réalité technique derrière est d'une complexité considérable.