Tech

Comment Shazam reconnaît-il presque toutes les chansons?

Par Julian, le mars 25, 2021 — application, google, ios — 4 minutes de lecture
Comment Shazam reconnaît-il presque toutes les chansons?

Si vous êtes un utilisateur de Shazam ou si vous avez déjà croisé l’application de quelque manière que ce soit, vous devez avoir été impressionné par la rapidité avec laquelle elle détecte (presque) n’importe quelle chanson. Vous êtes-vous déjà demandé comment la plateforme réalise cet exploit?

Venez mieux comprendre comment tout fonctionne.

L’application de la reconnaissance musicale

Shazam est l’une des plates-formes les plus simples, intuitives et utiles jamais créées. C’est une application de reconnaissance musicale qui sert à trouver des informations sur une chanson que vous avez aimée, mais dont vous ne connaissez pas le titre et l’artiste.

Sans avoir besoin de rechercher ce que vous comprenez d’une chanson sur YouTube ou Google, l’application vous permet d’enregistrer quelques secondes de ce que vous écoutez et, presque instantanément, trouve le contenu, ainsi que l’artiste.

La technologie derrière cet exploit est un mystère pour beaucoup de gens, mais essayons de comprendre comment cela fonctionne.

Après tout, comment fonctionne Shazam?

Shazam utilise une technologie développée par Avery Wang, co-fondateur de l’application, afin qu’il soit possible d’identifier les chansons recherchées. Désormais, le secret de l’application réside dans les empreintes digitales que cette technologie crée pour les enregistrements audio.

Autrement dit, Shazam crée et stocke des empreintes digitales audio qui consistent en des collections de données numériques pour chacune de plus de 15 milliards de chansons. Dès qu’un utilisateur suit une chanson, l’application crée rapidement une empreinte audio de la chanson reçue.

Par la suite, et après avoir créé l’impression audio numérique pour l’enregistrement, Shazam télécharge l’impression, et non l’audio, sur votre serveur. Là, une recherche est effectuée dans la base de données pour les données qui correspondent à ce qui a été entendu. Si trouvé, l’application renvoie les informations musicales.

Image de l'application Shazam sur iOS

Qu’est-ce qu’une empreinte digitale audio?

Fondamentalement, une empreinte digitale audio est un résumé numérique des signaux audio généralement utilisés pour identifier un échantillon audio ou localiser un contenu similaire dans une base de données audio.

Dans le cas de Shazam, la technologie d’impression audio numérique est capable de faire correspondre des parties de contenu audio non identifié aux parties correspondantes de sa base de données. Autrement dit, l’application identifie la chanson que l’utilisateur enregistre (un contenu non identifié) en faisant correspondre l’empreinte digitale de cette chanson avec l’empreinte digitale dans sa base de données.

Ces empreintes digitales uniques trouvées dans la base de données de l’application sont obtenues grâce à certains points de données identifiés à l’aide d’un spectrogramme.

Qu’est-ce qu’un spectrogramme?

Un graphique en trois dimensions utilisé pour représenter le son, appelé spectrogramme, montre le changement de fréquences sur une période, en tenant également compte de l’amplitude et du volume.

Comme l’explique Avery Wang, l’algorithme Shazam utilise des points du spectrogramme afin de représenter des notes avec plus d’énergie afin de générer des empreintes digitales audio.

Désormais, en ignorant la plupart des informations d’une chanson et en se concentrant uniquement sur les notes frappantes, l’application est capable de rechercher dans la base de données à une vitesse impressionnante.

spectrogramme

Résultats de la recherche de concerts

C’est grâce à cette représentation sélective que Shazam est capable d’identifier la musique dans les endroits bruyants. D’un autre côté, si le bruit est si dérangeant, les données du spectrogramme seront déformées et il n’y aura aucun moyen de trouver une correspondance.

De plus, il est également impossible de suivre une chanson jouée lors d’un concert, car il est peu probable que la version live soit la même que la version enregistrée. De même, il est incapable d’identifier quand l’utilisateur essaie de repérer ou de chanter la chanson qu’il a entendue.

Lisez aussi:

Julian

Julian

Je suis correspondant principal chez WebVZ; le site hebdomadaire consacré à l'avenir des médias, la technologie, la culture (série, film, musique) et jeux-vidéo. J'anime parfois (en plus de mes articles), une série de d'interviews percutantes avec les principaux acteurs de l'industrie des médias et de la technologie.

Commentaires

Laisser un commentaire

Votre commentaire sera révisé par les administrateurs si besoin.