La machine est déjà en route et on pourra en discuter au plus haut niveau, comme au Sénat, avec le comité de l’intelligence artificielle générative à partir de septembre 2023. Mais les enjeux sont tels que l’on peut douter que les politiques, comme les plus grands cerveaux de la planète, pourront contrôler les effets à tous les niveaux d’une véritable boîte de Pandore que l’on a ouverte il y a bien longtemps. L’homme peut-il rester maître du jeu et, surtout, quel homme ? Celui qui est soucieux de son prochain et, au-delà, de sa planète ou celui qui, mû principalement la soif de pouvoir et l’appât du gain, n’aura pas le moindre scrupule à mener l’humanité vers le gouffre. Lors de son audition au Sénat, Arthur Mensch (le CEO de Mistral AI) a froidement résumé la situation : « l’antidote est contenu dans le poison », ajoutant, « une question que l’on se pose depuis 600 ans à chaque fois que l’on avance une nouvelle technologie. On facilite l’accès à la connaissance au monde entier. On a tenu le même discours lorsque l’on a inventé l’imprimerie et que les moines disaient qu’il ne fallait pas utiliser l’imprimerie parce que ça allait rendre les gens trop intelligents. » En clair, il faudra utiliser l’IA pour contrôler ou modérer son utilisation. On l’a vu dans l’histoire, les religieux de tous poils ont toujours voulu contrôler la diffusion de la pensée, notamment à travers la lecture, et ça ne s’est guère arrangé par la suite, avec l’avènement de dictatures où l’on n’hésitait pas à brûler des livres et persécuter des écrivains ou même des artistes de toutes disciplines, musiciens compris. Alors que les milliards circulent déjà au sein de sociétés devenues plus puissantes que les gouvernements du monde entier, plus que jamais, on peut s’interroger légitimement : qui contrôlera les contrôleurs ? Y compris, dans le cas qui nous intéresse, dans la musique. Car, comme lors du développement inexorable du streaming, on peut douter que qui que ce soit sera en mesure de protéger la création humaine en faisant front pour limiter les ravages prévisibles de l’IA. Déjà sur YouTube, on trouve des milliers de vidéos d’utilisateurs de certaines applications qui se prennent pour des musiciens en tapant trois lignes de textes pour générer des « morceaux » qui, effectivement, sont plus que trompeurs. On est bien loin du home studio qui inquiétait les professionnels il n’y a pas si longtemps. Ces applications ont comme siphonné sans vergogne tous les sons de la planète et offrent la possibilité à un utilisateur qui n’a jamais touché une guitare de sa vie de générer un solo qui ressemble à s’y méprendre à ceux de Jeff Beck ou Jimi Hendrix… Mais, comme le disait Corneille : « À vaincre sans péril, on triomphe sans gloire. » Il paraît plus qu’improbable que les icônes de l’instrument seront un jour détrônées par même le plus charismatique des adeptes de l’IA.
Dans les pages suivantes, nous détaillons le côté technique de l’IA et la façon dont elle va s’inviter dans nos vies, mais avant de rentrer dans le détail, faisons un rêve, tous ensemble. Les majors gagnent contre les sites de génération musicale. Une signature numérique est imposée sur chaque morceau généré par le biais de métadonnées afin de facilement les reconnaitre. Un large pourcentage de l’argent généré par ces musiques est reversé aux maisons de disques. Elles trouvent un système de répartition équitable auprès de tous ces artistes. Mieux encore, les grosses signatures touchent les droits qui leur sont dus grâce aux ventes et écoutes d’albums, tournées, merch. (etc.), et une part modeste issue de l’IA, les « petits » artistes voient en revanche leurs revenus augmentés grâce à cette nouvelle manne financière. Mieux soutenus, ils sont encouragés dans leur créativité. L’IA reste bien présente, mais elle dynamise le secteur. Bien sûr, elle s’invite dans les supermarchés, gros événements, les publicités, les courts métrages, les jeux indépendants et bien d’autres secteurs où la création reste trop chère et/ou peu intéressante lorsqu’elle est plus entendue qu’écoutée. Mais peu importe, cela génère des droits, les artistes s’y retrouvent.
Notre rêve est merveilleux, n’est-ce pas ? Il est plausible, mais oublie totalement un facteur : l’humain. Maintenant, place au cauchemar. Les sites de génération musicale gagnent leur procès contre les majors. Après tout, les modèles de langage s’inspirent de tout, mais rien n’est identifiable. Cette musique prolifère alors dans beaucoup de médias sans que les auditeurs en soient informés. La publicité, les vidéos YouTube, les séries et jeux à petit budget, voire même certains passages de films reçoivent ces partitions conçues par des machines. Les sites de génération tirent de larges profits de cette nouvelle corne d’abondance de mélodies à bas prix, mais rien n’est reversé aux artistes. Dans quelques années, les modèles de langages n’auront même plus besoin de s’inspirer de la musique déjà existante, la bête se nourrit toute seule avec ses propres créations. La musique est alors totalement standardisée selon des critères décidés par une machine. Bien sûr, la création « humaine » perdure, nous aurons toujours besoin d’admirer ou de ressentir de l’empathie pour un auteur, mais il devient de plus en plus difficile de vivre de cet art. Déjà que ce n’est pas simple aujourd’hui….
L’IA s’invite dans toutes les conversations souvent sans comprendre exactement de quoi il en retourne. Nos assistants domestiques, par exemple, nous écoutent, analysent, restituent en text-to-speech. Ils exécutent des scripts en utilisant une interface vocale, ça ne leur confère pas un gramme d’intelligence. Ce sont même de remarquables crétins. Lorsqu’Oliver Reed meurt en 1999 pendant le tournage de Gladiator, que son visage est placé numériquement sur un autre acteur, il s’agit seulement d’un effet spécial et pourtant on se rapproche du sujet sous un angle différent : le droit à l’image. En revanche, quand James Earl Jones lègue sa voix à Disney pour une utilisation dans les futurs Star Wars, qu’une synthèse est faite de son timbre, de ses intonations pour générer plus tard des dialogues de Dark Vador, alors on commence à toucher du doigt l’IA, mais le terme important ici est « générer ». Les mots ont un sens et la peur qu’engendre l’IA est presque une histoire sémantique. « Intelligence » renvoie aux classiques de la SF, donne l’idée de conscience, d’une possible rébellion. Nous aurions parlé de « génération textuelle » au moment de la sortie de ChatGPT, quelques débats virant à la paranoïa nous auraient été épargnés. Cette IA se « contente » de faire en une seconde ce que vous auriez fait en 1 heure, donc chercher sur le web et synthétiser, avant de restituer dans un langage intelligible. On parle d’ailleurs de modèle de langage. Nous sommes d’accord, c’est absolument stupéfiant, mais ça n’a rien de dangereux, a priori, tout est question d’usage. Pour faire une analogie très simple : un marteau utilisé sur un clou, c’est un outil, sur une tête, c’est une arme. La variable d’ajustement ici est l’humain, ce qui, en définitive, n’est pas rassurant. L’IA ne nous mettra pas à sa botte, en tout cas de manière volontaire et consciente. Que l’on s’en rende dépendant par nos usages est plus probable. En réalité, le film « Wall E » ressemble plus à notre futur que « Terminator ». Que l’on devienne des êtres flasques, se reposant totalement sur la machine par paresse, reste un avenir tout à fait plausible. On peut s’habituer au médiocre et oublier l’essentiel, la composition musicale n’est pas exclue de cette équation.
Venons-en au cœur du sujet, la génération. Pour ce qui est du texte, on le sait, ChatGPT et consorts ont tendance à affabuler quand ils ne connaissent pas parfaitement la solution. D’ailleurs, Gemini, l’IA de Google, vous informe de ce qui est fiable dans sa réponse et de ce qui relève de la déduction. Il faut qu’elle génère du texte, quitte à faire des petits arrangements avec la vérité ! En musique, une génération de chanson donne peu ou prou les mêmes résultats. Prenons l’exemple de SUNO, puisque c’est l’IA générative la plus emblématique du moment. Lorsque le prompt, donc la commande que vous dictez au logiciel, est assez vague, Suno garde des structures rythmiques simples : du 4 temps sur une grille d’accord fréquemment utilisée. Demandez-lui d’ajouter une voix et un solo. Déjà quelques intonations vont nous emmener dans ce que l’on appelle la vallée de l’étrange (l’uncanny valley). Le solo bref, calibré, tente des bends montant trop rapidement à la note juste. La voix semble passer à la moulinette de Melodyne dès qu’elle change de ton. L’IA se fait ici plus artificielle qu’intelligente. On reconnaît volontiers que le résultat est impressionnant, bien que trop froid et convenu, mais nous ne nous sommes toujours pas ici posé les bonnes questions. Est-ce grave de s’inspirer ? Quel est notre rapport à la création et à l’écoute musicale ?
Suno et consort utilisent en quelque sorte des modèles de langage musicaux, donc brassent des quantités faramineuses de créations, apprennent de leurs structures, de leurs harmonies pour restituer un morceau. Est-ce que l’inspiration en musique est un réel problème ? Non, car rien ne se crée à partir du vide. On ne reproche pas leurs samples à la galaxie rap. Le souvenir de Der Freishütz Overture de Carl Maria Von Weber serait perdu dans la nuit des temps sans Stupeflip Vite ! Quid de Daft Punk sans Edwin Birdsong, Sister Sledge, Cerrone ? Aussi robotiques que se présentent les deux gaillards, l’intéressant est de savoir que ce sont des humains à la création. Et cela s’applique à tous les styles de musique, des emprunts de Gainsbourg à Chopin, Brahms, Khatchatourian, aux influences AC/DC d’Airbourne… Les artistes eux-mêmes revendiquent leur inspiration et sont fiers de les partager avec nous lors des interviews. Si elle est trop flagrante, on parle alors de plagiat et des cohortes d’avocats, la maison de disque et les auteurs se rappellent à celui qui a fauté. Tout est question de mesure. Certains pointeront du doigt ces patterns reproduits à l’envi dans le blues, le metal, les musiques manouches qui font dire aux non-initiés « mais ils jouent tous la même chose ? ». L’interprétation apporte de la nuance, le facteur humain est, ici, la valeur ajoutée que l’auditeur recherche. Admirer un artiste, un créateur, est un délice dont personne ne se passera, la musique « humaine » n’est pas à l’agonie. S’inspirer, en soi, n’est pas condamnable.
Revenons à notre rapport à la musique et aux interférences créées par les machines. Si nous prenons l’exemple du live, désolé de casser un mythe pour les rares personnes qui ne sont pas au courant, mais un correcteur de justesse (Melodyne, Auto-tune, peu importe) vient parfois retoucher la tonalité de ces chanteurs et chanteuses donnant beaucoup de voix sur scène. Ainsi le show reste bien calibré malgré les chorégraphies, les changements de températures, et tout ce qui peut altérer un timbre. Le point le plus gênant ici est en réalité cette quête de la perfection. Est-ce si grave de voir un artiste s’essouffler, ponctuellement jouer ou chanter faux ? Ce nivellement du rendu donne de mauvaises habitudes au public, mais il y a pire encore. La génération musicale à base d’algorithmes, comme le fait l’IA, standardise notre écoute. Elle prend peu de risques, ne laisse aucun espace à l’intuition et une certaine forme de créativité. Certes, la technologie impressionne, mais elle ne crée pas d’émotion. Demandez à ChatGPT de traduire le magnifique poème If de Rudyard Kipling et comparez avec l’adaptation d’André Maurois. Le résultat est désastreux. Quand bien même il eut été bon, quel est, vous, votre empathie pour cette machine qui ne peut pas connaître la fierté d’avoir un enfant. Pensez, à l’inverse, au Tears In Heaven d’Eric Clapton et la douleur d’un père confronté à la mort de son fils. La chanson a plus de 30 ans et nous pleurons encore à chaque écoute tant on partage la souffrance de cet homme et sa résilience pour parvenir à l’interpréter sans s’effondrer sur scène. Des sentiments que jamais une machine n’arrivera à atteindre. Est-ce que l’on enfonce ici une porte ouverte ? Oui, complètement. Est-ce que c’est un frein à la génération musicale ? Certainement pas !
Le manque d’inspiration créative d’une machine n’est pas condamnable, elle est là pour entasser des notes, singer des émotions. Tant que l’on sait que les algorithmes sont aux commandes, nous serons difficilement capables d’empathie. Mais qu’en est-il de ces musiques qui passent en fond sonore, tout ce qui relève de la publicité, des génériques, les jingles, les indicatifs lors d’événements musicaux, à la télévision ou en radio ? Croyez-vous qu’une compagnie d’assurance va continuer à payer une fortune des droits à un compositeur alors que n’importe quelle boite de communication pourra générer à l’envi des dizaines de morceaux de 30 secondes à l’aide de quelques prompts ? « Si ce n’est que ça », penseront certains. Ce n’est pas tout. L’IA va très vite s’inviter dans les bandes originales de jeux vidéo indés, de courts métrages et autres œuvres qui n’ont pas les moyens de rémunérer un compositeur. Elles débarqueront dans des playlists instrumentales lofi ou ambient que la version 4 de Suno génère de mieux en mieux, et où ensuite ? Notre oreille va s’habituer à ce type de musique, comme à ces live calibrés que nous évoquions précédemment. Une fois ces sonorités intégrées, certains en feront la bande-son de leur journée de travail, de tous ces moments où la musique est plus entendue qu’écoutée. Enfin, combien de temps va-t-il se passer avant que des musiciens en panne d’inspiration génèrent des morceaux par IA puis les arrangent pour ajouter de l’humain ? À cette question, nous avons une réponse : 0 seconde, car c’est évidemment déjà le cas.
Finissons avec cette fois l’éléphant dans la pièce, le sujet dont tout le monde parle depuis la génération de texte et d’images :
les droits d’auteurs. Sony Music, Universal Music Group, et Warner Record sont déjà vent debout contre les sites de génération musicale. Les majors reprochent à Suno et Udio des violations de droit d’auteur. Ils sont appuyés dans leur démarche par le site Music Business Worldwide qui est parvenu, en travaillant particulièrement bien ses prompts, à générer des musiques très proches d’Abba, Eminem ou Green Day… Le résultat que l’on peut écouter sur bit.ly/3VbrG7t étonne et ne laisse aucun doute sur l’inspiration des modèles de ces sites. On peut imaginer un futur où les procès conduisent à reverser une grande partie des profits aux maisons de disque afin de le restituer aux auteurs (lesquels ? c’est une autre question), sinon un avenir plus sombre où ces sites prolifèrent dans une totale impunité, mais il n’est plus question de vivre sans. On n’arrête pas la marée avec une cuillère. Ce dossier était d’ailleurs pour nous une introduction à la génération musicale, mais croyez bien que c’est un sujet sur lequel nous reviendrons régulièrement.