Entretien avec Alice Cohen-Hadria

En 1950, l’informatique en est à ses débuts quand Alan Turing propose un test pour mesurer l’intelligence des machines. En 2022, l’intelligence artificielle (IA) est devenue un outil dans de nombreux domaines. Mais est-elle parvenue au niveau de l’intelligence humaine au point, par exemple, de composer seule des morceaux de musique ? Balises a rencontré Alice Cohen-Hadria, maîtresse de conférences à la Faculté des sciences de Sorbonne Université et chercheuse dans l’équipe Analyse et synthèse des sons à l’Ircam, l’Institut de recherche et coordination acoustique/musique au centre Pompidou, invitée à la rencontre « Fictions-Science : Alan Turing » en juin 2022.

Sur quel projet en lien avec l’intelligence artificielle travaillez-vous à l’Ircam ?

Je travaille sur l’analyse musicale pour obtenir des descriptions musicales automatiques. Ces descriptions peuvent par exemple permettre de reconnaître les instruments sur n’importe quel morceau enregistré au format MP3, d’identifier la voix chantée, de séparer l’accompagnement de la voix ou de générer une piste par instrument. C’est ce qu’on appelle la séparation de sources. Je réalise également de l’estimation de structure musicale : j’implémente des algorithmes qui détectent automatiquement les couplets et les refrains. L’analyse des sources musicales nécessite de nombreuses descriptions. L’enjeu consiste à s’affranchir des humains en créant un programme informatique qui indique quels instruments sont joués et à quel endroit, pour chacun des fichiers qu’on lui soumet.

Le recours à l’intelligence artificielle permet l’analyse de grandes bases de données audio, ce qui intéresse beaucoup les musicologues. Par exemple, une musicologue de notre équipe travaille sur la chanson française des années cinquante et soixante. Elle étudie les modes de production vocale de différents chanteurs et chanteuses, c’est-à-dire leur manière de chanter, les intonations, leur timbre de voix… Un autre travail est en cours sur le flow dans le rap, sur la manière dont les rappeurs ou rappeuses parlent et disent les mots, sur les accents qu’ils mettent et leur place… La séparation des sources, et notamment de la voix, s’avère dans ces cas très utile. À terme, on pourrait aussi imaginer un parcours musical intelligent qui propose des playlists à partir d’un instrument souhaité. Imaginons qu’aujourd’hui, j’aie envie d’écouter du saxophone : l’IA me proposerait des morceaux qui comportent des plages de cet instrument.

L’intelligence artificielle employée répond-t-elle à l’idée d’intelligence des machines que se faisait Alan Turing ?

Alan Turing (1912-1954) est un des pionniers de l’informatique. Il a posé les bases de l’informatique et, avec le test de Turing, imaginé une expérience de pensée appliquée à la machine. Il cherchait à déterminer si la machine pouvait être intelligente « comme les humains » et à mesurer cette intelligence. Son propos était de montrer qu’il était très difficile de la mesurer.

Aujourd’hui, quand nous parlons d’IA, le mot « intelligence » est employé pour parler de manière imagée des méthodes mises en place, plutôt que pour évoquer quelque chose de réellement intelligent. Nous ne savons pas mesurer l’intelligence d’une machine, pas plus que celle des humains, car nous ne savons pas définir l’intelligence.

L’hypothèse de Turing est celle-ci : je ne peux peut-être pas définir l’intelligence, mais peut-être suis-je capable, quand je suis face à une entité humaine et à une entité informatique, de faire la différence entre les deux ? Et si l’ordinateur arrive à suffisamment bien imiter les humains, je pourrais conclure que la machine a les capacités d’un humain. Le test de Turing en anglais s’appelle d’ailleurs Imitation Game. Évidemment, ce raisonnement n’est pas parfait. C’est une expérience de pensée effectuée à une période donnée. Que déduire, par exemple, quand une intelligence artificielle réussit le test de Turing en se présentant comme un jeune enfant dont l’anglais n’était pas la langue maternelle et dont il faut excuser les fautes d’orthographe et les structures un peu bancales ?

De plus, l’IA est un champ de l’informatique très large. En ce moment, une méthode y est majoritairement employée : le machine learning ou apprentissage automatique. On remarque qu’on a remplacé le terme « intelligence » par celui d’« apprentissage ». Les programmes de génération de texte dont les algorithmes ont, aujourd’hui, les meilleures performances, passent le test de Turing mille fois. Ce test n’est pas obsolète, mais il est moins d’actualité. On essaie toujours de fabriquer des machines qui sont aussi intelligentes que des humains, mais on sait qu’il ne s’agit pas de la même intelligence que les humains. Les algorithmes sont extrêmement performants, mais pour faire ce qu’on leur demande : générer du texte, reconnaître des images, générer des visages ou de la musique…

L’apprentissage ne rend-il pas les systèmes intelligents ?

Quand on parle de mécanismes d’apprentissage, encore une fois c’est une manière de vulgariser. La machine se corrige. Elle modifie différents paramètres en fonction de l’erreur qu’elle a faite. Ces mécanismes d’apprentissage sont subordonnés à une tâche donnée. Prenons l’exemple d’un algorithme qui différencie les chats et les chiens. Quand un humain fait la différence, il est capable de dessiner un chat, de reconnaître de loin un chat ou un chien, ou de dire si c’est autre chose. Le réseau de neurones permet juste à la machine de dire que c’est un chat ou que c’est un chien mais, si on lui montre un panda, elle dira peut-être que c’est un chien. Elle sera incapable de dire que c’est un autre animal. Comprendre ce qu’est un chat ou un chien est une question de concept : cela demande une base solide de compréhension du monde, qui n’existe pas dans les paradigmes des IA d’aujourd’hui. Le champ de paramètres est si large que le programmateur lui-même ne peut pas tous les appréhender.

La machine peut-elle gérer un ensemble de tâches ?

C’est compliqué. Des chercheurs travaillent à faire quelque chose de plus large mais les IA qui fonctionnent aujourd’hui sont définies pour une tâche. Voyez pendant combien de temps les petits humains apprennent pour maîtriser les compétences de base. Énormément de concepts sont nécessaires à la compréhension du monde.

Le réseau de neurones artificiels représente une grande part de l’intelligence artificielle aujourd’hui mais ce n’est pas de l’intelligence et c’est difficilement comparable au réseau de neurones humain. Les concepteurs se sont inspirés d’une modélisation des années cinquante pour concevoir un réseau de neurones extrêmement simplifié, transposable en mathématiques : un neurone reçoit des impulsions électriques d’intensités variables, envoyées par les autres neurones auxquels il est relié. Quand les impulsions électriques reçues par ce neurone dépassent une somme déterminée, il s’active et envoie lui-même une impulsion électrique. Dans les réseaux de neurones humains, il se passe en fait des millions d’autres événements. Pour l’apprentissage, on joue sur ces intensités. On pondère les informations en fonction de l’objectif planifié. C’est pour cela qu’on parle d’apprentissage supervisé : on sait ce qu’on va prédire. L’apprentissage repose sur une grande base de données qui sont autant d’exemples différents avec l’indication de ce qu’on cherche à prédire. Par exemple, des photos de chats et de chiens et pour chaque photo l’indication « ça, c’est un chat » ou « ça, c’est un chien » pour pouvoir comparer. Pour l’apprentissage des réseaux de neurones, il faut un objectif et cette base de données annotée. Or, ce sont encore les humains qui annotent.

Donc plus la base de données est grande, plus la machine est intelligente ?

Oui, si on définit l’intelligence comme une métrique de performance pour une tâche. Plus on a de données, meilleur sera notre algorithme, en théorie. Tout un champ de recherche s’intéresse aussi à ce qu’il est possible de faire avec peu de données. Dans la musique par exemple, un problème de données se pose pour des questions de droits, mais aussi parce que ce sont des données longues, temporellement. Une piste qui dure trois minutes demande quinze minutes de travail à un humain pour reconnaître les instruments et indiquer où joue le piano ou la batterie.

Le processus d’annotation de la musique, pour alimenter la base de données, est lourd et extrêmement compliqué. La détection des instruments est réalisable par des humains qui ne sont pas spécialisés, mais des descriptions au niveau des notes qui se font à l’oreille, par exemple, nécessitent des humains extrêmement spécialisés et cela prend beaucoup de temps. On travaille donc avec peu de données. Cela fonctionne moins bien mais c’est plus rapide à utiliser que des modèles fonctionnant avec des bases de données fournies, qui prennent du temps à entraîner. Il y a bien une relation directe entre la quantité de données et la performance du modèle.

La séparation automatique des sources pose le même problème de données. L’objectif étant d’obtenir une piste par instruments à partir d’un audio de plusieurs instruments, pour entraîner le modèle il faut disposer d’une base composée à la fois du mix et des instruments séparés de chacun des morceaux. Il faudrait récupérer les pistes de studios qui n’existent plus, avant mixage. Notre base de données de référence se résume à cent cinquante morceaux. Mais, à l’Ircam, nous disposons de matériel de transformations musicales en haute définition. Il est possible d’accélérer le tempo, le réduire, monter la hauteur du son ou changer le timbre. Nous avons modifié les morceaux de référence avec ces transformations pour faire de l’augmentation de données. Nous avons fabriqué des données. D’une centaine de morceaux, on arrive à cent mille.

Peu de données pose donc problème, mais l’excédent de données en génère d’autres. Quand on a dix millions d’images par exemple, la base devient invérifiable. Se posent des problèmes de nudité, de droit à l’image, d’arrière-plans… Aucun humain ne peut les analyser toutes. Il faut utiliser des gens pour annoter. On retrouve donc cette notion d’intelligence : si ce sont des gens qui annotent des données et que la machine essaie de reproduire leur travail, elle n’est pas intelligente.

Le test de Turing reposait sur des échanges de messages écrits. Est-ce que la parole, l’oral ou le son sont plus difficiles à traiter pour la machine ?

Maintenant, non. Des algorithmes appelés text-to-speech transforment le texte en parole et sont très réalistes. D’autres machines arrivent à générer du texte, qu’il suffit de transformer en voix. Pour la voix parlée, les résultats sont assez proches de la parole humaine même si ajouter des émotions dans une voix reste compliqué. Par contre, la voix chantée pose encore problème. Il y a beaucoup plus de paramètres à mettre en œuvre : le style, le genre, le rythme, le vibrato, le grain de voix… Il est, par exemple, très compliqué de reproduire le chant très rauque et guttural des chanteurs de métal. Une chose est sûre, c’est que les données audio musicales sont des données très complexes. Elles comportent de nombreux étages d’information et plusieurs niveaux de lecture. Le premier niveau est physique : le son est une vibration et on entend une note. Il y a aussi un niveau sémantique avec le sens des paroles, et la structure temporelle avec le rythme, le battement puis les mesures et l’ensemble de mesures qui forment un couplet ou un refrain.

À l’écoute, est-on capable de faire la distinction entre le résultat de la machine et une voix humaine ?

Souvent, on ne fait pas la différence. Mais il peut rester des artefacts, des petits bruits, des petites choses qu’on entend à l’oreille et qui sont un peu gênantes. On aimerait utiliser ce qui sort de la machine tel que mais, dans les faits, il a souvent une petite intervention humaine, au moins pour que ce soit plus agréable à l’oreille.

Sur les textes aussi il peut y avoir aussi des artefacts, mais les derniers modèles sont extrêmement performants, notamment le GPT-3. C’est un très gros modèle qui génère du texte mais il lui arrive, quand on lui demande du français, de traduire en anglais. Pour générer un début de roman ou un début de poème, il faut lui demander plusieurs fois et sélectionner un résultat. Dans l’audio aussi, ce sont les compositeurs qui choisissent une production en fonction de leur sensibilité ou de leur envie. Il est rare que la machine soit l’unique autrice.

Publié le 31/05/2022 - CC BY-NC-ND 3.0 FR

Pour aller plus loin

« L'intelligence artificielle peut-elle remplacer les artistes ? », Affaire en cours | France Culture, 25 mai 2022

Philippe Esling, chercheur à l’IRCAM explique le rôle et les capacités nouvelles des machines dans les créations musicales contemporaines.

OpenAI GPT-3 : tout savoir sur l’IA de langage la plus avancée du monde | LeBigData.fr

GPT-3 est une intelligence artificielle de génération de langage très performante et sans doute le modèle le plus avancé à ce jour.

Programme de ManiFeste 2022, festival de l'Ircam | Ircam, juin 2022 (pdf)

« ManiFeste-2022, c’est la stimulation de l’imaginaire par l’intelligence artificielle et de l’orchestre par l’électronique (Orchestre de Paris, Philharmonique de Radio France, Orchestre national d’Île-de-France pour le Prix Élan) avec Misato Mochizuki, Jesper Nordin ou Marco Stroppa ; ManiFeste, c’est aussi la révolution d’Anton Webern en musique et la révolution d’Alan Turing en science. La trajectoire fulgurante et dramatique de ce visionnaire de l’informatique, défricheur du code et du vivant, inspire un cycle inédit de rencontres, les Fictions-Science, circulant de la puissance de la science et de l’art au pouvoir des technologies et des industries culturelles, du minoritaire au majoritaire, et retour. »

Frank Madlener, directeur de l’Ircam

L’Étincelle #22 | journal de la création à l’Ircam (pdf)

Dans ce numéro de L’Étincelle qui accompagne le festival ManiFeste 2022, plusieurs articles mettent en lien l’intelligence artificielle et la créativité.

Voir aussi

Fictions-Science : Alan Turing

09/06/2022 à 20:30
Petite salle

Arts - Sciences et techniques

Les rencontres « Fictions-Science » offrent une plongée dans le vif de la science et de l’art qui se font...

Un cerveau sous forme de réseaux de neurones — CC0 Creative Commons - GDJ sur Pixabay

Les intelligences artificielles aujourd’hui

26/09/2018

Culture numérique - Sciences et techniques

L’expression « intelligence artificielle » vous évoque de la science-fiction ? Pourtant, ces programmes informatiques faits d’algorithmes complexes sont déjà...

Les machines improvisent la musique

26/10/2018

Musique - Sciences et techniques

Gérard Assayag, chercheur à l’IRCAM, précise que l’idée d’utiliser les machines pour composer de la musique remonte au 17e siècle. C’est...

Trois machines qui ont « réussi » le test de Turing

06/06/2022

Culture numérique - Sciences et techniques

En 1950, Alan Turing, pionnier de l'informatique, met au point un test pour évaluer l'intelligence d'une machine qui repose sur...

Alan Turing : notre sélection de ressources

31/05/2022

bibliographie - mathématiques - sciences

La Bpi vous propose une sélection de documents et d'ouvrages ainsi qu'une bibliographie sur le mathématicien anglais Alan Turing.

Rédiger un commentaire

Les champs signalés avec une étoile (*) sont obligatoires

Réagissez sur le sujet Annuler la réponse

Cookie	Type	Durée	Description
_pk_id.*		13 mois	Ce cookie est installé par l'outil d'analyse Web Matomo. Le cookie _pk_id est utilisé pour stocker des détails sur l'utilisateur tels que l'identifiant unique (ID). Les cookies créés par Matomo commencent par : _pk_ref, _pk_cvar, _pk_id, _pk_ses. Pour plus d'informations sur les cookies de Matomo : https://fr.matomo.org/faq/general/faq_146/
_pk_ses.*		30 minutes	Ce cookie est installé par l'outil d'analyse Web Matomo. Ce cookie _pk_ses de courte durée est utilisé pour stocker temporairement les données de la visite. Les cookies créés par Matomo commencent par : _pk_ref, _pk_cvar, _pk_id, _pk_ses. Pour plus d'informations sur les cookies de Matomo : https://fr.matomo.org/faq/general/faq_146/

Cookie	Durée	Description
bcookie	2 years	Ce cookie est installé par LinkedIn pour activer les fonctions de LinkedIn sur ce site.
cookielawinfo-checkbox-necessary	11 months	Ce cookie est défini par le plugin GDPR Cookie Consent. Les cookies sont utilisés pour stocker le consentement de l'utilisateur pour les cookies dans la catégorie «Nécessaire».
cookielawinfo-checkbox-non-necessary	11 months	Ce cookie est défini par le plugin GDPR Cookie Consent. Les cookies sont utilisés pour stocker le consentement de l'utilisateur pour les cookies dans la catégorie «Non nécessaire».
csrftoken	11 months	Ce cookie est associé à la plateforme de développement Web Django pour python. Utilisé pour aider à protéger le site Web contre les attaques de falsification de requêtes intersites
lidc	1 day	Ce cookie est défini par LinkedIn et utilisé pour le routage.
viewed_cookie_policy	11 months	Le cookie est défini par le plugin GDPR Cookie Consent et est utilisé pour stocker si l'utilisateur a consenti ou non à l'utilisation de cookies. Il ne stocke aucune donnée personnelle.

Cookie	Type	Durée	Description
everest_g_v2	0	1 year	Le cookie est défini sous le domaine eversttech.net. Le but du cookie est de mapper les clics sur d'autres événements sur le site Web du client.
GPS	0	30 minutes	Ce cookie est défini par Youtube et enregistre un identifiant unique pour suivre les utilisateurs en fonction de leur emplacement géographique
mc	0	1 year	Ce cookie est associé à Quantserve pour suivre de manière anonyme comment un utilisateur interagit avec le site Web.
MR	0	1 week	Ce cookie est utilisé pour mesurer l'utilisation du site Web à des fins d'analyse.
VISITOR_INFO1_LIVE	1	5 months	Ce cookie est défini par Youtube. Utilisé pour suivre les informations des vidéos YouTube intégrées sur un site Web.
YSC	1		Ces cookies sont définis par Youtube et sont utilisés pour suivre les vues des vidéos intégrées.

Cookie	Type	Durée	Description
ATN	1	2 years	Ce cookie est installé par atdmt.com et stockent des données sur le comportement de l'utilisateur sur plusieurs sites Web. Les données sont ensuite utilisées pour diffuser des publicités pertinentes aux utilisateurs du site Web.
bito	0	1 year
bitoIsSecure	0	1 year
bscookie	1	2 years
chkChromeAb67Sec	0	2 months
CMID	0	1 year
CMPRO	0	2 months
CMPS	0	2 months
CMST	0	1 day
cref	0	1 year
damd	0	1 year
dc	0	9 years
dmvk	0
dmxId	0	9 months
fr	1	2 months	Le cookie est installé par Facebook pour montrer des publicités pertinentes aux utilisateurs et mesurer et améliorer les publicités. Le cookie suit également le comportement de l'utilisateur sur le Web sur les sites dotés d'un pixel Facebook ou d'un plugin social Facebook.
GED_PLAYLIST_ACTIVITY	0
glassbox-session-id	0	30 minutes
IDE	1	2 years	Utilisé par Google DoubleClick, ce cookie stocke des informations sur la façon dont l'utilisateur utilise le site Web et toute autre publicité avant de visiter le site Web. Ceci est utilisé pour présenter aux utilisateurs des publicités qui les concernent en fonction du profil de l'utilisateur.
KADUSERCOOKIE	0	2 months
KTPCACOOKIE	0	1 day
lang	0		Ce cookie est utilisé pour stocker les préférences linguistiques d'un utilisateur afin de diffuser du contenu dans cette langue stockée lors de sa prochaine visite sur le site Web.
lissc	0	1 year
li_sugr	0	2 months
matchbidswitch	0	1 month
MUID	0	1 year	Utilisé par Microsoft comme identifiant unique. Le cookie est défini par des scripts Microsoft intégrés. Le but de ce cookie est de synchroniser l'ID sur de nombreux domaines Microsoft différents pour permettre le suivi des utilisateurs.
pardot	0		Le cookie est défini lorsque le visiteur est connecté en tant qu'utilisateur Pardot.
personalization_id	0	2 years	Ce cookie est utilisé par Twitter pour intégrer les fonctionnalités de partage de ce média social. Il stocke également des informations sur la manière dont l'utilisateur utilise le site Web pour le suivi et le ciblage.
PUBMDCID	0	2 months	Ce cookie est défini par pubmatic.com. Le cookie stocke un identifiant utilisé pour afficher des publicités sur le navigateur des utilisateurs.
ROUTEID	0
ss	1	9 years
SyncRTB3	0	2 months
TDCPM	0	1 year	Le cookie est défini par le service CloudFlare pour stocker un identifiant unique afin d'identifier un appareil d'utilisateurs qui reviennent, qui est ensuite utilisé pour la publicité ciblée.
TDID	0	1 year	Le cookie est défini par le service CloudFlare pour stocker un identifiant unique afin d'identifier un appareil d'utilisateurs qui reviennent, qui est ensuite utilisé pour la publicité ciblée.
test_cookie	0	11 months
ts	1	1 year
tuuid	0	9 years	Ce cookie est défini par .bidswitch.net. Les cookies stockent un identifiant unique dans le but de déterminer les publicités que les utilisateurs ont vues si vous avez visité l'un des sites Web des annonceurs. Les informations sont utilisées pour déterminer quand et à quelle fréquence les utilisateurs verront une certaine bannière.
u	0	2 months
UserMatchHistory	0	1 month
usprivacy	0	1 year
ut	0	9 years
v1st	0	1 year
viewer_token	0	1 month
wfivefivec	0	1 year
_fbp	0	2 months	Ce cookie est défini par Facebook pour diffuser des publicités lorsqu'ils sont sur Facebook ou sur une plate-forme numérique alimentée par la publicité Facebook après avoir visité ce site Web.
_gcl_au	0	2 months
_pin_unauth	0	1 year
_ptref	0	1 day
_rdt_uuid	0	2 months
_uetsid	0	1 day
_uetvid	0	2 weeks
__putma	0	19 years