L’intelligence artificielle a déjà révolutionné de nombreux domaines en permettant de tirer profit des données pour prédire des phénomènes complexes.
Statista évaluait en 2022 le marché mondial de l’intelligence artificielle à 327,5 milliards de dollars américains (L’intelligence articificielle – Faits et chiffres), et ce dans un contexte de croissance continue.
Si certains domaines d’application de l’intelligence artificielle sont déjà bien connus, il y en a d’autres qui le sont moins mais où les perspectives de développement sont très importantes. C’est le cas du domaine de la musique. Le son est une donnée particulière qui n’a pas la structure classique de tableau, c’est une forme d’onde. L’utilisation de sons comme données d’entrée d’un modèle de machine learning nécessite donc des traitements et des mesures sur la forme d’onde qui se sont beaucoup développés récemment, notamment grâce à la bibliothèque Librosa en Python.
Le domaine de la musique bénéficie de nombreux débouchés grâce à l’intelligence artificielle avec des possibilités de classifications automatiques de styles ou de générations automatiques de musiques à partir d’exemples. La génération de musique par intelligence artificielle pose le problème de pouvoir prendre en compte les événements dans le temps. Les modèles classiques de machine learning tels que les réseaux de neurones de type feedforward ne sont pas adaptés pour ça. Comme le montre le schéma ci-dessous, un tel modèle qui aurait pour rôle de générer une note à la suite d’une mélodie existante ferait exactement la même prédiction si on lui donne en entrée Do-Ré-Mi-Fa-Sol ou si on lui donne Sol-Fa-Mi-Ré-Do, car les notes sont les mêmes et ce modèle ne considère pas l’ordre dans lequel elles apparaissent. Or évidemment, pour un musicien, il s’agit là de deux mélodies différentes et les possibilités qui viennent à l’oreille pour les continuer ne sont bien sûr pas les mêmes.
Schéma d’un réseau de neurones « classique »
Pour que l’intelligence artificielle puisse s’adapter à cette situation et considérer les choses comme le ferait un musicien il faut prendre en compte l’ensemble de notes comme une série temporelle. Ceci élimine d’emblée la plupart des modèles classiques de machine learning et impose des modèles plus sophistiqués comme les réseaux de neurones récurrents ou les réseaux de type LSTM (Long Short Term Memory) qui sont dotés d’une capacité de mémoire à court terme mais aussi à long terme et peuvent donc tenir compte de l’ordre des notes d’une longue mélodie dans la prédiction de la note suivante. (Réseau de neurones récurrents). Voici à titre d’exemple le schéma de fonctionnement d’un réseau récurrent qui reçoit une mélodie en entrée avec une note sur chaque neurone de la couche d’entrée. Contrairement au réseau classique, il y a ici une prise en compte de l’ordre dans lequel apparaissent les notes ce qui lui permet de considérer la mélodie comme le ferait un musicien.
Schéma « réseau neurones récurrent »
Un tel modèle impose plus de complexité pour le data-scientist mais est théoriquement capable de terminer une œuvre à partir de son début ou de générer une musique dans le style d’exemples sur lesquels il a appris. Il serait par exemple possible d’entrainer un modèle avec toutes les sonates pour piano de Mozart et de l’utiliser pour générer de la musique pour piano dans le style de Mozart. Un modèle parfaitement entrainé pourrait peut-être donner l’impression à l’oreille d’avoir fait « aussi bien » que Mozart lui-même, mais il faut beaucoup relativiser l’intérêt artistique d’une telle démarche car ce modèle ne serait jamais qu’un imitateur de Mozart puisque par définition il a appris grâce à la musique écrite par le compositeur. Il serait alors très hasardeux de chercher à mettre au même niveau un génie et un imitateur de ce génie. Pour pouvoir prétendre qu’une intelligence artificielle a vraiment fait « aussi bien » que Mozart il faudrait créer un modèle qui puisse générer de la musique de la même qualité et aussi novatrice que celle du compositeur en n’ayant utilisé aucune musique de Mozart pour son apprentissage. Il faudrait même que ce modèle n’ait appris qu’avec de la musique strictement antérieure à 1756 (Mozart est né le 27 janvier 1756 et il a commencé la musique quasiment immédiatement !). Il faut bien reconnaitre que les techniques actuelles de machine learning n’offrent pas cette possibilité. Mais si vraiment « toute pensée résulte d’un calcul » il doit bien y avoir un moyen de reconstruire mathématiquement la pensée qu’a un génie quand il crée quelque chose de complétement nouveau.