Discussion de l'exposé d'Olivier LARTILLOT

Musique, mathématiques et philosophie

(2000-2001)

Discussion collective de l'exposé (3 mars 2001) d'Olivier LARTILLOT (informaticien) : L'analyse musicale par la machine (ou la problématique de l'induction sous l'angle de la théorie des modèles et des probabilités)

Laurent Mazliak
L'intervention des techniques aléatoires dans le système d'analyse qu'Olivier Lartillot propose est fondée sur des tests statistiques, et donc très grossièrement sur l'analyse des fréquences de répétitions. Je me souviens d'un exposé amusant au Grame à Lyon où quelqu'un était venu exposer ses doutes concernant la méthode (pseudo) scientifique qu'est la numérologie ; deux Hollandais dont j'ai oublié le nom prétendent en effet en analysant les oeuvres de Bach voir revenir de manière obsessionnelle le nombre 14 (qui représenterait le compositeur en attribuant aux lettres de son nom un nombre dans l'ordre alphabétique : B = 2, A = 1, C = 3, H = 8), et leur argument « scientifique » est d'ordre statistique : si cela se reproduit si souvent, en quelque sorte cela ne peut pas être le hasard. Or, le conférencier, ayant judicieusement remarqué que le nombre 14 représente aussi un autre compositeur du XXe siècle (je ne me rappelle plus lequel), se demandait s'il fallait en tirer la conclusion que Bach sous-tendait l'oeuvre de celui-ci !
Seule question sérieuse : comment éviter ce genre d'écueil ?

Marcel Mesnage
L'exposé au Grame cité à propos de la numérologie probabiliste est repris dans « Musique et mathématiques » sous le titre « Le nombre dans la composition musicale au XXe siècle » (Robert Pascal). Il est fait allusion au livre de Van Houten & Kasbergen, « Bach et le nombre » . Le compositeur du XXe siècle que Bach aurait prévu (!) est John Cage.
Cet article très réjouissant aborde beaucoup d'autres exemples du statut du nombre dans la musique, le plus connu étant le nombre d'or, notamment chez Bartok et Debussy. S'il est connu que l'emploi du codage du nom de Bach a été repris intentionnellement par divers compositeurs, sans qu'il soit besoin d'y associer une connotation cabalistique, les échafaudages des auteurs hollandais semblent effectivement délirants. L'emploi du nombre d'or a également été attribué à Ligeti qui l'a récusé publiquement comme intention. L'ouvrage le plus convainquant sur l'emploi du nombre d'or chez Debussy est celui de Roy Howatt « Debussy in proportion » qui cependant laisse les mêmes doutes de fond sur l'usage et l'interprétation des statistiques. Mais ces interrogations sur ces connotations ésotériques des nombres dans la musique semblent bien innocentes par rapport aux troubles insensés qui ont fait des ravages en vies humaines autour de l'an 1 000 .

Olivier Lartillot
Laurent Mazliak : « L'intervention des techniques aléatoires dans le système d'analyse qu'Olivier propose est fondée sur des tests statistiques, et donc très grossièrement sur l'analyse des fréquences de répétitions. »
Mon exposé a tenté de présenter la problématique de l'induction. Il s'avère que ce type de raisonnement nécessite de mettre en oeuvre des hypothèses, des réflexions hypothétiques. Pour pouvoir formaliser ces mécanismes de manière explicite, il semblerait nécessaire d'estimer le caractère plus ou moins hypothétique par l'introduction d'une grandeur mathématique. C'est en ce sens que Leibniz a imaginé le calcul des probabilités. Or il s'avère qu'au même moment, d'autres études - celles de Pascal et Fermat - cherchaient à maîtriser l'aléatoire par l'estimation de grandeurs caractéristiques. Leibniz, en découvrant cette théorie, trouva ici la réponse à ses questions. Ainsi la probabilité, dès son invention, intégra ces deux facettes.
Mes recherches portent sur une implémentation informatique de mécanismes inductifs. Je m'intéresse donc à la vision leibnizienne des probabilités. Je ne m'intéresse donc pas à utiliser en premier lieu des techniques aléatoires.
Il fut un temps, on pensa que la statistique pouvait être la voie royale de l'induction mathématisée. Je cite l'excellent livre de Maurice Boudot, « Logique inductive et probabilité » .
« N'est-ce pas dire que l'inférence statistique nous apprend comment passer du particulier au général ? Les statisticiens n'ont guère de scrupule à utiliser cette terminologie qui évoque irrésistiblement la position classique du problème de l'induction. [...] Qu'elle se propose de régler la conduite des expériences à faire ou qu'elle gouverne l'usage des expériences déjà faites, la théorie scientifique de l'inférence statistique semble prendre en charge - au moins partiellement - les problèmes qui relevaient traditionnellement d'une philosophie de l'induction. N'offre-t-elle pas l'exemple d'une théorie probabilitaire de l'induction, constituée par les hommes de science, indépendamment de toute problématique philosophique ? [...] Mais il faut constater que, quelle que soit la forme qu'elle revête, elle relève de l'induction secondaire et non de l'induction primaire. Aucune conclusion n'y est acquise sans qu'on suppose la certitude de certaines lois universelles, la vérité d'assomptions toujours très fortes. On estime un paramètre, mais en supposant connue la famille paramétrique à laquelle appartiennent certaines lois de répartition. [...] D'où vient, dans ces conditions, la croyance illusoire en la possibilité d'ériger une théorie générale de l'induction, la doctrine de l'inférence statistique ? Elle tient tout d'abord au fait que souvent les prémisses admises sont des hypothèses bien établies dont la validité fait l'objet de consensus des hommes de science, alors qu'il n'en va pas de même des conclusions avant que l'inférence statistique les ait garanties. »
Je m'intéresse ainsi non pas à la probabilité sous forme de l'analyse des fréquences de répétition, mais à l'établissement d'un mécanisme d'induction qui peut, si nécessaire, utiliser une grandeur mathématique d'évaluation des différentes hypothèses que l'on pourrait également appeler, non sans danger, « probabilité ».

Laurent Mazliak : Comment éviter ce genre d'écueil ?
Certes, il peut arriver que ce soit le compositeur lui-même (que ce soit Bach, Berg ou Boulez) qui décide par lui-même de cacher des informations codées, en particulier à l'aide de la règle présentée par Laurent Mazliak. On pourrait donc très bien s'amuser à retrouver ces énigmes. Le débat est ouvert. Mais cela ne rentre pas dans mes domaines d'investigations. En effet, il me semble que, tel l'être humain, la machine, pour qu'elle puisse mener des inductions, doit être guidée par des mécanismes élémentaires cognitifs. Ainsi elle ne rentrera pas dans des délires numérologiques.

Guy Fourt
Ces derniers échanges appellent de ma part les commentaires suivants.

1 - Sur la méthodologie de la statistique.
Les statisticiens et probabilistes étudient des phénomènes dont le résultat est a priori non décidable ; tout au plus peut-on donner un ensemble de résultats envisageables.
Toute expérimentation conduira à l'obtention d'un résultat précis (disons X) parmi ceux-ci et il n'y a alors plus rien de modifiable. Ce qui est possible, c'est en partant de cet X (connu, mais entaché de suspicion : pourquoi cet X et pas un autre ?) de calculer un autre résultat (disons y) pour une expérimentation (de même type ou non) ultérieure.
Bien sûr on doit s'attendre à ce qu'on n'observe pas cette valeur y, mais une variante Y !... mais les règles de calculs utilisées ont été choisies pour que l'observation Y soit « probablement » proche de y.
N.B. : à ce « probablement » correspondra une définition mathématique très précise.
Si la « pèche à la ligne » ayant donné la valeur X a conduit à un résultat de faible probabilité, il faut s'attendre d'obtenir pour y n'importe quoi (y compris des résultats honnêtes) mais par hypothèse, ceci ne peut se produire qu'avec une faible probabilité.
On ne pourra jamais trouver la vérité avec ces méthodes, mais elles sont précieuses en ce qu'elles permettent de s'en approcher d'assez près, et ceci avec un bon niveau de fiabilité.

2 - Sur les statistiques « biaisées » en général et la numérologie qui en fourmille.
Si on répète indéfiniment une expérience (avec indépendance), il est facile de montrer qu'un événement (fut-il de faible probabilité) se produira presque sûrement au moins une fois (et se reproduira donc une infinité de fois). Si je construis un indicateur qui caractérise pour moi le plagiat de Bach :
· si je l'applique à Monsieur X. (célèbre), il y a une faible probabilité p qu'il donne un résultat positif ;
· si je suis assez patient pour parvenir à observer k +1 plagiaires (au sens donné par l'indicateur), savoir Messieurs X1, X2, X3,.....et Xk + 1 ce qui aura nécessité N (nombre aléatoire) expériences et si je dévoile la liste des noms de X1, X2, X3....... Xk (je n'ai bien sûr pas envie d'être provoqué en duel par Xk + 1, encore trop à la mode), pourquoi pas BOULEZ ? Il a la même probabilité conditionnelle d'être épinglé que les autres... et elle vaut p (celui du point précédent) s'il n'a pas été testé, 1 si Xk + 1 = « BOULEZ », k / (N-1) sinon.

Il y a pas mal de variantes plus ou moins drôles de l'exemple cite par Mazliak Au départ c'est toujours la même chose : on part d'une procédure statistique éculée parce que fiable. On l'applique à un exemple. Le cas échéant, on l'applique à un autre exemple. Et on continue jusqu'à obtenir un résultat positif qu'il suffit alors de publier (parce que c'est drôle, parce que c'est terrifiant, enthousiasmant...).
Un autre exemple historique a été donné par un général (on taira ici son nom) voulant faire un pronunciamiento sur la capitale (Rome). Il a vu des oiseaux se lever à droite et a ainsi entraîné son armée qui stationnait fort réglementairement au-delà du Rubicon. Il avait ainsi une probabilité 1/2 de gagner (à minorer légèrement car l'armée avait une probabilité de ne pas marcher).
Mais comme probable, il a attendu de voir les oiseaux se lever à droite... et était ainsi presque sûr de parvenir à ses fins.

3 - Sur le nombre d'or (et bien d'autres)
Là, je suis bien plus preneur. Il y a incontestablement des valeurs numériques qu'on met en action par réflexe conditionné ou autre. Le nombre d'or en est un. Certains architectes ou graphistes l'ont d'ailleurs utilisé consciemment avec plus ou moins de bonheur. Mais il apparaît dans de nombreuses constructions. Le Clermontois que je suis citera à ce propos l'intéressante étude de E. Mourlevat concernant la structure de la vieille église romane de Notre-Dame du Port (et de bien d'autres).
S'agit-il d'un processus d'apprentissage ? Si oui a-t-il son origine dans la création de l'humanité ou est-ce une origine « scolaire » ?
Il est d'usage de caractériser le nombre d'or par une suite récurrente, mais cette suite ne me semble pas connectée de façon évidente à son utilisation. Peut-on trouver d'autres définitions pertinentes ?
Il existe bien d'autres valeurs utilisées par l'humanité traditionnellement. Pour les musiciens, si on regarde les fréquences des sons, on explique facilement le rapport 2 qui permet à des instruments jouant la même note d'avoir la même suite d'harmoniques, mais quid des intermédiaires ?... sans parler de la séparation en coma. D'autres rapports auraient pu être envisagés, et pourtant l'homme semble avoir choisi ceux-ci assez indépendamment de sa culture.
Je pense qu'il y a là du travail (non ridicule) en friche.

François Nicolas
Guy Fourt : « Il est d'usage de caractériser le nombre d'or par une suite récurrente, mais cette suite ne me semble pas connectée de façon évidente à son utilisation. Peut-on trouver d'autres définitions pertinentes ? »
La propriété marquante du nombre d'or, à mon sens, est que le rapport de la plus petite partie (P) sur la plus grande (G) est le même que celui de la plus grande sur le tout (P + G) :
P / G = G / (P + G)
Cette propriété du nombre d'or a une traduction esthétique immédiate, qui explique, toujours à mon sens, son succès spontané dans les arts soucieux d'unité de l'oeuvre : chaque partie d'une oeuvre bâtie sur une progression normée par le nombre d'or devient intelligible comme une totalisation partielle ou provisoire. Ainsi l'oeuvre en quelque sorte rassemble ou ramasse régulièrement son passé pour y ajouter un nouveau pas.
Son utilisation en musique par exemple ne pose donc guère de problèmes particuliers, pas plus que le fait de compter les mesures d'un morceau pour s'assurer que tout le monde joue bien ensemble ou que le fait de compter le temps qui passe par un métronome.
On peut utiliser ce nombre d'or (ou une de ses approximations) sans savoir qu'on le fait, comme un compositeur peut superposer des croches, des triolets et des quintolets de croches pour obtenir un tapis d'impulsions pas trop simultanées sans nommer pour autant la propriété arithmétique qu'ont les nombres 2, 3 et 5 d'être premiers entre eux.
Bref, je ne vois guère l'intérêt d'exhausser ce nombre que j'utilise pour ma part tous les jours, comme d'ailleurs les nombres 3,3333 ou encore 23 ou, plus rarement il est vrai, 2598467482. Mais j'utilise aussi très souvent Aleph 0 (quoique Gérard Assayag laisse parfois entendre que ce dernier nombre resterait purement spéculatif et donc sans grande portée pragmatique).

Marcel Mesnage
Je voudrais demander à Olivier Lartillot s'il fait un lien entre l'inférence statistique dont il parle, et la notion bayésienne de probabilité a priori ?

Olivier Lartillot
La vision bayésienne des probabilités n'est pas épargnée par la critique faite par Maurice Boudot, dans l'ouvrage déjà cité , des théories de l'inférence statistique.
C'est justement ces probabilités a priori qui posent ici problème.
Je laisse la parole à Maurice Boudot :
« Le point essentiel à noter est que le calcul des probabilités a posteriori suppose la connaissance, non seulement des vraisemblances mais encore des probabilités a priori. Or, si dans les applications du théorème de Bayes on a souvent de bonnes raisons d'assigner aux premières des valeurs déterminées, il est rare qu'il en soit de même en ce qui concerne les secondes. Un usage répandu veut qu'en l'absence de raisons contraires, on attribue des valeurs égales aux probabilités a priori et c'est cet usage qui est contestable. [...] Il est clair que l'usage du théorème de Bayes que nous venons de décrire pose déjà question : de quel droit traite-t-on la probabilité d'un événement aléatoire comme une variable aléatoire ? Pour être inconnue cette grandeur est-elle une variable aléatoire ? De quel droit lui attribue-t-on une densité déterminée ? [...] Recourir au principe d'indifférence, affirmer qu'on peut supposer toutes les valeurs également probables, puisqu'on ne sait rien, est un mauvais argument. Si ce principe a un usage légitime, ce qui n'est nullement exclu, cet usage est tout autre : on peut tenir pour également probable des événements tels qu'on puisse affirmer qu'il n'y a nulle raison pour que l'un se produise plutôt que l'autre, non des événements dont on ne sait rien. »
Maurice Boudot emprunte à Keynes un exemple qui conduit à une contradiction paradoxale : « On sait que le poids spécifique d'une substance est compris entre 2 et 3. Le principe d'indifférence conduit à affirmer que la probabilité pour que le poids spécifique appartienne au sous-intervalle [2 ; 2,5] est égale à 1/2 (puisque la longueur de cet intervalle est la moitié de la longueur du domaine de variation). On en conclut que la probabilité pour que le volume spécifique appartienne à l'intervalle [1/2,5 ; 1/2], c'est-à-dire [2/5 ; 1/2], est 1/2. Mais le même raisonnement conduirait à assigner la probabilité ((1/2 - 2/5) / (1/2- 1/3)) = 6/10 au même événement si on appliquait le principe d'indifférence au volume spécifique. [...] La solution des problèmes d'estimation par le principe des probabilités inverses, c'est-à-dire par usage de schémas bayésiens et application du principe d'indifférence, se heurte donc à des obstacles insurmontables. Il est étrange qu'elle ait résisté à des critiques fondées et se présente comme « le seul exemple d'une doctrine mathématique acceptée par les hommes les plus éminents et refusés par les autres » (Fisher) »
Telle était donc la réponse de Maurice Boudot, en 1972.
Aujourd'hui (ou presque), E.T. Jaynes, farouche défenseur du bayésianisme, prétend qu'il existe des « mécanismes primitifs d'assignation des probabilités à partir directement d'informations incomplètes. À cet égard, le Principe de l'entropie maximale est aujourd'hui la justification théorique la plus claire, la mieux implémentée de manière computationnelle, avec un appareil analytique aussi puissant que celui de la théorie bayésienne. À cet effet, la maximisation de l'entropie nous crée un modèle des données qui s'avère optimal selon tant de critères qu'il est difficile d'imaginer des circonstances où l'on ne voudrait pas l'utiliser dans un problème où on dispose d'un espace d'échantillonnage mais pas de modèle. »
Oui mais qu'en est-il du paradoxe de Keynes ? Et il est nécessaire de disposer au préalable d'un espace d'échantillonnage, ce qui est, à mon avis, la contrainte fondamentale qui me pousse à abandonner ce type de théorie statistique dans un cadre d'induction musicale.