banner

Blog

Mar 17, 2023

Ce scientifique a donné sa voix à Stephen Hawking – puis a perdu la sienne

« Tu m’entends bien? » Je demande à Brad Story au début d’un appel vidéo. Prononcer une phrase simple comme celle-ci, j’apprendrais plus tard, c’est accomplir ce qui est sans doute l’acte moteur le plus complexe connu de toutes les espèces: la parole.

Mais comme Story, un spécialiste de la parole, pointe son oreille et secoue la tête non, cet acte particulier de discours ne semble pas si impressionnant. Un pépin technologique nous a rendus pratiquement muets. Nous passons à un autre système moderne de transmission vocale, le smartphone, et entamons une conversation sur l’évolution des machines parlantes – un projet qui a commencé il y a un millénaire avec des histoires magiques de têtes d’airain parlantes et qui se poursuit aujourd’hui avec une technologie qui, pour beaucoup d’entre nous, pourrait aussi bien être magique: Siri et Alexa, l’IA de clonage vocal et toutes les autres technologies de synthèse vocale qui résonnent dans notre vie quotidienne.

Une brève période de mutisme induite par la technologie pourrait être la plus proche que beaucoup de gens viennent à perdre leur voix. Cela ne veut pas dire que les troubles de la voix sont rares. Environ un tiers des personnes aux États-Unis souffrent d’une anomalie de la parole à un moment donné de leur vie en raison d’un trouble de la voix, connu sous le nom de dysphonie. Mais perdre complètement et définitivement votre voix est beaucoup plus rare, généralement causé par des facteurs tels que les blessures traumatiques ou les maladies neurologiques.

Pour Stephen Hawking, c’était la deuxième option. En 1963, l’étudiant en physique de 21 ans a reçu un diagnostic de sclérose latérale amyotrophique (SLA), une pathologie neurologique rare qui éroderait son contrôle musculaire volontaire au cours des deux décennies suivantes au point de paralyser presque totalement. En 1979, la voix du physicien était devenue si trouble que seules les personnes qui le connaissaient bien pouvaient comprendre son discours.

« La voix est très importante », a écrit Hawking dans ses mémoires. « Si vous avez une voix trouble, les gens sont susceptibles de vous traiter comme mentalement déficient. »

En 1985, Hawking a développé un cas grave de pneumonie et a subi une trachéotomie. Cela lui a sauvé la vie mais lui a pris la voix. Par la suite, il ne pouvait communiquer que par un processus fastidieux à deux personnes: quelqu’un pointait des lettres individuelles sur une carte et Hawking haussait les sourcils lorsqu’elles frappaient la bonne.

« Il est assez difficile de mener une conversation comme celle-là, sans parler d’écrire un article scientifique », a écrit Hawking. Lorsque sa voix a disparu, tout espoir de poursuivre sa carrière ou de terminer son deuxième livre, le best-seller qui ferait de Stephen Hawking un nom familier: A Brief History of Time: From the Big Bang to Black Holes.

Mais bientôt, Hawking a recommencé à produire un discours – cette fois pas avec l’accent anglais de la BBC qu’il avait acquis en grandissant dans la banlieue nord-ouest de Londres, mais avec un accent vaguement américain et résolument robotique. Tout le monde n’était pas d’accord sur la façon de décrire l’accent. Certains l’appelaient écossais, d’autres scandinave. Nick Mason de Pink Floyd l’a qualifié de « positivement interstellaire ».

Peu importe le descripteur, cette voix générée par ordinateur deviendrait l’une des inflexions les plus reconnaissables de la planète, reliant l’esprit de Hawking à d’innombrables publics impatients de l’entendre parler de la plus grande des questions: les trous noirs, la nature du temps et l’origine de notre univers.

Contrairement à d’autres orateurs célèbres à travers l’histoire, la voix caractéristique de Hawking n’était pas entièrement la sienne. C’était une reproduction de la voix réelle d’un autre scientifique pionnier, Dennis Klatt, qui, dans les années 1970 et 1980, a développé des systèmes informatiques de pointe capables de transformer pratiquement n’importe quel texte anglais en discours synthétique.

Les synthétiseurs vocaux de Klatt et leurs ramifications portaient différents noms: MITalk, KlatTalk, DECtalk, CallText. Mais la voix la plus populaire produite par ces machines – celle que Hawking a utilisée pendant les trois dernières décennies de sa vie – portait un seul nom : Perfect Paul.

« C’est devenu si connu et incarné par Stephen Hawking, dans cette voix », me dit Story, professeur au Département des sciences de la parole, du langage et de l’audition de l’Université de l’Arizona. Mais cette voix était vraiment la voix de Dennis. Il a basé la plupart de ce synthétiseur sur lui-même. »

Les conceptions de Klatt ont marqué un tournant dans la synthèse vocale. Les ordinateurs pouvaient maintenant prendre le texte que vous tapiez dans un ordinateur et le convertir en parole d’une manière hautement intelligible. Ces systèmes ont réussi à capturer de près les façons subtiles dont nous prononçons non seulement des mots, mais des phrases entières.

Alors que Hawking apprenait à vivre et à travailler avec sa nouvelle voix dans la seconde moitié des années 1980, la propre voix de Klatt devenait de plus en plus rauque – une conséquence du cancer de la thyroïde, qui l’affligeait depuis des années.

« Il parlait avec une sorte de murmure rauque », explique Joseph Perkell, un scientifique de la parole et un collègue de Klatt quand ils travaillaient tous deux au sein du Speech Communications Group du MIT dans les années 1970 et 1980. « C’était un peu l’ironie ultime. Voici un homme qui a travaillé sur la reproduction du processus de parole et il ne peut pas le faire lui-même. »

Bien avant d’apprendre à construire la parole avec des ordinateurs, Klatt a regardé des ouvriers de la construction construire des bâtiments quand il était enfant dans la banlieue de Milwaukee, dans le Wisconsin. Le processus le fascinait.

« Il a commencé comme une personne vraiment curieuse », explique Mary Klatt, qui a épousé Dennis après leur rencontre au laboratoire des sciences de la communication de l’Université du Michigan, où ils avaient des bureaux côte à côte au début des années 1960.

Dennis est venu au Michigan après avoir obtenu une maîtrise en génie électrique de l’Université Purdue. Il a travaillé dur dans le laboratoire. Cependant, tout le monde ne l’a peut-être pas remarqué, compte tenu de son bronzage profond, de son habitude de jouer au tennis toute la journée et de sa tendance à effectuer plusieurs tâches à la fois.

« Quand j’allais à son appartement, il faisait trois choses à la fois », dit Mary. « Il avait ses écouteurs, écoutant de l’opéra. Il regardait un match de baseball. Et en même temps, il écrirait sa thèse. »

Lorsque le directeur du laboratoire des sciences de la communication, Gordon Peterson, a lu la thèse de Dennis – qui portait sur les théories de la physiologie auditive – il a été surpris de voir à quel point c’était bon, se souvient Mary.

« Dennis n’était pas un grind. Il a travaillé de longues heures, mais c’était comme si c’était amusant, et c’est un vrai scientifique curieux. »

Après avoir obtenu un doctorat en sciences de la communication de l’Université du Michigan, Dennis a rejoint la faculté du MIT en tant que professeur adjoint en 1965. C’était deux décennies après la Seconde Guerre mondiale, un conflit qui avait incité les agences militaires américaines à commencer à financer la recherche et le développement de technologies de synthèse vocale et de cryptage de pointe, un projet qui s’est poursuivi en temps de paix. C’était aussi environ une décennie après que le linguiste Noam Chomsky ait lâché sa bombe sur le béhaviorisme avec sa théorie de la grammaire universelle – l’idée que toutes les langues humaines partagent une structure sous-jacente commune, qui est le résultat de mécanismes cognitifs câblés dans le cerveau.

Au MIT, Klatt a rejoint le groupe interdisciplinaire de communication vocale, que Perkell décrit comme un « foyer de recherche sur la communication humaine ». Il comprenait des étudiants diplômés et des scientifiques qui avaient des antécédents différents, mais un intérêt commun pour l’étude de tout ce qui concerne la parole: comment nous la produisons, la percevons et la synthétisons.

À cette époque, dit Perkell, il y avait une idée que vous pouviez modéliser la parole à travers des règles spécifiques, « et que vous pouviez faire en sorte que les ordinateurs imitent [ces règles] pour produire la parole et percevoir la parole, et cela avait à voir avec l’existence de phonèmes. »

Les phonèmes sont les éléments de base de la parole – de la même manière que les lettres de l’alphabet sont les unités de base de notre langue écrite. Un phonème est la plus petite unité de son dans une langue qui peut changer le sens d’un mot. Par exemple, « pen » et « pin » sont phonétiquement très similaires, et chacun a trois phonèmes, mais ils sont différenciés par leurs phonèmes moyens: /ɛ/ et /ɪ/, respectivement. L’anglais américain a 44 phonèmes globalement triés en deux groupes: 24 sons consonantiques et 20 sons voyelles, bien que les Sudistes puissent parler avec un son vocalique de moins en raison d’un phénomène phonologique appelé la fusion pin-stylo: « Puis-je emprunter une épingle pour écrire quelque chose? »

Pour construire ses synthétiseurs, Klatt a dû trouver un moyen de faire en sorte qu’un ordinateur convertisse les unités de base du langage écrit en blocs de construction de base de la parole – et de le faire de la manière la plus intelligible possible.

Comment faire parler un ordinateur ? Une approche simple mais abrutissante serait d’enregistrer quelqu’un qui parle chaque mot du dictionnaire, de stocker ces enregistrements dans une bibliothèque numérique et de programmer l’ordinateur pour lire ces enregistrements dans des combinaisons particulières correspondant au texte d’entrée. En d’autres termes, vous assembleriez des extraits comme si vous fabriquiez une lettre de rançon acoustique. Mais dans les années 1970, il y avait un problème fondamental avec cette approche dite concaténative : une phrase parlée sonne très différemment d’une séquence de mots prononcés isolément.

« La parole est continuellement variable », explique Story. « Et la vieille idée selon laquelle » nous allons demander à quelqu’un de produire tous les sons dans une langue et ensuite nous pouvons les coller ensemble « , ne fonctionne tout simplement pas. »

Klatt a signalé plusieurs problèmes avec l’approche concaténative dans un article de 1987:

Klatt a donc adopté une approche différente – une approche qui traitait la synthèse vocale non pas comme un acte d’assemblage, mais comme un acte de construction. Au cœur de cette approche se trouvait un modèle mathématique qui représentait le tractus vocal humain et la façon dont il produit des sons de la parole – en particulier, des formants.

Si vous aviez plongé votre tête dans le bureau du MIT de Dennis à la fin des années 1970, vous l’auriez peut-être vu – un homme mince de six pieds deux dans la quarantaine avec une barbe grisonnante – assis près d’une table qui contenait des volumes de la taille d’une encyclopédie bourrés de spectrogrammes. Ces morceaux de papier ont été la clé de son approche de la synthèse. En tant que représentations visuelles de la fréquence et de l’amplitude d’une onde sonore au fil du temps, ils ont été l’étoile polaire qui a guidé ses synthétiseurs vers une voix de plus en plus naturelle et intelligible.

Perkell le dit simplement: « Il parlait dans le microphone, puis analysait le discours et faisait faire faire la même chose à sa machine. »

Le fait que Dennis ait utilisé sa propre voix comme modèle était une question de commodité, pas de vanité.

« Il devait essayer de reproduire quelqu’un », dit Perkell. « Il était l’orateur le plus accessible. »

Sur ces spectrogrammes, Dennis a passé beaucoup de temps à identifier et à analyser les formants.

« Dennis a fait beaucoup de mesures sur sa propre voix sur l’endroit où les formants devraient être », explique Patti Price, spécialiste de la reconnaissance vocale et linguiste, et ancienne collègue de Dennis au MIT dans les années 1980.

Les formants sont des concentrations d’énergie acoustique autour de fréquences spécifiques dans une onde de parole. Lorsque vous prononcez la voyelle dans « chat », par exemple, vous produisez un formant lorsque vous abaissez votre mâchoire et déplacez votre langue vers l’avant pour prononcer le son de voyelle « a », représenté phonétiquement par /æ/. Sur un spectrogramme, ce son apparaîtrait comme plusieurs bandes sombres se produisant à des fréquences spécifiques dans la forme d’onde. (Au moins un spécialiste de la parole, un Perkell dit qu’il connaissait au MIT, peut regarder un spectrogramme et vous dire quels mots un orateur a dit sans écouter un enregistrement.)

« Ce qui se passe, pour une voyelle ou un son de consonne, c’est qu’il existe un ensemble de fréquences qui sont autorisées à passer facilement à travers cette configuration particulière [du tractus vocal], en raison de la façon dont les ondes se propagent à travers ces constrictions et expansions », explique Story.

Pourquoi certaines fréquences sont-elles faciles à passer ? Prenons l’exemple d’un chanteur d’opéra brisant un verre de vin en lançant une note aiguë. Ce phénomène rare mais réel se produit parce que les ondes sonores du chanteur excitent le verre de vin et le font vibrer très rapidement. Mais cela ne se produit que si l’onde sonore, qui porte plusieurs fréquences, en porte une en particulier: une fréquence de résonance du verre à vin.

Chaque objet dans l’Univers a une ou plusieurs fréquences de résonance, qui sont les fréquences auxquelles un objet vibre le plus efficacement lorsqu’il est soumis à une force externe. Comme quelqu’un qui ne dansera que sur une certaine chanson, les objets préfèrent vibrer à certaines fréquences. Le tractus vocal ne fait pas exception. Il contient de nombreuses fréquences de résonance, appelées formants, et ce sont les fréquences d’une onde sonore que le tractus vocal « aime ».

Les modèles informatiques de Dennis ont simulé la façon dont le tractus vocal produit des formants et d’autres sons de parole. Au lieu de s’appuyer sur des sons préenregistrés, son synthétiseur calculerait les formants nécessaires pour créer chaque son de parole et les assembler en une forme d’onde continue. En d’autres termes : si la synthèse concaténative est comme utiliser des Lego pour construire un objet brique par brique, sa méthode était comme utiliser une imprimante 3D pour construire quelque chose couche par couche, sur la base de calculs précis et de spécifications utilisateur.

Le produit le plus célèbre issu de cette approche était DECtalk, une boîte de la taille d’une mallette de 4 000 $ que vous connecteriez à un ordinateur comme vous le feriez avec une imprimante. En 1980, Dennis a concédé sous licence sa technologie de synthèse à la Digital Equipment Corporation, qui a lancé en 1984 le premier modèle DECtalk, le DTC01.

DECtalk a synthétisé la parole en trois étapes :

DECtalk pourrait être contrôlé par ordinateur et par téléphone. En le connectant à une ligne téléphonique, il était possible de passer et de recevoir des appels. Les utilisateurs pouvaient récupérer des informations de l’ordinateur auquel DECtalk était connecté en appuyant sur certains boutons du téléphone.

Ce qui en a finalement fait une technologie de référence, c’est que DECtalk pouvait prononcer pratiquement n’importe quel texte anglais et modifier stratégiquement sa prononciation grâce à des modèles informatiques qui représentaient toute la phrase.

« C’est vraiment sa principale contribution - être capable de prendre littéralement le texte au discours », a déclaré Story.

Perfect Paul n’était pas la seule voix que Dennis a développée. Le synthétiseur DECtalk en offrait neuf : quatre voix masculines adultes, quatre voix féminines adultes et une voix d’enfant féminine appelée Kit the Kid. Tous les noms étaient des allitérations ludiques : Rough Rita, Huge Harry, Frail Frank. Certains étaient basés sur les voix d’autres personnes. Beautiful Betty était basé sur la voix de Mary Klatt, tandis que Kit the Kid était basé sur celle de leur fille Laura. (Vous pouvez entendre certains d’entre eux, ainsi que d’autres clips de synthétiseurs vocaux plus anciens, dans cette archive hébergée par l’Acoustical Society of America.)

Mais « quand il s’agissait de ce qu’il faisait », dit Perkell, « c’était un exercice solitaire ». Parmi les voix de DECtalk, Dennis a passé de loin le plus de temps sur Perfect Paul. Il semblait penser qu’il était possible de, eh bien, perfectionner Paul parfait – ou du moins approcher la perfection.

« Selon les comparaisons spectrales, je m’en rapproche », a-t-il déclaré à Popular Science en 1986. « Mais il reste quelque chose qui est insaisissable, que je n’ai pas pu capturer. [...] Il s’agit simplement de trouver le bon modèle. »

Trouver le bon modèle consistait à trouver les paramètres de contrôle qui simulaient le mieux le tractus vocal humain. Dennis a abordé le problème avec des modèles informatiques, mais les chercheurs en synthèse vocale qui sont venus bien avant lui ont dû travailler avec des outils plus primitifs.

La synthèse vocale est tout autour de nous aujourd’hui. Dites « Hey Alexa » ou « Siri », et bientôt vous entendrez l’intelligence artificielle synthétiser un discours humain grâce à des techniques d’apprentissage en profondeur presque instantanément. Regardez un blockbuster moderne comme Top Gun: Maverick, et vous ne réaliserez peut-être même pas que la voix de Val Kilmer a été synthétisée – la voix réelle de Kilmer a été endommagée à la suite d’une trachéotomie.

En 1846, cependant, il a fallu un shilling et un voyage à l’Egyptian Hall à Londres pour entendre une synthèse vocale de pointe. Cette année-là, le Hall présentait « The Marvelous Talking Machine », une exposition produite par P.T. Barnum qui mettait en vedette, comme l’a décrit John Hollingshead, un « monstre scientifique de Frankenstein » parlant et son inventeur allemand « au visage triste ».

L’Allemand maussade était Joseph Faber. Arpenteur-géomètre devenu inventeur, Faber a passé deux décennies à construire ce qui était alors la machine parlante la plus sophistiquée au monde. Il en a en fait construit deux, mais a détruit le premier dans un « accès de dérangement temporaire ». Ce n’était pas le premier rapport de l’histoire sur la violence contre une machine parlante. L’évêque allemand Albertus Magnus du XIIIe siècle aurait construit non seulement une tête en laiton parlante – un dispositif que d’autres bricoleurs médiévaux avaient soi-disant construit – mais un homme de métal parlant à part entière « qui répondait très facilement et vraiment aux questions quand on le leur demandait ». Le théologien Thomas d’Aquin, qui était un étudiant de Magnus, aurait mis l’idole en pièces parce qu’elle ne voulait pas se taire.

La machine de Faber s’appelait l’Euphonia. Il ressemblait à une fusion entre un organe de chambre et un humain, possédant une face en bois « mystérieusement vide », une langue d’ivoire, des soufflets pour les poumons et une mâchoire articulée. Son corps mécanique était attaché à un clavier à 16 touches. Lorsque les touches étaient enfoncées dans certaines combinaisons en conjonction avec une pédale qui poussait l’air à travers le soufflet, le système pouvait produire pratiquement n’importe quel son de consonne ou de voyelle et synthétiser des phrases complètes en allemand, anglais et français. (Curieusement, la machine parlait avec des allusions à l’accent allemand de son inventeur, quelle que soit la langue.)

Sous le contrôle de Faber, l’automate de l’Euphonia commençait les spectacles par des lignes comme: « Veuillez excuser ma prononciation lente... Bonjour, Mesdames et Messieurs... C’est une journée chaude... C’est un jour de pluie. Les spectateurs lui posaient des questions. Faber appuyait sur les touches et poussait les pédales pour le faire répondre. Un spectacle londonien s’est terminé avec Faber faisant réciter son automate God Save the Queen, ce qu’il a fait d’une manière fantomatique qui, selon Hollingshead, sonnait comme si elle venait des profondeurs d’une tombe.

Cette machine était l’un des meilleurs synthétiseurs vocaux de ce que l’on pourrait appeler l’ère mécanique de la synthèse vocale, qui s’étendait sur les 18ème et 19ème siècles. Les scientifiques et les inventeurs de cette époque – notamment Faber, Christian Gottlieb Kratzenstein et Wolfgang von Kempelen – pensaient que la meilleure façon de synthétiser la parole était de construire des machines qui reproduisaient mécaniquement les organes humains impliqués dans la production de la parole. Ce n’était pas une mince affaire. À l’époque, la théorie acoustique en était à ses débuts et la production de la parole humaine intriguait encore les scientifiques.

« Une grande partie [de l’ère mécanique] consistait vraiment à essayer de comprendre comment les humains parlent réellement », explique Story. « En construisant un appareil comme Faber l’a fait, ou les autres, vous comprenez rapidement à quel point le langage parlé est complexe, car il est difficile de faire ce que Faber a fait. »

Rappelez-vous l’affirmation selon laquelle la parole est l’action motrice la plus complexe effectuée par n’importe quelle espèce sur Terre? Physiologiquement, cela pourrait bien être vrai. Le processus commence dans votre cerveau. Une pensée ou une intention active les voies neuronales qui codent un message et déclenchent une cascade d’activité musculaire. Les poumons expulsent l’air par les cordes vocales, dont les vibrations rapides coupent l’air en une série de bouffées. Au fur et à mesure que ces bouffées traversent le tractus vocal, vous les façonnez stratégiquement pour produire un discours intelligible.

« Nous bougeons notre mâchoire, nos lèvres, notre larynx, nos poumons, le tout dans une coordination très exquise pour faire sortir ces sons, et ils sortent à un rythme de 10 à 15 [phonèmes] par seconde », explique Perkell.

Acoustiquement, cependant, la parole est plus simple. (Perkell note la différence technique entre la parole et la voix, la voix se référant au son produit par les cordes vocales dans le larynx, et la parole se référant aux mots, phrases et phrases intelligibles qui résultent de mouvements coordonnés du tractus vocal et des articulateurs. « Voix » est utilisé familièrement dans cet article.) Comme analogie rapide, imaginez que vous soufflez de l’air dans une trompette et entendez un son. Que se passe-t-il? Une interaction entre deux choses : une source et un filtre.

Vous pouvez appliquer le modèle source-filtre à n’importe quel son: pincer une corde de guitare, applaudir dans une grotte, commander un cheeseburger au service au volant. Cette vision acoustique est venue au 20ème siècle, et elle a permis aux scientifiques de réduire la synthèse vocale à ses composants nécessaires et d’éviter la tâche fastidieuse de reproduire mécaniquement les organes humains impliqués dans la production de la parole.

Faber, cependant, était toujours coincé sur son automate.

L’Euphonia fut surtout un flop. Après son passage à l’Egyptian Hall, Faber quitta tranquillement Londres et passa ses dernières années à se produire à travers la campagne anglaise avec, comme Hollingshead l’a décrit, « son seul trésor – son enfant d’un labeur infini et d’un chagrin incommensurable ».

Mais tout le monde ne pensait pas que l’invention de Faber était un spectacle secondaire étrange. En 1845, il captive l’imagination du physicien américain Joseph Henry, dont les travaux sur le relais électromagnétique ont contribué à jeter les bases du télégraphe. Après avoir entendu l’Euphonie lors d’une démonstration privée, une vision a jailli dans l’esprit d’Henry.

« L’idée qu’il a vue », dit Story, « était que vous pouviez synthétiser la parole assis ici, à [une machine Euphonia], mais vous transmettriez les frappes via l’électricité à une autre machine, qui produirait automatiquement ces mêmes frappes afin que quelqu’un de loin, très loin entende ce discours. »

En d’autres termes, Henry envisageait le téléphone.

Il n’est donc pas étonnant que plusieurs décennies plus tard, Henry ait contribué à encourager Alexander Graham Bell à inventer le téléphone. (Le père de Bell avait également été un fan de Euphonia de Faber. Il a même encouragé Alexander à construire sa propre machine parlante, ce qu’Alexander a fait – on pourrait dire « Maman ».)

La vision d’Henry allait au-delà du téléphone. Après tout, le téléphone de Bell convertissait les ondes sonores de la parole humaine en signaux électriques, puis revenait en ondes sonores à l’extrémité de réception. Ce qu’Henry avait prévu, c’était une technologie capable de compresser puis de synthétiser les signaux vocaux.

Cette technologie arrivera près d’un siècle plus tard. Comme Dave Tompkins l’a expliqué dans son livre de 2011, How to Wreck a Nice Beach: The Vocoder from World War II to Hip-Hop, The Machine Speaks, il est venu après qu’un ingénieur des Bell Labs nommé Homer Dudley ait eu une révélation sur la parole alors qu’il était allongé dans un lit d’hôpital de Manhattan: Sa bouche était en fait une station de radio.

L’idée de Dudley n’était pas que sa bouche pouvait diffuser le match des Yankees, mais plutôt que la production de la parole pouvait être conceptualisée sous le modèle source-filtre – ou un modèle largement similaire qu’il appelait la nature porteuse de la parole. Pourquoi mentionner une radio ?

Dans un système radio, une onde porteuse continue (source) est générée puis modulée par un signal audio (filtre) pour produire des ondes radio. De même, dans la production de la parole, les cordes vocales dans le larynx (source) génèrent un son brut par vibration. Ce son est ensuite façonné et modulé par le tractus vocal (filtre) pour produire une parole intelligible.

Dudley n’était pas intéressé par les ondes radio, cependant. Dans les années 1930, il s’intéresse à la transmission de la parole à travers l’océan Atlantique, le long du câble télégraphique transatlantique de 2 000 milles. Un problème : ces câbles en cuivre avaient des contraintes de bande passante et ne pouvaient transmettre que des signaux d’environ 100 Hz. La transmission du contenu de la parole humaine à travers son spectre nécessitait une bande passante minimale d’environ 3000 Hz.

Pour résoudre ce problème, il fallait réduire la parole à l’essentiel. Heureusement pour Dudley et pour l’effort de guerre allié, les articulateurs que nous utilisons pour façonner les ondes sonores – notre bouche, nos lèvres et notre langue – se déplacent assez lentement pour passer sous la limite de bande passante de 100 Hz.

« La grande perspicacité de Dudley était qu’une grande partie de l’information phonétique importante dans un signal vocal était superposée à la porteuse vocale par la modulation très lente du tractus vocal par le mouvement des articulateurs (à des fréquences inférieures à environ 60 Hz) », explique Story. « Si ceux-ci pouvaient être extraits du signal vocal, ils pourraient être envoyés à travers le câble télégraphique et utilisés pour recréer (c’est-à-dire synthétiser) le signal vocal de l’autre côté de l’Atlantique. »

Le synthétiseur électrique qui a fait cela s’appelait le vocodeur, abréviation de encodeur vocal. Il utilisait des outils appelés filtres passe-bande pour diviser la parole en 10 parties distinctes, ou bandes. Le système extrayait ensuite des paramètres clés tels que l’amplitude et la fréquence de chaque bande, chiffrait ces informations et transmettait le message brouillé le long des lignes télégraphiques à une autre machine vocodeur, qui désembrouillerait et finalement « parlerait » le message.

À partir de 1943, les Alliés ont utilisé le vocodeur pour transmettre des messages cryptés en temps de guerre entre Franklin D. Roosevelt et Winston Churchill dans le cadre d’un système appelé SIGSALY. Alan Turing, le cryptanalyste anglais qui a déchiffré la machine allemande Enigma, a aidé Dudley et ses collègues ingénieurs des Bell Labs à convertir le synthétiseur en un système de chiffrement de la parole.

« À la fin de la guerre », a écrit le philosophe Christoph Cox dans un essai de 2019, « les terminaux SIGSALY avaient été installés dans le monde entier, y compris sur le navire qui transportait Douglas MacArthur lors de sa campagne à travers le Pacifique Sud ».

Bien que le système ait fait un bon travail de compression de la parole, les machines étaient massives, occupant des pièces entières, et la parole synthétique qu’elles produisaient n’était ni particulièrement intelligible ni humaine.

« Le vocodeur », a écrit Tompkins dans How to Wreck a Nice Beach, « a réduit la voix à quelque chose de froid et de tactique, minuscule et sec comme des boîtes de soupe dans un bac à sable, déshumanisant le larynx, pour ainsi dire, pour certains des moments les plus déshumanisants de l’homme : Hiroshima, la crise des missiles cubains, les goulags soviétiques, le Vietnam. Churchill l’avait, FDR l’a refusé, Hitler en avait besoin. Kennedy était frustré par le vocodeur. Mamie Eisenhower l’a utilisé pour dire à son mari de rentrer à la maison. Nixon en avait un dans sa limousine. Reagan, dans son avion. Staline, sur son esprit en train de se désintégrer. »

Le timbre bourdonnant et robotique du vocodeur a trouvé un accueil plus chaleureux dans le monde de la musique. Wendy Carlos a utilisé un type de vocodeur sur la bande originale du film Orange mécanique de Stanley Kubrick en 1971. Neil Young en a utilisé un sur Trans, un album de 1983 inspiré par les tentatives de Young de communiquer avec son fils Ben, qui était incapable de parler en raison d’une paralysie cérébrale. Au cours des décennies suivantes, vous auriez pu entendre un vocodeur en écoutant certains des noms les plus populaires de la musique électronique et du hip-hop, notamment Kraftwerk, Daft Punk, 2Pac et J Dilla.

Pour la technologie de synthèse vocale, la prochaine étape majeure viendrait de l’ère informatique avec la praticité et l’intelligibilité du système de synthèse vocale de Klatt.

« L’introduction des ordinateurs dans la recherche sur la parole a créé une nouvelle plate-forme puissante pour généraliser et générer de nouveaux énoncés non enregistrés jusqu’à présent », explique Rolf Carlsson, ami et collègue de Klatt et actuellement professeur à l’Institut royal de technologie KTH de Suède.

Les ordinateurs ont permis aux chercheurs en synthèse vocale de concevoir des modèles de contrôle qui manipulaient la parole synthétique de manière spécifique pour la rendre plus humaine, et de superposer ces modèles de contrôle de manière intelligente afin de simuler plus étroitement la façon dont le tractus vocal produit la parole.

« Lorsque ces approches basées sur la connaissance sont devenues plus complètes et que les ordinateurs sont devenus plus petits et plus rapides, il est finalement devenu possible de créer des systèmes de synthèse vocale pouvant être utilisés en dehors du laboratoire », a déclaré Carlsson.

Hawking a dit qu’il aimait Perfect Paul parce que cela ne le faisait pas ressembler à un Dalek – une race extraterrestre dans la série Doctor Who qui parlait avec des voix informatisées.

Je ne suis pas sûr de ce à quoi ressemblent les Daleks, mais à mon oreille, Perfect Paul semble assez robotique, surtout par rapport aux programmes modernes de synthèse vocale, qui peuvent être difficiles à distinguer d’un locuteur humain. Mais sonner humain n’est pas nécessairement la chose la plus importante dans un synthétiseur vocal.

Price dit que parce que de nombreux utilisateurs de synthétiseurs vocaux étaient des personnes ayant des handicaps de communication, Dennis était « très concentré sur l’intelligibilité, en particulier l’intelligibilité sous stress – quand d’autres personnes parlent ou dans une pièce avec d’autres bruits, ou quand vous accélérez, est-ce toujours intelligible?

Perfect Paul peut ressembler à un robot, mais il en est au moins un qui est facile à comprendre et relativement peu susceptible de mal prononcer un mot. C’était une commodité majeure, non seulement pour les personnes ayant des troubles de la communication, mais aussi pour ceux qui utilisaient DECtalk d’autres façons. La société Computers in Medicine, par exemple, offrait un service téléphonique où les médecins pouvaient composer un numéro et demander à une voix DECtalk de lire les dossiers médicaux de leurs patients – prononçant les médicaments et les conditions – à toute heure du jour ou de la nuit.

« DECtalk a fait un meilleur travail pour parler ces [termes médicaux] que la plupart des profanes », a déclaré un dirigeant d’une société informatique cité par Popular Mechanics dans un article de 1986.

Pour atteindre ce niveau d’intelligibilité, il a fallu élaborer un ensemble sophistiqué de règles qui saisissaient les subtilités du discours. Par exemple, essayez de dire : « Joe a mangé sa soupe. » Maintenant, recommencez, mais remarquez comment vous modifiez le /z/ dans « his ». Si vous parlez couramment l’anglais, vous mélangeriez probablement le /z/ de « his » avec le /s/ voisin de « soupe ». Cela convertit le /z/ en un son non voisé, ce qui signifie que les cordes vocales ne vibrent pas pour produire le son.

Le synthétiseur de Dennis pouvait non seulement apporter des modifications telles que convertir le /z/ de « Joe ate his soup » en un son non vocalisé, mais il pouvait également prononcer correctement les mots en fonction du contexte. Une publicité de DECtalk de 1984 en offrait un exemple :

« Considérez la différence entre 1,75 et 1,75 million de dollars. Les systèmes primitifs lisent cela comme « dollars-une-période-sept-cinq » et « dollars-une-période-sept-cinq-millions ». Le système DECtalk tient compte du contexte et interprète correctement ces chiffres comme « un dollar et soixante-quinze cents » et « un point sept cinq millions de dollars ».

DECtalk avait également un dictionnaire contenant des prononciations personnalisées pour les mots qui défient les règles phonétiques conventionnelles. Un exemple : « calliope », qui est représenté phonétiquement comme /kəˈlaɪəpi/ et prononcé « kuh-LYE-uh-pee ».

Le dictionnaire de DECtalk contenait également d’autres exceptions.

« Il m’a dit qu’il avait mis des œufs de Pâques dans son système de synthèse vocale afin que si quelqu’un le copiait, il puisse dire que c’était son code », dit Price, ajoutant que, si elle se souvient bien, taper « suanla chaoshou », qui était l’un des plats chinois préférés de Klatt, ferait dire au synthétiseur « Dennis Klatt ».

Certaines des règles d’intelligibilité les plus importantes de DECtalk étaient centrées sur la durée et l’intonation.

« Klatt a développé un système de synthèse vocale dans lequel les durées naturelles entre les mots étaient préprogrammées et contextuelles », explique Story. « Il a dû programmer : si vous avez besoin d’un S mais qu’il se situe entre un son Ee et un Son, ça va faire quelque chose de différent que s’il tombait entre un Ooo et un Oh. Donc, vous deviez avoir toutes ces règles contextuelles intégrées là-dedans aussi, et aussi pour intégrer des pauses entre les mots, puis avoir toutes les caractéristiques prosodiques: pour une question, le pitch monte, pour une déclaration, le pitch entre. »

La capacité de moduler la hauteur signifiait également que DECtalk pouvait chanter. Après avoir écouté la machine chanter New York, New York en 1986, T.A. Heppenheimer de Popular Science a conclu que « ce n’était pas une menace pour Frank Sinatra ». Mais même aujourd’hui, sur YouTube et des forums comme /r/dectalk, il reste un petit groupe enthousiaste de personnes qui utilisent le synthétiseur – ou ses émulations logicielles – pour lui faire chanter des chansons, de Ainsi parlait Zarathoustra de Richard Strauss à la célèbre chanson « Trololo » sur Internet en passant par Happy Birthday to You, que Dennis a fait chanter à DECtalk pour l’anniversaire de sa fille Laura.

DECtalk n’a jamais été un chanteur gracieux, mais il a toujours été intelligible. L’une des raisons importantes est centrée sur la façon dont le cerveau perçoit la parole, un domaine d’étude auquel Klatt a également contribué. Il faut beaucoup d’efforts cognitifs pour que le cerveau traite correctement un discours de mauvaise qualité. L’écouter assez longtemps peut même causer de la fatigue. Mais DECtalk était « un peu hyper-articulé », dit Price. C’était facile à comprendre, même dans une pièce bruyante. Il avait également des fonctionnalités qui étaient particulièrement utiles aux personnes ayant des problèmes de vision, comme la possibilité d’accélérer la lecture de texte.

En 1986, le synthétiseur DECtalk était sur le marché depuis deux ans et avait connu un certain succès commercial. Pendant ce temps, la santé de Dennis déclinait. Ce coup du sort ressemblait à un « commerce avec le diable », a-t-il déclaré à Popular Science.

Le diable devait être d’accord avec les résultats plus bienveillants du commerce. Comme le disait une publicité : « [DECtalk] peut donner à une personne malvoyante un moyen efficace et économique de travailler avec des ordinateurs. Et cela peut donner à une personne souffrant de troubles de la parole un moyen de verbaliser ses pensées en personne ou au téléphone.

Dennis n’a pas commencé sa carrière scientifique avec pour mission d’aider les personnes handicapées à communiquer. Au contraire, il était naturellement curieux des mystères de la communication humaine.

« Et puis cela a évolué en: » Oh, cela pourrait vraiment être utile pour d’autres personnes « , dit Mary. « C’était vraiment satisfaisant. »

En 1988, Hawking est rapidement devenu l’un des scientifiques les plus célèbres au monde, en grande partie grâce au succès surprise de A Brief History of Time. Pendant ce temps, Dennis savait que Hawking avait commencé à utiliser la voix de Paul parfait, dit Mary, mais il était toujours modeste dans son travail et « ne rappelait pas à tout le monde ».

Non pas que tout le monde ait besoin d’un rappel. Lorsque Perkell a entendu la voix de Hawking pour la première fois, il a dit qu’il était « indubitable pour moi que c’était KlattTalk », la voix qu’il avait régulièrement entendue sortir du bureau de Dennis au MIT.

Mary préfère ne pas s’attarder sur l’ironie de Dennis perdant sa voix vers la fin de sa vie. Il était toujours optimiste, dit-elle. C’était un scientifique avant-gardiste qui aimait écouter Mozart, préparer le dîner pour sa famille et travailler à éclairer le fonctionnement interne de la communication humaine. Il a continué à faire exactement cela jusqu’à une semaine avant sa mort en décembre 1988.

Perfect Paul a marqué toutes sortes de rôles parlants tout au long des années 1980 et 1990. Il a livré les prévisions sur NOAA Weather Radio, fourni des informations de vol dans les aéroports, exprimé le personnage de télévision Mookie dans Tales from the Darkside et la veste robotique dans Retour vers le futur partie II. Il a parlé dans des épisodes des Simpsons, a été présenté sur la chanson bien nommée de Pink Floyd Keep Talking, inspiré par des blagues dans le jeu vidéo en ligne Moonbase Alpha et a laissé tomber des lignes sur des morceaux de rap de MC Hawking comme All My Shootings Be Drivebys. (Le vrai Hawking a dit qu’il était flatté par les parodies.)

Hawking a continué à utiliser la voix de Perfect Paul pendant près de trois décennies. En 2014, il produisait encore Perfect Paul grâce au synthétiseur CallText de 1986, qui utilisait la technologie de Klatt et la voix de Perfect Paul, mais présentait des règles prosodiques et phonologiques différentes de celles de DECtalk. Le matériel rétro est devenu un problème: le fabricant avait cessé ses activités et il ne restait plus qu’un nombre fini de puces dans le monde.

Ainsi commença un effort concerté pour sauver la voix de Hawking. Le piège ?

« Il voulait sonner exactement la même chose », dit Price. « Il voulait juste que ce soit dans le logiciel, parce que l’une des cartes originales était morte. Et puis il est devenu nerveux de ne pas avoir de planches de rechange. »

Il y avait eu des tentatives précédentes de reproduire le son du synthétiseur de Hawking à l’aide d’un logiciel, mais Hawking les avait toutes rejetées, y compris une tentative d’apprentissage automatique et les premières tentatives de l’équipe avec laquelle Price travaillait. Pour Hawking, aucun ne sonnait tout à fait juste.

« Il l’a utilisé pendant tant d’années que c’est devenu sa voix et il n’en voulait pas [une nouvelle] », dit Price. « Ils auraient pu simuler sa vieille voix à partir de vieux enregistrements de lui, mais il ne voulait pas ça. C’était devenu sa voix. En fait, il voulait obtenir un droit d’auteur, un brevet ou une protection afin que personne d’autre ne puisse utiliser cette voix.

Hawking n’a jamais breveté la voix, bien qu’il l’ait désignée comme sa marque de fabrique.

« Je ne le changerais pas pour une voix plus naturelle avec un accent britannique », a-t-il déclaré à la BBC dans une interview en 2014. « On me dit que les enfants qui ont besoin d’une voix d’ordinateur en veulent une comme la mienne. »

Après des années de travail acharné, de faux départs et de rejets, l’équipe avec laquelle Price a finalement collaboré a finalement réussi à faire de la rétro-ingénierie et à imiter l’ancien matériel pour produire une voix qui, à l’oreille de Hawking, sonnait presque identique à la version de 1986.

La percée a eu lieu quelques mois seulement avant la mort de Hawking en mars 2018.

« Nous allions faire la grande annonce, mais il avait un rhume », dit Price. « Il ne s’est jamais amélioré. »

La synthèse vocale d’aujourd’hui est pratiquement méconnaissable par rapport aux années 1980. Au lieu d’essayer de reproduire le tractus vocal humain d’une manière ou d’une autre, la plupart des systèmes modernes de synthèse vocale utilisent des techniques d’apprentissage profond où un réseau neuronal est formé sur un nombre massif d’échantillons de parole et apprend à générer des modèles de parole en fonction des données auxquelles il a été exposé.

On est loin de l’Euphonie de Faber.

« La façon dont [les synthétiseurs vocaux modernes] produisent la parole », dit Story, « n’est en aucun cas liée à la façon dont un humain produit la parole. »

Certaines des applications les plus impressionnantes d’aujourd’hui incluent l’IA de clonage vocal comme VALL-E X de Microsoft, qui peut reproduire la voix de quelqu’un après l’avoir écouté parler pendant quelques secondes seulement. L’IA peut même imiter la voix du locuteur d’origine dans une langue différente, capturant également l’émotion et le ton.

Tous les spécialistes de la parole n’aiment pas nécessairement la vraisemblance de la synthèse moderne.

« Cette tendance à converser avec des machines est très troublante pour moi, en fait », dit Perkell, ajoutant qu’il préfère savoir qu’il parle avec une vraie personne lorsqu’il est au téléphone. « Cela déshumanise le processus de communication. »

Dans un article de 1986, Dennis a écrit qu’il était difficile d’estimer l’impact de plus en plus sophistiqué sur la société sur les ordinateurs capables d’écouter et de parler.

« Les machines parlantes ne sont peut-être qu’une mode passagère », écrit-il, « mais le potentiel de nouveaux services puissants est si grand que cette technologie pourrait avoir des conséquences considérables, non seulement sur la nature de la collecte et du transfert normaux d’informations, mais aussi sur nos attitudes à l’égard de la distinction entre l’homme et l’ordinateur. »

En pensant à l’avenir des machines parlantes, Dennis a probablement pensé que des technologies plus récentes et plus sophistiquées finiraient par rendre la voix de Perfect Paul obsolète – un destin qui s’est largement joué. Ce qui aurait été pratiquement impossible à prédire pour Dennis, cependant, était le sort de Perfect Paul vers le 55ème siècle. C’est alors qu’un trou noir engloutira un signal de Paul parfait.

En hommage à Hawking après sa mort, l’Agence spatiale européenne a transmis en juin 2018 un signal de Hawking parlant vers un système binaire appelé 1A 0620-00, qui abrite l’un des trous noirs les plus proches connus de la Terre. Lorsque le signal y arrivera, après avoir rayonné à la vitesse de la lumière à travers l’espace interstellaire pendant quelque 3 400 ans, il traversera l’horizon des événements et se dirigera vers la singularité du trou noir.

La transmission devrait être la première interaction de l’humanité avec un trou noir.

Construire une machine parlante Perfectionner Paul parfait Têtes parlantes La chaîne de parole John Henry et les visions de l’avenir Le vocodeur et la nature porteuse de la parole DECtalk frappe le grand public La voix de Paul parfait dans le monde Le destin de Perfect Paul
PARTAGER