ORL
Publié le 16 nov 2010Lecture 10 min
La voix du silence. Vers une communication parlée silencieuse
T. HUEBER, GIPSA-lab, Département Parole et Cognition, Saint-Martin d’Hères
Une communication parlée silencieuse ? Derrière cette expression qui peut paraître paradoxale, se cache un domaine de recherche en pleine expansion : celui de la conception d’une « interface de communication en parole silencieuse » ou icps(a) (1). de quoi s’agit-il ? Une icps est un dispositif qui permet de saisir et d’interpréter une parole qui est normalement articulée, mais non vocalisée. le locuteur met en mouvement ses différents articulateurs (mâchoire, langue, lèvres, voile du palais) mais il n’envoie pas d’air dans ses cavités orale et nasale ; il n’émet donc (pratiquement) aucun son. le principe d’une icps est, d’une part, de capturer les indices « inaudibles » de cette « parole silencieuse », comme par exemple les mouvements des articulateurs ou l’activité nerveuse et musculaire, et, d’autre part, de les transformer en un signal de parole « audible ».
Le champ applicatif d’une ICPS est large ; il s’étend tout d’abord au secteur des télécommunications, militaires et civiles. Destinée à terme à être léger et portatif, une ICPS permettrait, couplée à un téléphone mobile, d’envisager une communication parlée dans un milieu où la discrétion est capitale, comme dans le cadre d’une opération de sécurité (prise d’otage), ou très appréciable, pour téléphoner par exemple pendant une réunion, ou dans un transport en commun sans déranger les autres voyageurs. Une ICPS permettrait également la communication dans des environnements extrêmement bruyants (hélicoptère, char d’assaut, concert), dans lesquels le signal sonore est souvent trop dégradé pour être traité par les techniques classiques de débruitage ou de transcription automatique. Une ICPS pourrait également avoir plusieurs applications médicales, comme par exemple l’aide aux personnes laryngectomisées. Une ICPS constituerait en effet une alternative intéressante aux solutions existantes que sont : la voix oesophagienne (relativement difficile à maîtriser et fournissant une parole peu fluide), la voix trachéooesophagienne (produisant une parole plus naturelle mais nécessitant la mise en place d’un implant phonatoire par voie chirurgicale), et enfin l’électrolarynx (à l’origine d’une parole « robotique » et dont l’utilisation peut être limitée par des facteurs anatomiques post-thérapeutiques). L’utilisation d’une ICPS pourrait également être envisagée dans le cas d’une personne ayant des troubles du langage suite à une chirurgie laryngée non totale intéressant le plan glottique, d’une pathologie de la motricité laryngée, ou enfin, d’une atteinte neurologique. Un peu d’histoire C’est peut-être sur grand écran que l’on retrouve le premier système automatique capable de décoder un message vocal uniquement à partir d’informations « non acoustiques » : il s’agit du fameux ordinateur HAL 9000 du film de Stanley Kubrick 2001, L’Odyssée de l’espace (1968), « lisant » sur les lèvres d’astronautes enfermés dans une capsule insonorisée, pour comploter discrètement contre lui. Cette même idée d’exploiter la « modalité visuelle » de la parole, c’est-à-dire l’image des lèvres du locuteur, a d’ailleurs été reprise par la communauté scientifique dans les années 80, afin d’améliorer la robustesse au bruit des systèmes de transcription automatique. Cependant, l’image des lèvres du locuteur ne permet pas, à elle seule, de décoder l’intégralité du message vocal. On considère en effet que la lecture labiale ne permet de percevoir qu’environ 30 % du message émis, le reste de la compréhension s’effectuant par suppléance mentale (intégration du contexte) et par l’interprétation d’informations non verbales comme certains gestes manuels, faciaux (mimiques), et corporels. Pour concevoir une ICPS, il est donc apparu nécessaire de mettre en oeuvre des techniques instrumentales donnant également accès aux mouvements des articulateurs internes. Plusieurs approches ont été proposées dans la littérature depuis le début des années 2000. Pour une étude complète de ces dernières, on pourra consulter le numéro spécial de la revue internationale Speech Communication (1) paru en 2010. Par souci de concision, nous n’en présenterons ici que trois, qui nous apparaissent, de plus, comme étant les plus proches d’un prototype fonctionnel. Approche par électromyographie de surface (sEMG) Pour saisir l’activité articulatoire pendant la production de la « parole silencieuse », l’équipe du Pr Tanja Schultz du Cognitive Systems Lab de l’Institut de Technologie de Karlsruhe, utilise l’électromyographie de surface (sEMG). Cette technique s’appuie sur le recueil du potentiel d’action électrique des cellules musculaires. Douze électrodes sont disposées sur le visage du locuteur, en haut de la gorge et sous le menton (figure 1). Figure 1. Approche par électromyographie de surface (extrait de (1)). À terme, les différentes électrodes pourraient être intégrées dans un masque. Le placement de ces électrodes est déterminé afin de capter, le plus précisément possible, les activités des muscles impliqués dans le mouvement des lèvres et dans celui de la langue. Approche par imagerie ultrasonore et vidéo Le système proposé par le Pr Bruce Denby, et développé au laboratoire SIGMA de l’ESPCI ParisTech(b)(2,3), combine un système d’imagerie ultrasonore (échographie), pour capturer le mouvement des articulateurs internes, et une caméra vidéo, pour saisir le mouvement des lèvres (figure 2). La sonde ultrasonore placée sous la mâchoire du locuteur fournit une image de la cavité buccale sur laquelle apparaît notamment la langue (figure 3). Ce double système d’imagerie permet donc d’étudier les modifications de la géométrie du conduit vocal pendant l’articulation silencieuse. Approche par microphonie stéthoscopique Une autre approche proposée pour la réalisation d’une ICPS, s’appuie sur la capture de « murmures inaudibles » (Non Audible Murmur ou NAM), qui peuvent être décrits comme des chuchotements imperceptibles. Comme dans la voix chuchotée, les cavités orales sont excitées par un flux d’air laryngé continu, mais dans ce cas, d’énergie extrêmement faible. La parole produite devient alors difficilement perceptible, même pour un auditeur proche. Les très faibles résonances de l’onde de pression dans les cavités orales ainsi que les chocs des articulateurs contre les parois, transmis dans les tissus mous de la tête, sont capturés à l’aide d’un microphone dit « stéthoscopique », placé juste en dessous de l’oreille (figure 4). Cette approche a été initiée et développée par l’équipe du Pr Kyoshiro Shikano au Nara Institute of Science and Technology au Japon (travaux de Y. Nakajima et T. Toda). Cette technique a également été étudiée au Département Parole et Cognition du GIPSA-lab à Grenoble (travaux de V.A. Tran et H. Loevenbruck). Figure 2. Approche par imagerie ultrasonore et vidéo. À gauche, le dispositif expérimental « de laboratoire », à droite, une vue « artistique » du prototype envisagé. Figure 3. Images ultrasonores du conduit vocal dans le plan sagittal médian (position « relâchée » à gauche, lors d’un [k] à droite). Reconstitution du signal de parole Pour convertir les signaux capturés à l’aide d’une des techniques décrites précédemment en un signal de parole audible, il est nécessaire de disposer d’un « modèle mathématique » qui relie l’activité articulatoire d’une part, aux caractéristiques du signal sonore qui découle de cette activité d’autre part. Un tel modèle est généralement obtenu par « apprentissage artificiel » (machine learning), discipline regroupant un ensemble de méthodes mathématiques permettant de créer un modèle de façon automatique, à partir de l’analyse de données expérimentales. Figure 4. Approche par microphonie stéthoscopique NAM (extrait de (1)). Le capteur est placé sous l’oreille du locuteur. Cet apprentissage s’effectue souvent à partir « d’exemples » (on parle alors d’apprentissage supervisé). Une façon de construire cette base d’exemples est de demander au futur utilisateur du système de vocaliser un ensemble de phrases, et d’enregistrer, simultanément, l’activité articulatoire et le signal sonore associé(c). Les paramètres du modèle recherché sont alors estimés sur cette base de données qui met en correspondance les « causes », à savoir l’activité articulatoire, avec les « effets », à savoir le son. Si cette phase d’apprentissage réussit, alors le modèle devient capable de « prédire » l’effet, uniquement en observant la cause, ce qui est bien le but recherché par une ICPS. Cependant, il est important de souligner que le problème du décodage de la parole silencieuse est un problème « mal posé », au sens mathématique du terme, c’est-à-dire un problème qui n’a pas de solution unique. En effet, la parole silencieuse étant caractérisée par l’absence d’activité laryngée, il est a priori impossible de distinguer deux phonèmes qui ne diffèrent que par leur caractéristique de voisement ([p]/[b], [t]/[d], [k]/[g], etc.). Une des solutions proposées pour tenter de lever ces ambiguïtés, est d’introduire dans la conversion, des informations linguistiques a priori. Ces dernières prendront la forme d’une limitation sur le vocabulaire autorisé, et d’un « modèle de langage probabiliste », c’est-à-dire un modèle renseignant sur la probabilité d’occurrence d’une suite de mots dans une langue donnée(d). Et ca marche ? Pas encore… mais on y travaille_! Bien que des résultats de plus en plus prometteurs soient régulièrement publiés, aucun prototype complètement fonctionnel — c’est-à-dire un système portatif, capable de fonctionner en temps réel, et validé dans des situations de communications réalistes — n’est à ce jour « sorti » des laboratoires (à la connaissance de l’auteur). Par ailleurs, il est difficile de comparer de façon rigoureuse les performances des différents systèmes proposés. Ces derniers ne sont pour l’instant évalués, ni sur les mêmes tâches, ni sur les mêmes données. Si certains travaux portent uniquement sur la transcription de la parole silencieuse vers du texte, d’autres vont jusqu’à la génération du signal sonore dont ils évaluent l’intelligibilité. Les performances des systèmes dépendent également fortement de la quantité d’informations a priori introduites pour « aider » la conversion, comme par exemple le nombre de mots autorisés. À titre indicatif, il a été montré dans le cadre de l’approche par imagerie ultrasonore et vidéo (1), qu’un auditeur était en moyenne capable de retranscrire correctement 65 % des mots contenus dans le signal de parole synthétique (expérimentation menée en langue anglaise, sur un vocabulaire « autorisé » de 3 000 mots)… un résultat encore insuffisant mais néanmoins encourageant ! Conclusion Interfaces homme-machine réunissant des techniques d’instrumentation et de modélisation issues de domaines divers comme la bioingénierie, l’intelligence artificielle et les sciences du langage, les interfaces de communication en parole silencieuse constituent un domaine de recherche relativement récent et en plein développement. Un dispositif non invasif et portatif, capable de convertir une production articulatoire « silencieuse » en un signal de parole « audible », ouvrirait des perspectives intéressantes pour l’aide aux personnes présentant des troubles du langage comme les laryngectomisés, et permettrait à terme, l’émergence d’une « téléphonie silencieuse »… évidemment, ne le dites pas trop fort… Notes : a. Terme traduit de l’expression anglaise Silent Speech Interface proposée par le Pr Bruce Denby (1). b. SIGMA : SIGnaux, Modèles et Appren-tissage statistique. ESPCI : École supérieure de physique et de chimie industrielles de la Ville de Paris. c. Dans le cas d’une personne devant subir une laryngectomie, cet enregistrement aura lieu avant la chirurgie. d. Exemple : après la suite de mots « je mange une », le mot « pomme » est plus probable que le mot « table ».
Attention, pour des raisons réglementaires ce site est réservé aux professionnels de santé.
pour voir la suite, inscrivez-vous gratuitement.
Si vous êtes déjà inscrit,
connectez vous :
Si vous n'êtes pas encore inscrit au site,
inscrivez-vous gratuitement :