publicité
Facebook Facebook Facebook Partager

ORL

Publié le 31 mar 2014Lecture 16 min

Retour articulatoire visuel pour l’aide à la prononciation

T. HUEBER, P. BADIN, G. BAILLY, F. ELISEI, Gipsa-lab, Département Parole et Cognition, Grenoble
Plusieurs recherches sont actuellement menées pour concevoir des systèmes permettant à un locuteur de visualiser en temps réel ses propres mouvements articulatoires. l'objectif de ces systèmes de « retour articulatoire visuel » est d'aider un locuteur à mieux comprendre où se positionnent ses articulateurs (notamment sa langue) lorsqu'il parle, lui permettant ainsi de mieux les contrôler. Les applications visées par ces systèmes sont la rééducation orthophonique et l'aide à l'apprentissage des langues étrangères.
Motivations Les troubles de l’articulation sont d’origines multiples. Ils peuvent être liés à une malformation de l’appareil vocal, à un mauvais contrôle moteur, à un déficit auditif, à une intervention chirurgicale de la sphère ORL, etc. Le traitement de ces troubles nécessite la mise en place d’un processus de rééducation orthophonique. Les protocoles actuels mis en oeuvre pour cette rééducation sont basés essentiellement sur la répétition « d’exercices » : le praticien analyse qualitativement la parole produite par le patient, met en place une stratégie adaptée et décrit cette dernière au patient. L’efficacité de la rééducation repose donc sur la compréhension de l’origine exacte du trouble par le praticien, sur la qualité de l’échange avec le patient et sur la bonne intégration par ce dernier des indications qui lui sont données. Or, si le praticien dispose aujourd’hui d’outils informatiques dédiés pour affiner son diagnostic et quantifier les progrès effectués, il est fréquent que le patient ne dispose de son côté que d’indications « verbales » qu’il doit confronter au ressenti qu’il a de son propre geste articulatoire (exemple : « pour produire le son [k], pressez l’arrière de la langue contre le palais puis relâchez… »). Cependant, il est fréquent que le patient peine à transformer les indications du praticien en une « cible articulatoire » concrète, qu’il doit visualiser mentalement et tenter d’atteindre. Le temps et l’énergie nécessaires à sa rééducation se voient alors rallongés. C’est ce manque de conscience sur la position des articulateurs de la parole, dans l’espace comme dans le temps, que les systèmes dits de « retour articulatoire visuel », tentent de combler. Système de retour visuel articulatoire Vizart3D.  Le retour articulatoire visuel Un système de « retour articulatoire visuel » (ou visual articulatory feedback en anglais) est un système permettant à un locuteur de visualiser tout ou partie de ses propres mouvements articulatoires, pendant, ou peu de temps après les avoir effectués (figure 1). Figure 1. Retour articulatoire visuel (principe général).  L’objectif de ces systèmes est d’améliorer la conscience que le locuteur a de ses propres mouvements articulatoires, comme par exemple la position de sa langue, pour (peut-être) mieux les corriger. La conception de systèmes de retour articulatoire visuel est un domaine de recherche en pleine expansion, qui implique différentes communautés des sciences de la communication parlée, regroupant ainsi des chercheurs en technologies vocales, en phonétique, en sciences cognitives, des orthophonistes et des ORL. S’il est relativement simple d’enregistrer les mouvements des articulateurs externes, comme les lèvres et la mâchoire, en utilisant par exemple une simple caméra vidéo, il est en revanche plus complexe de capturer les mouvements d’articulateurs internes, comme ceux de la langue. Plusieurs approches, utilisables dans le cadre d’une séance de rééducation orthophonique, ont à ce jour été proposées dans la littérature. Les paragraphes suivants tentent d’en dresser une liste (non exhaustive). L’électropalatographie Mis au point au début des années 1960, l’électropalatographe ou EPG est un instrument de mesure basé sur un palais artificiel, couvert d’électrodes de contact (le nombre d’électrodes peut varier entre 60 et 120 (figure 2A). Cet instrument permet de suivre, en temps réel, les zones du palais touchées par la langue, pendant la production de la parole, comme pendant la déglutition. La visualisation de ces zones de contact s’effectue généralement sur un écran d’ordinateur, qui affiche un tableau dont les cases représentent de façon schématique l’organisation spatiale des électrodes sur le palais artificiel ; une case « s’allume » lorsque la langue rentre en contact avec l’électrode qu’elle représente (figures 2A et 2B). L’EPG est donc un instrument particulièrement bien adapté à l’étude des consonnes occlusives et fricatives, qui impliquent un contact de la langue avec le palais. Parmi les systèmes aujourd’hui disponibles sur le marché, on citera principalement ceux commercialisés par les sociétés Articulate Instruments et CompleteSpeech (système SmartPalate). L’EPG est encore aujourd’hui très utilisé dans le cadre d’études phonétiques, portant sur la caractérisation de la parole normale comme pathologique. Son utilisation dans le cadre de la rééducation orthophonique a fait l’objet de nombreuses études de cas (1). Les cas les plus étudiés concernent les enfants, et portent sur les troubles liés aux fentes palatines, à l’apraxie, et à certaines formes de dysarthrie. Dans ces études, l’EPG est utilisé à la fois comme outil de diagnostic aidant le praticien à comprendre l’origine du trouble articulatoire, et comme système de retour visuel permettant au patient d’appréhender son propre geste lingual (ou celui du praticien si ce dernier est également équipé d’un palais artificiel). Cependant, il n’existe (à notre connaissance) que très peu d’études fournissant une évaluation quantitative « massive » des thérapies orthophoniques basées sur l’EPG. On citera principalement l’étude de K.I. Michi et coll.(2) qui porte sur un groupe de 6 enfants japonais âgés de 4 à 6 ans, présentant une fente palatine. Cette étude montre notamment que l’utilisation de l’EPG permet d’accélérer la thérapie (moins de séances nécessaires pour atteindre le but thérapeutique, en comparaison d’un protocole de rééducation standard). Si l’EPG semble un outil intéressant pour améliorer la « conscience articulatoire » d’un locuteur, cette technique présente cependant des inconvénients. Outre la nécessité de construire un palais artificiel adapté à la morphologie de chaque sujet et l’impact de cette modification géométrique et sensorielle sur l’articulation, les différentes études de cas reportées dans la littérature laissent en effet apparaître une variabilité inter-individuelle relativement importante. Cette variabilité peut dans une certaine mesure s’expliquer par les difficultés que peuvent avoir certains patients à « lire » les patterns EPG (comme ceux présentés figure 2C). Il semble en effet difficile pour certains de décrypter cette visualisation schématique « bidimensionnelle » des points de contacts langue-palais, et de se représenter « dans l’espace » la cible articulatoire à atteindre. Par ailleurs, l’EPG ne renseigne que sur les zones de contact de la langue avec le palais, et non sur la distance qui les sépare. Figure 2. A. Électropalatrographe. B. Séance de rééducation orthophonique utilisant l’EPG. C. Exemples de patterns EPG. (Illustrations : Queen Margaret University)  L’EPG ne peut donc pas être utilisé pour corriger l’articulation de tous les phonèmes, comme par exemple les voyelles moyennes et ouvertes. C’est notamment ce que va permettre l’échographie, une technique dont l’utilisation dans le cadre du retour visuel pour la correction orthophonique est de plus en plus étudiée. L’échographie (imagerie ultrasonore) L’échographie est une technique d’imagerie médicale qui peut être utilisée pour capturer le mouvement de la langue pendant la production de la parole. La sonde ultrasonore est alors placée sous le menton du locuteur (figure 3A). Lorsque la sonde est orientée dans le sens de la longueur de la langue, on obtient une coupe de la cavité buccale dans le plan sagittal médian (figure 3B). Figure 3. A. Échographie du conduit vocal. B. Images ultrasonores de la langue dans le plan sagittal médian (position de « repos » à gauche, lors d’un [k] à droite).  Une coupe dans le plan coronal est obtenue en orientant la sonde dans le sens de la largeur de la langue. Ce mode de visualisation, qui révèle les détails du septum lingual, reste assez peu utilisé car il ne permet pas la visualisation simultanée des parties postérieures et antérieures de la langue lors de la production de parole. La structure la plus évidente dans le plan sagittal médian est la surface de la langue qui est délimitée par la limite inférieure de la longue et fine bande très échogène. Certaines contraintes limitent la visibilité complète des déformations de la langue : sur les images échographiques, la surface de la langue est notamment interrompue de part et d’autre par deux « ombres acoustiques » causées par la présence, sur la trajectoire du faisceau ultrasonore, de l’os hyoïde pour celle de gauche et de l’os de la mâchoire pour celle de droite. L’ombre acoustique de la mâchoire peut parfois être à l’origine d’une occultation de l’apex. Par ailleurs, le palais n’est visible que très partiellement, et uniquement lorsque qu’il est en contact avec la langue. Ceci se produit notamment lors de la déglutition, pendant laquelle la langue épouse la forme du palais osseux, et lors de l’articulation de certaines consonnes palatales ou vélaires. Malgré ces restrictions, l’échographie est l’une des rares techniques d’imagerie présentant de bonnes résolutions temporelles (de l’ordre de 80 images par seconde) et spatiales (inférieure à 1 mm). Pour plus d’informations sur l’utilisation de l’échographie pour l’étude du conduit vocal, nous invitons le lecteur à consulter(3). Inoffensive et non invasive, l’échographie est une technique bien adaptée pour une utilisation dans le cadre d’une séance de rééducation orthophonique. Il n’existe cependant à ce jour aucun système commercial d’échographie dédié « exclusivement » à l’imagerie du conduit vocal. Plusieurs chercheurs ont cependant conçu, à partir d’échographes classiques, des systèmes adaptés à l’étude des mouvements articulatoires. Ces systèmes permettent notamment l’enregistrement simultané et synchrone du flux d’images ultrasonores avec d’autres types de signaux. On citera notamment le système développé par la société Articulate Instruments qui permet la synchronisation du flux d’images ultrasonores avec le signal EPG. On citera également le système Ultraspeech, que nous développons au Gipsa-lab, qui est un système portable, permettant de synchroniser le flux d’images ultrasonores avec un flux vidéo en provenance d’une caméra, ainsi qu’avec plusieurs canaux audio (plus d’informations sur www.ultraspeech.com). Ce système permet donc par exemple, d’observer et d’enregistrer simultanément les mouvements de la langue, des lèvres et la voix d’un locuteur. Les premiers travaux portant sur l’utilisation de l’échographie dans le cadre de la rééducation orthophonique, et plus spécifiquement dans celui du « retour visuel », sont ceux de Shawker & Sonies (1985). Ils présentent une étude de cas sur la rééducation d’un individu sourd, à l’aide de l’échographie. Plus récemment, des chercheurs de l’université de British Columbia au Canada (4) ont publié plusieurs études impliquant des groupes de patients (environ une dizaine par groupe). Si la plupart d’entre elles évaluent l’impact « global » du retour visuel par échographie sur la qualité de la production, d’autres ciblent plus spécifiquement un phonème, comme par exemple le /r/ en anglais nord-américain. Bien que ces travaux semblent montrer que les thérapies orthophoniques basées sur l’échographie, tout comme celles basées sur l’EPG, permettent d’accélérer le processus de rééducation, des études quantitatives, impliquant un nombre beaucoup plus important de patients sont nécessaires. C’est notamment l’un des buts du projet de recherche Ultrax (www.ultrax-speech.org), mené depuis 2011 à la Queen Margaret University à Édimbourg en Écosse. Clone orofacial virtuel – système vizart3d Les approches basées sur l’EPG et l’échographie décrites précédemment s’appuient sur la capture « directe » des mouvements articulatoires. D’autres approches proposées dans la littérature, pouvant être qualifiées d’« indirectes », cherchent à estimer ces mouvements uniquement à partir du signal acoustique de parole, capturé à l’aide d’un microphone. Ces mouvements sont ensuite rendus visibles au locuteur à l’aide d’un « clone orofacial virtuel », c’est-àdire d’une représentation informatique virtuelle d’un visage humain qui laisse apparaître, par transparence, les articulateurs normalement cachés comme la langue et le voile du palais. Depuis plusieurs années, le Gipsa-lab développe une procédure complète de création de clones orofaciaux virtuels à partir de véritables locuteurs humains (5). Il s’agit d’une procédure complexe, qui met en oeuvre des techniques avancées de capture de données anatomiques, de traitement d’images médicales (IRM) et de synthèse graphique 3D. Un schéma simplifié de cette procédure est présenté figure 4. O. Engwall propose en 2008 (6) un paradigme expérimental original, de type « magicien d’Oz » pour montrer l’efficacité d’un système de retour visuel basé sur un clone orofacial, dans le cadre de l’apprentissage de mots suédois par des apprenants français. Figure 4. Illustration simplifiée des étapes de création d’un clone orofacial virtuel à partir d’un locuteur de référence. L’imagerie par résonance magnétique (IRM) est utilisée pour capturer des données nécessaires à la modélisation des articulateurs internes ; la capture vidéo 3D permet la modélisation précise de la forme et de la texture du visage.  Dans cette étude au cours de laquelle des apprenants français s’entraînent à la prononciation d’une consonne suédoise qui n’existe pas dans leur langue maternelle, le retour articulatoire est généré par un phonéticien expert (le « magicien ») qui évalue qualitativement la nature du défaut de prononciation du sujet et sélectionne, à partir d’un ensemble d’animations précalculées, celle la plus à même de représenter le mouvement articulatoire que l’apprenant vient de réaliser. Le clone orofacial est ensuite animé afin de montrer d’abord le geste réalisé par l’apprenant, puis le geste cible. Dans le cadre du projet Vizart3D (a), nous développons un système de retour articulatoire visuel, basé sur le clone orofacial du Gipsa-lab (figure). À la différence du système décrit précédemment, notre approche est entièrement automatique et ne nécessite pas d’intervention humaine pour animer le clone orofacial. Nous travaillons en effet sur des modèles mathématiques dit « d’inversion acoustico-articulatoire », qui permettent d’estimer automatiquement les mouvements de la langue, des lèvres et de la mâchoire, uniquement à partir du signal de parole acoustique capté par un simple microphone. Le modèle d’inversion acoustico- articulatoire est obtenu par des techniques dites « d’apprentissage artificiel » (machine learning), une discipline regroupant un ensemble de méthodes mathématiques permettant de créer un modèle de façon automatique, à partir de données expérimentales. Dans notre cas, ces données sont obtenues en enregistrant simultanément les mouvements articulatoires et la voix du locuteur de référence (c’est-à-dire le locuteur ayant servi de « modèle » pour la création du clone orofacial), pendant que ce dernier prononce un grand nombre de phrases et de pseudomots. Les paramètres du modèle recherché sont alors estimés sur cette base de données qui met en correspondance les « causes », à savoir l’activité articulatoire, avec les « effets », à savoir le son. Si cette phase d’apprentissage réussit, alors le modèle devient capable d’estimer les mouvements articulatoires les plus probables uniquement à partir du signal acoustique de parole. À ce stade, le modèle n’est cependant capable de traiter efficacement que la voix du locuteur de référence. Pour le rendre compatible avec la voix d’un utilisateur quelconque, une phase dite « d’adaptation » est nécessaire. Cette dernière s’effectue lors de la première utilisation du système, en demandant à cet utilisateur de prononcer un corpus de quelques dizaines de pseudo-mots et en enregistrant sa voix (à l’aide d’un simple microphone). Un algorithme mathématique est ensuite mis en oeuvre pour adapter à la voix de l’utilisateur les paramètres du modèle acoustico-articulatoire estimés sur des données du locuteur de référence. Notons qu’à ce jour ce système n’a été évalué que sur des locuteurs non pathologiques. La procédure d’évaluation vise à évaluer la pertinence des mouvements articulatoires, estimés à partir de la voix de l’utilisateur, et utilisés pour animer le clone orofacial virtuel. Évalué sur cinq locuteurs, le système s’est montré capable de fournir des trajectoires articulatoires réalistes pour plus de 80 % des phonèmes du français. Une vidéo de démonstration du prototype Vizart3D est disponible sur le site internet du projet www.gipsa-lab.fr/projet/vizart3D. L’évaluation de ce dispositif dans le cadre de l’apprentissage de langues secondes est en cours. Son utilisation par des locuteurs pathologiques, dans le cadre d’un processus de rééducation orthophonique, est un des défis à relever dans les années qui viennent. Conclusion Les systèmes de retour articulatoire visuel, qui visent à accroître la conscience qu’un locuteur a de ses propres mouvements articulatoires, font actuellement l’objet de nombreuses recherches. Ces systèmes posent aux chercheurs comme aux praticiens, de multiples défis. Technologiques tout d’abord, puisque qu’ils s’appuient sur des techniques avancées de capture de mouvements qui se doivent d’être aussi précises que peu invasives, ainsi que sur des modèles mathématiques suffisamment complexes pour représenter finement les relations acoustico-articulatoires. Ces systèmes questionnent également les chercheurs en sciences cognitives. Ces derniers sont amenés à étudier comment un locuteur intègre dans la boucle sensorimotrice qui régit les mécanismes de perception et de production de la parole cette nouvelle source d’information visuelle. En effet, s’il est aujourd’hui admis que l’information portée par la vision des lèvres de nos interlocuteurs est fortement impliquée dans les mécanismes cognitifs qui sous-tendent la perception de la parole, il reste aujourd’hui à mieux comprendre comment notre cerveau traite une information visuelle sur des articulateurs partiellement visibles, voire cachés, comme la langue par exemple (b). Enfin, si les premières études semblent montrer un bénéfice réel de ces systèmes pour la rééducation orthophonique, il apparaît aujourd’hui essentiel de mener des études cliniques de plus grande ampleur. Il s’agit d’évaluer l’intérêt de ces systèmes pour un plus grand nombre de pathologies et de populations, et de déterminer comment les combiner de façon optimale avec les protocoles de rééducation existants. Affaire à suivre donc…   a. Le projet Vizart3D s’inscrit dans la continuité du projet ANR ARTIS et s’appuie sur les travaux de doctorat d’A. Ben Youssef (2011)(7). b. On citera notamment les travaux de P. Badin et coll. sur le concept de « lecture linguale »(5).

Attention, pour des raisons réglementaires ce site est réservé aux professionnels de santé.

pour voir la suite, inscrivez-vous gratuitement.

Si vous êtes déjà inscrit,
connectez vous :

Si vous n'êtes pas encore inscrit au site,
inscrivez-vous gratuitement :

Version PDF

Articles sur le même thème