Description: | C-STAR III est un outil de traduction vocale développé dans le cadre d'un projet du même nom, lancé en 1996.
La TAO de parole a été lancée au Japon par ATR en 1986, suivi par le CMU, avec le projet national VerbMobil. Ce projet a permis au sein du CLIPS, s’associer les compétences du GETA et GEOD respectivement en TAO et en reconnaissance de la parole.
Depuis 1996 et avec le soutien du CNRS et du MAE, le GETA est partenaires du consortium international CSTAR. Le consortium CSTAR-III, élargi début 2000 après le succès des démonstrations de juillet et septembre-octobre 1999 de CSTAR-II, regroupe en tant que partenaires, outre le CLIPS, CMU (USA), l'université de Karlsruhe, l'IRST (Italie), ETRI (Corée), le NLPR (Pékin), et le fondateur, ATR (Japon). Le CLIPS travaille sur le français. Il s'agit de monter la partie française d'une plate-forme Web, accessible depuis des PC ou des téléphones mobiles, de traduction de dialogues oraux finalisés, dans le domaine du tourisme et des centres d'appel. Un scénario type est une préparation de la partie touristique d'un voyage. Un client parle en téléconférence à trois agents de voyage de trois autres pays, pour organiser son séjour hôtelier et quelques visites. Chaque site réalise la reconnaissance de parole, l'analyse du treillis d'hypothèses produit, et la traduction vers une structure interface "IF" et/ou une ou plusieurs langues, sous forme textuelle. Il reçoit des interlocuteurs distants des structures IF, de simples textes, ou des transcriptions plus riches, et en assure la génération (cas de l'IF) et la synthèse vocale. L'interaction possible ici est minimale (choix entre plusieurs hypothèses présentées sous forme orthographique), mais suffisante car il s'agit de communication entre humains, intelligents et désireux de coopérer à la réalisation d'un but connu.
Le Geta a aussi construit un outil d'aide à l'interprétariat humain sur réseau (projet Emergence ERIM de la RRA), actuellement en prototypage et expérimentation pour de la collecte de dialogues bilingues français-chinois traduits par un interprète lui aussi distant, avec des possibilités multimodales (partage d'un tableau blanc, vue des visages).
a. Thèmes informatiques
Des composants hétérogènes tournant sur des machines différentes ont été intégrés. L'architecture de communication utilise le ComSwitch de CSTAR-II et un nouveau "médiateur" traitant les flux multimedia via IP.
b. Aspect linguistique :
Il s'agit d'abord de construire un analyseur d'un type nouveau, qui doit non pas construire une structure complète de l'énoncé à traiter, puis le traduire, mais l'analyser directement en fonction du modèle de la tâche reflété par l'IF. En effet, le caractère spontané des énoncés et les imperfections de la reconnaissance font que l'entrée n'est que très rarement un texte "correct".
Dans CSTAR-III, le GETA met en oeuvre une technique issue des "grammaires statiques", et consistant à construire le générateur et l'analyseur presque automatiquement à partir de la spécification. Cela est fait avec l'aide de S.Chappuy-Mazenot, qui a fait sa thèse sur les grammaires statiques, et de son mari, lui aussi expert en génie linguiciel pour la TA.
Un second thème concerne le traitement de la cohérence entre les énoncés. Il s'agit de mémoriser un certain nombre d'informations utiles et de les utiliser dans l'analyse ou la génération. Ainsi, il faut transmettre à l'analyseur et au générateur la liste des "centres" (mots importants précédemment prononcés et candidats à des anaphores ou des ellipses), les caractéristiques des locuteurs (nom, sexe, etc.), le type d'acte de parole attendu, et le ou les sous-scénarios attendus. La conception a été précisée, mais on recherche des ressources nouvelles pour passer à l'expérimentation.
L'implémentation d’une méthode de contrôle de la prosodie, passant par une modification du générateur, et la production d'une transcription utilisable par le synthétiseur amélioreraient les performances du système. |