Euromap Technologies de la Langue

Promouvoir l'ingénierie linguistique en Europe

A propos du projet

Consortium

Lettre d'information Euromap

Evénements

Success stories

Articles

Répertoire des acteurs et outils des Technologies de la Langue en France

Who's who (HLT Central)

Liens utiles

E-HelpDesk

Contactez-nous

Articles

Articles sur les technologies de la langue commissionés par Euromap France
Lien vers d'autres articles commissionés par l'équipe Euromap : http://www.hltcentral.org/page-960.shtml

L'interrogation en langue naturelle

(juin 2003)

Les technologies de la langue en France : objectif immortalité ?

(février 2003)

L’interrogation en langage naturel

Poser une question en texte libre et recevoir la réponse sous une forme aussi naturelle, voilà ce qu’espèrent tous les internautes. Ce qui est déjà possible sur des intranets et certains sites de commerce électronique, grâce aux techniques de traitement du langage naturel, devrait bientôt pouvoir être généralisé à tout le web.

Avec l’avènement de l’Internet et du web, nous disposons d’une quantité énorme et en croissance constante d’informations en ligne. En 2000, le web comprenait déjà un milliard de pages, et aujourd’hui ce chiffre doit être multiplié par 100. Dans la mesure où ces informations sont conçues pour l’utilisateur final, c’est-à-dire tout un chacun, sans formation particulière d’informatique ou de technique documentaire, la possibilité de poser des questions en langage naturel et d’obtenir des réponses sous la même forme, ou du moins directement exploitables, est très importante. En particulier pour les sites de commerce électronique, qui constituent des cibles privilégiées pour les moteurs de recherche. Les pages jaunes de l’annuaire électronique ont joué un rôle de pionnier en la matière, même avant l’apparition du web, avec l’application française développée par la société LexiQuest (aujourd’hui rachetée par SSPS) sur Minitel.

La France tient une place relativement importante en recherche sur le langage naturel (linguistique, lexicologie, sémantique, analyse morphosyntaxique, réseaux sémantiques / cartographie des connaissances, etc.). Un certain nombre de sociétés d’origine française sont actives dans ce domaine : askOnce (issu du centre de recherche grenoblois de Xerox Innovation Group, XRCE), Erli (devenu LexiQuest et aujourd’hui rachetée par SSPS), Kaidara, Lingway, Sinequa (ex Cora), Technologies SA (T-GID) avec Spirit (Système d’accès à l’information en langage naturel), Xylème...

" Il y a eu une démarche très proactive en France, surtout de la part des petites entreprises ", commente Christophe Binot, responsable de la gestion et la valorisation de l’information chez TotalFinaElf. Certains des outils de recherche utilisant le langage naturel sont nés dans le monde du web (Autonomy, Kelkoo, par exemple), mais presque tous sont dérivés de produits de gestion documentaire (Hummingbird, Xerox, etc.) ou de gestion des connaissance, ou " knowledge management " (Kaidara, SER, etc.), car les problématiques de recherche sont similaires.

L’analyse linguistique des documents

Les documents du web sont, en principe, indexés automatiquement au fur et à mesure qu’ils sont mis en ligne. Les moteurs de recherche sont basés, au départ, sur la recherche par mots-clés. Les outils de recherche plus avancés intègrent la recherche plein texte. Les techniques d’interrogation en langage naturel consistent alors à analyser la requête, d’une part, et les textes, d’autre part, pour mettre en évidence des concordances de mots ou de chaînes de mots.

Au-delà de la comparaison mot à mot, ces techniques intègrent des méthodes lexicales, sémantiques, syntaxiques, statistiques, pour affiner la méthode. La recherche peut être basée, par exemple, sur des dictionnaires qui permettent de prendre en compte la synonymie et le multilinguisme. C’est ainsi que fonctionne l’application " pages jaunes ". Pour aller plus loin, les moteurs peuvent corriger les fautes d’orthographe, à l’instar d’un correcteur orthographique de traitement de texte.

En 2000, le Centre français du commerce extérieur (CFCE) a mis en place un intranet concernant tout produit ou service exportable, basé sur LexiQuest. Le succès des interrogations en langage naturel de ce système est lié à son " dictionnaire multidisciplinaire assez approfondi pour chaque secteur d’activité, l’industrie, l’agroalimentaire, les services... soit 11 000 termes avec 30 000 liens entre eux ", précise Alain Rossi, directeur informatique du CFCE. " C’est la qualité des dictionnaires qui fait la qualité des réponses en langage naturel. "

Pour traiter 800 lettres et 500 appels téléphoniques par semaine, la Cour européenne des droits de l’homme a mis en ligne tous les documents consultables par les juristes et, plus généralement, tous les citoyens européens. Ce système de gestion des connaissances en ligne, baptisé HUDOC, est doté d’outils linguistiques fournis par Hummingbird. Lingway, fondée par l’ancien dirigeant de LexiQuest, Bernard Normier, développe des outils de recherche d’informations pour l’industrie pharmaceutique et les brevets basés sur des dictionnaires linguistiques.

Autonomy identifie une combinaison de chaînes de caractères jugée pertinente par le moteur grâce à un traitement statistique. Les résultats de la requête dépendent de la fréquence d’apparition des mots et expressions demandés au sein de chaque document. " Cela permet de soumettre à l’utilisateur un plus grand nombre de réponses et évite le travail fastidieux d’un documentaliste mettant à jour régulièrement des bases de connaissance ", souligne Frédéric Demongeot, responsable technique d’Autonomy.

Questions et réponses en langage naturel (" smart questions, smarter answers ")

L’interrogation en langage naturel a son pendant : la réponse en langage naturel. L’idée est de répondre à une question non pas par un texte ou un ensemble de documents, mais par une réponse formulée. La société Sinequa, dédiée à la linguistique et l’informatique, créée en 1983 sous le nom de Cora, a piloté le projet Eureka " Carolus " (1993-1997) afin d’élaborer un système intelligent de recherche d’information doté d’une telle fonction. Ce projet a donné lieu au logiciel Intuition développé et commercialisé par Sinequa.

Ainsi, l’utilisateur pose une question du type : " Je cherche une robe de taille 38 à moins de 100 euros. " Le système ne se contente pas de rechercher dans sa base documentaire des mots identiques à ceux de la question. Il corrige les éventuelles fautes d’orthographe de la question, trouve le produit cherché dans une base de données adéquate et vérifie que la taille est disponible en stock. L’agence Diva-Press utilise la technologie Intuition de Sinequa pour permettre à ses utilisateurs d’exécuter en toute simplicité des recherches sur un corpus de presse économique et financière.

Les informations ainsi extraites sont catégorisées " à la volée " par le moteur de recherche, et accessibles automatiquement selon le profil de chaque utilisateur. Une application similaire de cette technologie a été mise en place au journal Le Monde. " Pour faciliter le travail de ses documentalistes, ils utilisent la technologie Sinequa et peuvent dès lors exécuter des recherches sémantiques sur les quelque 800 000 articles archivés ", indique Philippe Laval, fondateur et directeur général de Sinequa.

Ces techniques de recherche permettent de prendre en compte de manière plus subtile les éléments de la question, et donc d’éviter de fournir trop de réponses non pertinentes. En revanche, le risque est de n’obtenir aucune réponse en retour à la recherche. Une autre technique, s’ajoutant à la sémantique, permet d’élargir la recherche afin d’avoir, dans tous les cas, au moins une réponse approximative : c’est la logique floue. Ainsi, Kaidara a développé un système d’interrogation basé sur la recherche à partir de cas, qui peut s’enrichir au fur et à mesure de son utilisation.

Ce produit, Text2Data, peut traiter des concept et pas seulement des mots. Il comprend, par exemple, que " la valve est restée ouverte " a le même sens que " la valve ne s’est pas refermée ". Il peut aussi manipuler des données numériques dans un texte, en prenant en compte la notion d’approximation, ce qui permet d’avoir une réponse à peu près satisfaisante, plutôt que pas de réponse du tout. Par exemple, à un utilisateur cherchant un objet doté de caractéristiques définies et coûtant moins de 20 000 euros, le système répondra avec un objet coûtant 20 500 euros, sachant que ce nombre est très proche de celui de la question.

Lorsque la recherche porte sur un domaine restreint, il est plus facile d’obtenir des réponses intéressantes. C’est le cas d’un intranet d’entreprise, où les documents sont bien cernés, le nombre d’utilisateur limité et, en principe, leurs question restreintes à un domaine métier particulier. D’où le succès des applications mises en place dans les agences de presse ou des sites de commerce électronique.

La recherche sémantique prend en compte le sens du langage et le contexte. Elle permet de filtrer un terme en fonction de la matière, de la discipline, ou du secteur économique concerné. Par exemple, Leroy Merlin a établi un dictionnaire spécifique sur le bricolage pour son site utilisant le moteur sémantique Intuition de Sinequa. Même chose pour Rhodia, qui a choisi la technologie Advisor de Kaidara pour permettre d’établir un dialogue intelligent entre les fabricants de produits complexes et une base documentaire technique.

Avec la technologie de LexiQuest, les clients de General Electric peuvent, depuis fin 1999, poser des questions au moteur de recherche du site web de la société en langage naturel, en plus d’une recherche par mots clés. " Notre objectif est de permettre à nos clients, tant professionnels que grand public, de trouver sur notre site web l’information dont ils ont besoin le plus simplement et rapidement possible ", indique Loretta Wilary, responsable de l’information clientèle chez General Electric. Le moteur de recherche Kelkoo fournit les prix et conditions des fournisseurs de produits et services, suivant un modèle proche de celui des " pages jaunes ".

En revanche, lorsque le périmètre des documents accessibles n’est pas restreint, le traitement sémantique s’impose. " Retrouver l’information dans son contexte et s’adapter à un contexte métier, cela veut dire prendre en compte la sémantique ", estime Sylvie Pichot, consultante avant-vente chez Verity. C’est pourquoi le CFCE a fait appel à la technologie LexiQuest. " La spécificité du domaine d’information du CFCE, c’est qu’il couvre tout produit ou service exportable. Il est donc nécessaire d’avoir un dictionnaire multidisciplinaire assez approfondi pour chaque secteur d’activité, l’industrie, l’agroalimentaire, les services..., sans oublier d’intégrer la dimension économique générale ", précise Alain Rossi.

XML et le web sémantique

S’il est déjà utilisé dans les intranets d’entreprises, le format XML (extensible markup language) devrait progressivement remplacer HTML sur le web. Il est adopté d’ores et déjà par plusieurs sociétés spécialisées dans la gestion de documents (Ixiasoft, Lingway, Sinequa, Xylème...).

En séparant la structure sémantique d’un document et sa représentation physique, XML permet de rassembler des documents hétérogènes en une structure commune. " XML permet d’unifier et d’avoir une vue globale d’un document ", précise Philippe Laval. L’INRIA, et Xylème, par exemple, tentent d’effectuer la synthèse automatique de l’information pertinente contenue dans les documents retournés. Ces travaux misent sur l’avènement de XML comme standard de publication de l’information. " XML offrira plus de possibilités, puisqu’on pourra intégrer des balises à connotation sémantiques, et non seulement structurelle comme dans HTML ", souligne Sophie Cluet, directrice de recherche à l’INRIA et fondatrice de Xylème.

Les efforts de recherches et développements dans le domaine du langage naturel, l’évolution des technologies de gestion de documents, ainsi que l’émergence de standards dans ce domaine devraient permettre de réaliser ce rêve de tout un chacun : accéder directement et simplement à toute l’intelligence contenue dans le web.

Sociétés citées :

askOnce – www.askonce.com

Autonomy – www.autonomy.com

Hummingbird – www.hummingbird.com

Ixiasoft – www.ixiasoft.com

Kaidara – www.kaidara.com

Kelkoo – www.kelkoo.fr

Lingway – www.lingway.com

SER – www.ser.com

Sinequa – www.sinequa.com

SPSS - LexiQuest – www.spss.com/france

Technologies SA – Spirit – www.t-gid.com

Xylème – www.xyleme.com

Verity – www.verity.com

Claire Rémy est une journaliste scientifique indépendante, spécialisée en informatique. Elle est auteur d’ouvrages sur l’intelligence artificielle et sur la philosophie des sciences, notamment :

L’intelligence artificielle, Dunod, Paris 1994

L’intelligence et son miroir. Voyage autour de l’intelligence artificielle, Iderive, Lausanne 1990

La frontière entre déterminisme et indéterminisme : une réponse systémique, Lausanne 1989

Les technologies de la langue en France : objectif immortalité ?

Si tout se passe comme prévu, les terriens francophones dans 50 000 ans pourront découvrir ce que leurs très lointains ancêtres (francophones, anglophones, hispanophones, germanophones, etc.) pensaient de l’univers en 2003. Un projet français baptisé KEO (www.keo.org) prévoit en effet fin 2003 d’envoyer dans l’espace un satellite contenant un grand nombre de messages individuels et de textes rédigés en français ainsi que dans 59 autres langues. Objectif de cette « bibliothèque d’Alexandrie contemporaine » : transmettre à ceux de nos lointains descendants qui parviendront à déchiffrer ces messages les préoccupations qui sont les nôtres au troisième millénaire.

Cinq mille cinq cents ans nous séparent de la naissance du langage écrit à Sumer. Au cours de cette période (dix fois plus courte que ce que durera la mission KEO dans l’espace), des milliers de langues ont disparu de la surface de la Terre. Aujourd’hui encore, une centaine de langues continuent de disparaître chaque année (http://www.ogmios.org). Alors, existera-t-il en l’an 52003 une machine capable d’aider les habitants de la planète à déchiffrer ce que leurs ancêtres français, alors à l’aube de la société de l’information, ont tenté de leur dire ?

Peut-être pas, bien que des entreprises telles que Lingway (www.lingway.com) et Sinequa (www.sinequa.com) figurent parmi les « experts » chargés, dans le cadre du projet KEO, de l’analyse linguistique des messages qui s’envoleront dans l’espace. Ces deux entreprises illustrent parfaitement la manière dont les technologies de la langue, plus spécifiquement de la langue écrite, ont évolué (certains diraient survécu) en France au cours de ces dix dernières années. Néanmoins, rien ne prouve pour l’heure qu’elles deviendront quasi immortelles !

Vingt ans de développement industriel

Alors que Sinequa, spécialisée dans les technologies de recherche d’information, a été créée en 1983 durant la première vague du développement des technologies de la langue en France, Lingway est une toute nouvelle entreprise, créée en 2001. Son directeur, Bernard Normier, est néanmoins l’une des figures historiques des technologies de la langue commerciales en France.

Après avoir créé ERLI dans les années 1980, une société chargée de fournir des technologies de la langue pour des projets tels que le système Minitel de France Telecom, il donne un nouvel élan à l’entreprise dans les années 1990. Celle-ci devient Lexiquest et part à l’assaut du marché international, notamment de la Silicon Valley. Depuis, Lexiquest a été rachetée par une société technologique étrangère. Dans un sens, Bernard Normier est revenu à ses premières amours, en créant avec Lingway une nouvelle société dont la mission est de développer des technologies destinées à être intégrées dans des applications informatiques verticales.

Aux côtés de Sinequa et de Lingway, la France compte une bonne douzaine d’autres entreprises opérant dans le secteur des technologies de la langue, ainsi qu’une douzaine de sociétés spécialisées dans le traitement du langage parlé. Un résultat plutôt intéressant comparé à des pays comme l’Allemagne et le Royaume-Uni. Ces entreprises sont, pour la plupart, de petites structures, même si plusieurs grandes sociétés ont eu pendant longtemps des activités de recherche importantes en France : Xerox, France Télécom, IBM et Thales, notamment. Certains de ces centres de R&D ont essaimé, comme IBM qui a donné naissance à Kalima, et France Télécom qui a pondu Temis. Pour Bernard Normier, l’augmentation du nombre de petites entreprises est factice dans la mesure où nombre d’entre elles sont nées, à l’instar de la sienne, de l’éclatement de sociétés plus importantes, avec à la clé une fragmentation et une fragilité financière croissantes.

Selon Etienne Lamort de Gall, directeur marketing d’Elan Speech (http://www.elantts.com/accueil.html), l’une des sociétés françaises les plus performantes dans le domaine du traitement du langage parlé, « la création de nouvelles entreprises dans ce domaine est stagnante en France, à quelques rares exceptions près. ». Une situation qui s’explique en partie par le blues qui a suivi l’ère des sociétés point.com, par la réduction des budgets de développement ainsi que par la raréfaction des financements par capital-risque. De toute façon, même lors des plus beaux jours du boom, la France n’a jamais offert un environnement particulièrement propice aux start-up. Pour Philippe Laval, patron de Sinequa, le phénomène est également dû à ce que les Français, « s’ils excellent à développer de nouvelles technologies, ils ne savent en revanche pas les vendre. »

La langue, un bien culturel plutôt que commercial

Il est évident que la France a su reconnaître la nécessité de développer des technologies de la langue. Que ce besoin ait été satisfait ou non est une autre histoire. Après au moins 25 ans de financements publics et européens, le pays voit sa R&D largement reconnue à l’échelle internationale. C’est d’ailleurs la France qui, la première, a lancé le terme « industries de la langue » dans un rapport publié en 1985 revendiquant le besoin urgent d’une « mise à plat de la langue française » selon les termes de feu Maurice Gross, l’un des plus grands spécialistes français de l’ingénierie linguistique, qui se montrait soucieux d’empêcher la domination de l’anglais dans l’avènement des technologies de l’information et de la communication.

C’est précisément cet engagement géopolitique à réaffirmer le rôle de la France dans le monde à travers sa langue (Francophonie) qui a guidé les décisions politiques, plutôt que la prise en compte des besoins des citoyens ou la concurrence économique. Avec pour résultat, comme le souligne Stéphane Chaudiron de la section Technologies de l’information et de la communication du Ministère de la Recherche, une conscience croissante du « déclin » du français en tant qu’idiome de communication scientifique et technologique, qui a rendu plus difficile la conception d’un véritable programme de développement des technologies de la langue. Si le concept de la Francophonie a incité les pouvoirs publics à financer la recherche, il s’est également traduit par une focalisation sur la mission politique et culturelle de la langue, là où il aurait été plus judicieux de procéder à une évaluation rigoureuse des enjeux industriels et économiques suscités par l’adaptation de la langue à la société de l’information.

Quelle que soit la motivation idéologique, cette politique a permis de développer une solide plate-forme de R&D, soutenue comme le souligne Stéphane Chaudiron par une « stabilité » bienvenue au sein des différents départements ministériels (recherche, culture et industrie) qui ont tous, au fil des ans, suivi de près et encouragé le développement technologique. L’engagement fort envers les technologies de la langue de Jacques Mathieu au Ministère de l’Industrie en est une parfaite illustration. Bernard Normier de Lingway voit dans « le bon niveau des centres de recherche académiques » l’un des points forts de la France. Etienne Lamort de Gall d’Elan considère pour sa part que la France compte un grand nombre de chercheurs bien formés en linguistique, traitement du signal et traitement du langage. Il n’en reste pas moins une contradiction de taille : malgré les importants efforts réalisés en matière de R&D, la France semble peiner à concrétiser ses travaux et à mettre des technologies et des outils sur le marché commercial et industriel.

De nouveaux projets de R&D

Les derniers programmes sauront-ils modifier ce déséquilibre entre l’excellence de la recherche et la passivité commerciale ? Suite à un rapport paru en 2000, le gouvernement a décidé de privilégier trois pistes : développer une infrastructure HLT en comblant les lacunes observées au niveau des ressources langagières (un projet baptisé Technolangue (www.recherche.gouv.fr/appel/2002/technolangue.htm )), favoriser l’utilisation d’applications en français auprès du grand public, et enfin, offrir une meilleure formation aux bibliothécaires chargés de gérer les contenus numériques. Ce train de mesures a pour objectif final d’encourager les entreprises à utiliser les technologies de la langue pour renforcer leur compétitivité en matière de veille commerciale et autres activités de traitement du savoir sur le marché mondial.

Technolangue est dirigé par Joseph Mariani, autre figure historique de l’industrie des langues française et européenne, connu pour ses travaux sur le traitement automatique du langage parlé et aujourd’hui membre de l’équipe en charge des technologies de l’information et de la communication au sein du Ministère de la Recherche. Ce projet, qui bénéficie d’un budget relativement restreint (4 millions d’euros) vise néanmoins à mettre en place une infrastructure plus solide afin d’alimenter d’autres projets de développement liés aux technologies de la langue, auxquels les réseaux de R&D publics consacrent actuellement jusqu’à 100 millions d’euros.

En mettant l’accent sur la production de ressources langagières et leur évaluation, Technolangue semble vouloir répondre aux acteurs des technologies de la langue qui ne cessent de dénoncer l’absence de données solides permettant de tester les systèmes et d’extraire des informations linguistiques, ce qui favoriserait les avancées technologiques.

Ainsi, à l’occasion du récent salon LangTech (www.lang-tech.org) organisé à Berlin, Francis Charpentier, directeur général de Telisma, spécialiste français reconnu des technologies de la parole, a souligné les problèmes posés par le manque de ressources linguistiques de bonne qualité. Sans les bases de données de prononciation de millions de mots en dizaines de langues, il sera très difficile de développer des systèmes de reconnaissance de la parole pour les services de télécommunications de nouvelle génération, accessibles via une interface multimodale.

Il se trouve que l’Agence pour l’évaluation et la distribution de ressources linguistiques (ELDA) a son siège en France. Créée en 1995, l’Association européenne pour les ressources linguistiques (ELRA, European Language Resource Agency) et son pôle opérationnel, l’ELDA, se sont vu confier la délicate mission de gérer l’évaluation et la distribution des ressources en Europe, de manière indépendante, pour le compte de chercheurs issus tant du milieu universitaire que de l’industrie. Naturellement, ELRA est étroitement associée à l’initiative Technolangue, en tant qu’organisme à but non lucratif. Sa zone d’influence n’est pas la seule Europe, mais l’ensemble du monde.

Bien que reconnu comme une excellente initiative, le programme Technolangue éprouvera sans doute des difficultés à satisfaire tout le monde. Philippe Laval de Sinequa compare la situation française avec celle des Etats-Unis, où « les efforts de la DARPA (l’agence américaine chargée de la recherche en informatique) en faveur des ressources linguistiques sont 10 à 100 fois plus importants qu’en France » et où la base de ressources créée est plus ou moins gratuite.

La gratuité des ressources ne s’accompagne cependant pas forcément d’une amélioration de l’infrastructure industrielle. Pour Frédérique Segond, qui travaille au sein du département Développement commercial du centre de recherche de Xerox pour l’Europe (www.xrce.com) à Grenoble, l’un des rares laboratoires de R&D dédiés aux technologies de la langue, l’une des principales difficultés réside dans le fait que « les PME spécialisées dans les technologies de la langue veulent pouvoir tirer un avantage commercial en échange de leur contribution au développement des ressources pour la communauté. Faute de quoi, à long terme, elles seront tentées de ne pas participer aux programmes de R&D. »

Plutôt que de distribuer de petites subventions à chacun, secteur public ou privé, ce qui est plus ou moins l’habitude en France pour les programmes de R&D, Frédérique Segond pense que des accords solides entre les acteurs du public et du privé contribueraient largement à garantir un retour sur investissement équilibré : les acteurs industriels apporteraient leurs compétences de terrain et un intérêt pour le processus de développement des ressources ; travailler avec eux permettrait également aux équipes universitaires de gagner de l’argent. Il est très difficile de demander à une entreprise de travailler pour rien ! »

Théo Hoffenberg de Softissimo (www.softissimo.com), qui dirige la deuxième plus importante société de traduction automatique de France après Systran, pense lui aussi que la priorité doit être donnée au développement des ressources. Il sait toutefois par expérience que si la production de ressources de qualité pour des applications d’entreprise exige un niveau de compétences plus élevé que pour des prototypes de recherche, elle n’est toutefois pas considérée comme suffisamment passionnante sur le plan intellectuel pour attirer les chercheurs universitaires. Néanmoins, il reconnaît qu’avec sa propre entreprise et Systran, une autre société implantée en France, le pays dispose d’ores et déjà d’une base de ressources inégalée en matière de traduction automatique.

Et l’argent dans tout ça ?

Se pose alors la question majeure : lorsque toutes les recherches auront été effectuées, lorsque les ressources seront disponibles, lorsque des outils auront été mis à la disposition de l’industrie et que les technologies seront devenues assez matures, comment gagnera-t-on de l’argent avec les technologies de la langue en France ? Existe-t-il un véritable marché ? S’agit-il d’un marché national ou forcément étranger ? Les technologies de la langue pourront-elles trouver des applications sur le segment grand public ou seront-elles cantonnées à des applications de niche ?

Pour Philippe Laval, « le marché est essentiellement tiré par la technologie : nous vendons toujours à des innovateurs, pas encore au cœur du marché. » La raison à cela ? La plainte régulièrement émise par les analystes du marché et que Bernard Normier résume aujourd’hui ainsi : « exception faite de la traduction, les clients ne savent pas qu’ils ont besoin des technologies de la langue. Ce qu’ils savent en revanche, c’est qu’ils ont besoin de solutions pour résoudre certains problèmes. »

Si en 1995 l’arrivée d’Internet comme service destiné tant aux entreprises qu’au grand public a progressivement mis en lumière le problème du multilinguisme en France (après les années plus faciles du Minitel, technologie exclusivement française) ainsi que le besoin de solutions de traduction automatique, on n’a observé aucune volonté forte de la part des entreprises de mettre en œuvre des technologies de recherche avancée, de résumé automatique, etc.

Dans de nombreux cas, ce sont les administrations et les entreprises publiques qui ont été les plus promptes à adopter ces technologies, selon une approche économique typiquement française destinée à stimuler le développement technologique : l’Etat non seulement finance la recherche mais, à travers l’ANVAR (http://www.anvar.fr/agenanglais.htm), l’agence française de l’innovation, il soutient le transfert technologique vers les PME dont les produits et les services sont finalement achetés par …des organisations dépendant de l’Etat (ministères, banques, SNCF, etc.).

Dire leurs besoins aux utilisateurs

Pour assurer la croissance du marché, il est nécessaire de comprendre, selon Bernard Normier, que les technologies de la langue ne constituent qu’un élément d’un système ou d’une solution plus globale. Il faut convaincre les entreprises et les développeurs d’applications grand public d’investir dans ces technologies. Pour Philippe Laval, le traitement du langage naturel finira par devenir un produit de base, un composant que l’on retrouvera dans toutes les applications informatiques. Mais nous n’avons encore aucune solution magique pour convaincre les consommateurs de s’intéresser à ce qui existe.

Frédérique Segond identifie une certaine « absence de diversité » dans les applications disponibles, mettant en avant que le test le plus sérieux pour les technologies de la langue matures viendra de grands projets multimédia, dans lesquels l’intelligence linguistique ne représentera que 30 % de l’ensemble. Ce qui signifie que si le marché évolue inévitablement vers une plus grande intégration et une plus grande convergence des technologies de la langue (écrite et parlée) et du traitement des connaissances en général, ce qui manque ce n’est pas la technologie mais une plate-forme robuste permettant son « industrialisation ».

« Là où la France a pris du retard, » estime Etienne Lamort de Gall d’Elan, « c’est dans le développement d’une chaîne de production industrielle suffisamment solide et générique pour permettre aux entreprises de se positionner sur le marché. Une bonne R&D ne suffit absolument pas pour développer un tissu économique et industriel basé sur les technologies de la langue orale, par exemple. »

Toutefois, comme sur tout marché tiré par l’offre, « c’est à nous de créer la demande » déclare Etienne Lamort de Gall. « Après de nombreuses années d’évangélisation, nous commençons à sentir l’émergence d’une demande réelle pour les technologies de la langue orale. La demande française reste néanmoins loin derrière la demande enregistrée aux Etats-Unis, en Allemagne et au Royaume-Uni. »

La taille importe-t-elle ?

Ce qui soulève la question de la taille du marché. Pour la plupart des petites entreprises présentes dans le secteur des technologies de la langue, le chiffre d’affaires annuel ne dépasse par les 3 millions d’euros, et il est souvent bien inférieur. Se développer à l’international, même si c’est essentiel, n’est souvent pas possible compte tenu du coût que représente le développement de technologies pour d’autres langues. Un phénomène auquel semble cependant échapper le marché de la reconnaissance vocale, où le multilinguisme est plus facile à gérer, grâce à des accords de licence concernant des modules de traitement du signal existants.

Bien qu’il soit aussi difficile d’internationaliser des produits de synthèse de la parole que des applications textuelles, le premier marché d’Elan Speech aujourd’hui est l’Allemagne, un marché nettement plus préparé que la France à accueillir l’application radicalement multilingue de l’entreprise. « La taille du marché français ne permet pas à une entreprise d’autofinancer sa croissance. »

Consolidation ou…

Une consolidation entre les différents acteurs du secteur permettrait-elle de résoudre le problème de la taille du marché et de la fragilité des entreprises ? Le sentiment général est qu’il existe un risque réel de voir de grandes entreprises étrangères prendre le contrôle de l’ensemble du secteur français d’un seul coup. Il existe d’ailleurs un précédent dans le secteur des logiciels de bureau : la France qui commercialisait plusieurs solutions de traitement de texte au milieu des années 1980, période où l’ordinateur personnel a commencé à se généraliser dans la population, ne compte plus aujourd’hui aucun éditeur de logiciel national, même si le secteur logiciel emploie autant de personnes que le secteur automobile, grâce notamment aux bonnes performances de la France dans le domaine de l’intégration système avec des acteurs tels que Cap Gemini Ernst &Young.

Philippe Laval est convaincu qu’il est essentiel de consolider le secteur afin de résister ensemble à la puissance des mastodontes de l’édition logicielle. De même Etienne Lamort de Gall suggère que la consolidation nécessaire pour se développer à l’international se fera sans doute naturellement à travers des partenariats entre des sociétés françaises. Bernard Normier reconnaît que la consolidation est inévitable, tout en précisant que le manque évident de standards et la nature très technique du marché nécessiteront un management particulièrement compétent dans le domaine. L’exemple célèbre de Lernout & Hauspie est précisément ce qu’il faut éviter.

Personne ne serait assez fou pour parier sur la capacité de la technologie de la langue française à survivre 50 000 ans avec le satellite Keo. Parallèlement, des entreprises telles que Lingway et Sinequa vont pouvoir mettre à profit ce projet typiquement français – mi-conceptualisation poétique, mi-vitrine universelle – pour collecter gratuitement quantité de textes rédigés dans un grand nombre de langues. Heureusement, cinq ans devraient leur suffire pour offrir de meilleurs services aux entreprises.

Auteur

Basé à Paris, Andrew Joscelyne est consultant et rédacteur spécialisé dans les technologies de la langue. Vous pouvez le joindre à l’adresse suivante : ajoscelyne@bootstrap.fr