Les
technologies de la langue en France : objectif immortalité ?
Si
tout se passe comme prévu, les terriens francophones dans
50 000 ans pourront découvrir ce que leurs très
lointains ancêtres (francophones, anglophones, hispanophones,
germanophones, etc.) pensaient de l’univers en 2003. Un projet
français baptisé KEO (www.keo.org)
prévoit en effet fin 2003 d’envoyer dans l’espace
un satellite contenant un grand nombre de messages individuels et de
textes rédigés en français ainsi que dans 59
autres langues. Objectif de cette « bibliothèque
d’Alexandrie contemporaine » : transmettre à
ceux de nos lointains descendants qui parviendront à
déchiffrer ces messages les préoccupations qui sont les
nôtres au troisième millénaire.
Cinq
mille cinq cents ans nous séparent de la naissance du langage
écrit à Sumer. Au cours de cette période (dix
fois plus courte que ce que durera la mission KEO dans l’espace),
des milliers de langues ont disparu de la surface de la Terre.
Aujourd’hui encore, une centaine de langues continuent de
disparaître chaque année (http://www.ogmios.org).
Alors, existera-t-il en l’an 52003 une machine capable d’aider
les habitants de la planète à déchiffrer ce que
leurs ancêtres français, alors à l’aube de
la société de l’information, ont tenté de
leur dire ?
Peut-être
pas, bien que des entreprises telles que Lingway (www.lingway.com)
et Sinequa (www.sinequa.com)
figurent parmi les « experts » chargés,
dans le cadre du projet KEO, de l’analyse linguistique des
messages qui s’envoleront dans l’espace. Ces deux
entreprises illustrent parfaitement la manière dont les
technologies de la langue, plus spécifiquement de la langue
écrite, ont évolué (certains diraient survécu)
en France au cours de ces dix dernières années.
Néanmoins, rien ne prouve pour l’heure qu’elles
deviendront quasi immortelles !
Vingt
ans de développement industriel
Alors
que Sinequa, spécialisée dans les technologies de
recherche d’information, a été créée
en 1983 durant la première vague du développement des
technologies de la langue en France, Lingway est une toute nouvelle
entreprise, créée en 2001. Son directeur, Bernard
Normier, est néanmoins l’une des figures historiques des
technologies de la langue commerciales en France.
Après
avoir créé ERLI dans les années 1980, une
société chargée de fournir des technologies de
la langue pour des projets tels que le système Minitel de
France Telecom, il donne un nouvel élan à l’entreprise
dans les années 1990. Celle-ci devient Lexiquest et part à
l’assaut du marché international, notamment de la
Silicon Valley. Depuis, Lexiquest a été rachetée
par une société technologique étrangère.
Dans un sens, Bernard Normier est revenu à ses premières
amours, en créant avec Lingway une nouvelle société
dont la mission est de développer des technologies destinées
à être intégrées dans des applications
informatiques verticales.
Aux côtés de Sinequa et de
Lingway, la France compte une bonne douzaine d’autres
entreprises opérant dans le secteur des technologies de la
langue, ainsi qu’une douzaine de sociétés
spécialisées dans le traitement du langage parlé.
Un résultat plutôt intéressant comparé à
des pays comme l’Allemagne et le Royaume-Uni. Ces entreprises
sont, pour la plupart, de petites structures, même si plusieurs
grandes sociétés ont eu pendant longtemps des activités
de recherche importantes en France : Xerox, France Télécom,
IBM et Thales, notamment. Certains de ces centres de R&D ont
essaimé, comme IBM qui a donné naissance à
Kalima, et France Télécom qui a pondu Temis. Pour
Bernard Normier, l’augmentation du nombre de petites
entreprises est factice dans la mesure où nombre d’entre
elles sont nées, à l’instar de la sienne, de
l’éclatement de sociétés plus importantes,
avec à la clé une fragmentation et une fragilité
financière croissantes.
Selon
Etienne Lamort de Gall, directeur marketing d’Elan Speech
(http://www.elantts.com/accueil.html),
l’une des sociétés françaises les plus
performantes dans le domaine du traitement du langage parlé,
« la création de nouvelles entreprises dans ce
domaine est stagnante en France, à quelques rares exceptions
près. ». Une situation qui s’explique en
partie par le blues qui a suivi l’ère des sociétés
point.com, par la réduction des budgets de développement
ainsi que par la raréfaction des financements par
capital-risque. De toute façon, même lors des plus beaux
jours du boom, la France n’a jamais offert un environnement
particulièrement propice aux start-up. Pour Philippe Laval,
patron de Sinequa, le phénomène est également dû
à ce que les Français, « s’ils
excellent à développer de nouvelles technologies, ils
ne savent en revanche pas les vendre. »
La
langue, un bien culturel plutôt que commercial
Il
est évident que la France a su reconnaître la nécessité
de développer des technologies de la langue. Que ce besoin
ait été satisfait ou non est une autre histoire. Après
au moins 25 ans de financements publics et européens, le pays
voit sa R&D largement reconnue à l’échelle
internationale. C’est d’ailleurs la France qui, la
première, a lancé le terme « industries de
la langue » dans un rapport publié en 1985
revendiquant le besoin urgent d’une « mise à
plat de la langue française » selon les termes de
feu Maurice Gross, l’un des plus grands spécialistes
français de l’ingénierie linguistique, qui se
montrait soucieux d’empêcher la domination de l’anglais
dans l’avènement des technologies de l’information
et de la communication.
C’est
précisément cet engagement géopolitique à
réaffirmer le rôle de la France dans le monde à
travers sa langue (Francophonie) qui a guidé les décisions
politiques, plutôt que la prise en compte des besoins des
citoyens ou la concurrence économique. Avec pour résultat,
comme le souligne Stéphane Chaudiron de la section
Technologies de l’information et de la communication du
Ministère de la Recherche, une conscience croissante du
« déclin » du français en tant
qu’idiome de communication scientifique et technologique, qui a
rendu plus difficile la conception d’un véritable
programme de développement des technologies de la langue. Si
le concept de la Francophonie a incité les pouvoirs publics à
financer la recherche, il s’est également traduit par
une focalisation sur la mission politique et culturelle de la langue,
là où il aurait été plus judicieux de
procéder à une évaluation rigoureuse des enjeux
industriels et économiques suscités par l’adaptation
de la langue à la société de l’information.
Quelle
que soit la motivation idéologique, cette politique a permis
de développer une solide plate-forme de R&D, soutenue
comme le souligne Stéphane Chaudiron par une « stabilité »
bienvenue au sein des différents départements
ministériels (recherche, culture et industrie) qui ont tous,
au fil des ans, suivi de près et encouragé le
développement technologique. L’engagement fort envers
les technologies de la langue de Jacques Mathieu au Ministère
de l’Industrie en est une parfaite illustration. Bernard
Normier de Lingway voit dans « le bon niveau des centres
de recherche académiques » l’un des points
forts de la France. Etienne Lamort de Gall d’Elan considère
pour sa part que la France compte un grand nombre de chercheurs bien
formés en linguistique, traitement du signal et traitement du
langage. Il n’en reste pas moins une contradiction de taille :
malgré les importants efforts réalisés en
matière de R&D, la France semble peiner à
concrétiser ses travaux et à mettre des technologies et
des outils sur le marché commercial et industriel.
De
nouveaux projets de R&D
Les
derniers programmes sauront-ils modifier ce déséquilibre
entre l’excellence de la recherche et la passivité
commerciale ? Suite à un rapport paru en 2000, le
gouvernement a décidé de privilégier trois
pistes : développer une infrastructure HLT en comblant
les lacunes observées au niveau des ressources langagières
(un projet baptisé Technolangue
(www.recherche.gouv.fr/appel/2002/technolangue.htm
)), favoriser l’utilisation d’applications en français
auprès du grand public, et enfin, offrir une meilleure
formation aux bibliothécaires chargés de gérer
les contenus numériques. Ce train de mesures a pour objectif
final d’encourager les entreprises à utiliser les
technologies de la langue pour renforcer leur compétitivité
en matière de veille commerciale et autres activités de
traitement du savoir sur le marché mondial.
Technolangue
est dirigé par Joseph Mariani, autre figure historique de
l’industrie des langues française et européenne,
connu pour ses travaux sur le traitement automatique du langage parlé
et aujourd’hui membre de l’équipe en charge des
technologies de l’information et de la communication au sein du
Ministère de la Recherche. Ce projet, qui bénéficie
d’un budget relativement restreint (4 millions d’euros)
vise néanmoins à mettre en place une infrastructure
plus solide afin d’alimenter d’autres projets de
développement liés aux technologies de la langue,
auxquels les réseaux de R&D publics consacrent
actuellement jusqu’à 100 millions d’euros.
En
mettant l’accent sur la production de ressources langagières
et leur évaluation, Technolangue semble vouloir répondre
aux acteurs des technologies de la langue qui ne cessent de dénoncer
l’absence de données solides permettant de tester les
systèmes et d’extraire des informations linguistiques,
ce qui favoriserait les avancées technologiques.
Ainsi,
à l’occasion du récent salon LangTech
(www.lang-tech.org)
organisé à Berlin, Francis Charpentier, directeur
général de Telisma, spécialiste français
reconnu des technologies de la parole, a souligné les
problèmes posés par le manque de ressources
linguistiques de bonne qualité. Sans les bases de données
de prononciation de millions de mots en dizaines de langues, il sera
très difficile de développer des systèmes de
reconnaissance de la parole pour les services de télécommunications
de nouvelle génération, accessibles via une interface
multimodale.
Il se trouve que l’Agence pour
l’évaluation et la distribution de ressources
linguistiques (ELDA) a son siège en France. Créée
en 1995, l’Association européenne pour les ressources
linguistiques (ELRA, European Language Resource Agency) et son pôle
opérationnel, l’ELDA, se sont vu confier la délicate
mission de gérer l’évaluation et la distribution
des ressources en Europe, de manière indépendante, pour
le compte de chercheurs issus tant du milieu universitaire que de
l’industrie. Naturellement, ELRA est étroitement
associée à l’initiative Technolangue, en tant
qu’organisme à but non lucratif. Sa zone d’influence
n’est pas la seule Europe, mais l’ensemble du monde.
Bien
que reconnu comme une excellente initiative, le programme
Technolangue éprouvera sans doute des difficultés à
satisfaire tout le monde. Philippe Laval de Sinequa compare la
situation française avec celle des Etats-Unis, où « les
efforts de la DARPA (l’agence américaine chargée
de la recherche en informatique) en faveur des ressources
linguistiques sont 10 à 100 fois plus importants qu’en
France » et où la base de ressources créée
est plus ou moins gratuite.
La
gratuité des ressources ne s’accompagne cependant pas
forcément d’une amélioration de l’infrastructure
industrielle. Pour Frédérique Segond, qui travaille au
sein du département Développement commercial du centre
de recherche de Xerox pour l’Europe (www.xrce.com)
à Grenoble, l’un des rares laboratoires de R&D
dédiés aux technologies de la langue, l’une des
principales difficultés réside dans le fait que « les
PME spécialisées dans les technologies de la langue
veulent pouvoir tirer un avantage commercial en échange de
leur contribution au développement des ressources pour la
communauté. Faute de quoi, à long terme, elles seront
tentées de ne pas participer aux programmes de R&D. »
Plutôt
que de distribuer de petites subventions à chacun, secteur
public ou privé, ce qui est plus ou moins l’habitude en
France pour les programmes de R&D, Frédérique
Segond pense que des accords solides entre les acteurs du public et
du privé contribueraient largement à garantir un retour
sur investissement équilibré : les acteurs
industriels apporteraient leurs compétences de terrain et un
intérêt pour le processus de développement des
ressources ; travailler avec eux permettrait également
aux équipes universitaires de gagner de l’argent. Il est
très difficile de demander à une entreprise de
travailler pour rien ! »
Théo
Hoffenberg de Softissimo (www.softissimo.com),
qui dirige la deuxième plus importante société
de traduction automatique de France après Systran, pense lui
aussi que la priorité doit être donnée au
développement des ressources. Il sait toutefois par expérience
que si la production de ressources de qualité pour des
applications d’entreprise exige un niveau de compétences
plus élevé que pour des prototypes de recherche, elle
n’est toutefois pas considérée comme suffisamment
passionnante sur le plan intellectuel pour attirer les chercheurs
universitaires. Néanmoins, il reconnaît qu’avec sa
propre entreprise et Systran, une autre société
implantée en France, le pays dispose d’ores et déjà
d’une base de ressources inégalée en matière
de traduction automatique.
Et
l’argent dans tout ça ?
Se pose alors la
question majeure : lorsque toutes les recherches auront été
effectuées, lorsque les ressources seront disponibles, lorsque
des outils auront été mis à la disposition de
l’industrie et que les technologies seront devenues assez
matures, comment gagnera-t-on de l’argent avec les technologies
de la langue en France ? Existe-t-il un véritable
marché ? S’agit-il d’un marché
national ou forcément étranger ? Les technologies
de la langue pourront-elles trouver des applications sur le segment
grand public ou seront-elles cantonnées à des
applications de niche ?
Pour
Philippe Laval, « le marché est essentiellement
tiré par la technologie : nous vendons toujours à
des innovateurs, pas encore au cœur du marché. »
La raison à cela ? La plainte régulièrement
émise par les analystes du marché et que Bernard
Normier résume aujourd’hui ainsi : « exception
faite de la traduction, les clients ne savent pas qu’ils ont
besoin des technologies de la langue. Ce qu’ils savent en
revanche, c’est qu’ils ont besoin de solutions pour
résoudre certains problèmes. »
Si
en 1995 l’arrivée d’Internet comme service destiné
tant aux entreprises qu’au grand public a progressivement mis
en lumière le problème du multilinguisme en France
(après les années plus faciles du Minitel, technologie
exclusivement française) ainsi que le besoin de solutions de
traduction automatique, on n’a observé aucune volonté
forte de la part des entreprises de mettre en œuvre des
technologies de recherche avancée, de résumé
automatique, etc.
Dans
de nombreux cas, ce sont les administrations et les entreprises
publiques qui ont été les plus promptes à
adopter ces technologies, selon une approche économique
typiquement française destinée à stimuler le
développement technologique : l’Etat non seulement
finance la recherche mais, à travers l’ANVAR
(http://www.anvar.fr/agenanglais.htm),
l’agence française de l’innovation, il soutient le
transfert technologique vers les PME dont les produits et les
services sont finalement achetés par …des organisations
dépendant de l’Etat (ministères, banques, SNCF,
etc.).
Dire
leurs besoins aux utilisateurs
Pour
assurer la croissance du marché, il est nécessaire de
comprendre, selon Bernard Normier, que les technologies de la langue
ne constituent qu’un élément d’un système
ou d’une solution plus globale. Il faut convaincre les
entreprises et les développeurs d’applications grand
public d’investir dans ces technologies. Pour Philippe Laval,
le traitement du langage naturel finira par devenir un produit de
base, un composant que l’on retrouvera dans toutes les
applications informatiques. Mais nous n’avons encore aucune
solution magique pour convaincre les consommateurs de s’intéresser
à ce qui existe.
Frédérique
Segond identifie une certaine « absence de diversité »
dans les applications disponibles, mettant en avant que le test le
plus sérieux pour les technologies de la langue matures
viendra de grands projets multimédia, dans lesquels
l’intelligence linguistique ne représentera que 30 %
de l’ensemble. Ce qui signifie que si le marché évolue
inévitablement vers une plus grande intégration et une
plus grande convergence des technologies de la langue (écrite
et parlée) et du traitement des connaissances en général,
ce qui manque ce n’est pas la technologie mais une plate-forme
robuste permettant son « industrialisation ».
« Là
où la France a pris du retard, » estime Etienne
Lamort de Gall d’Elan, « c’est dans le
développement d’une chaîne de production
industrielle suffisamment solide et générique pour
permettre aux entreprises de se positionner sur le marché. Une
bonne R&D ne suffit absolument pas pour développer un
tissu économique et industriel basé sur les
technologies de la langue orale, par exemple. »
Toutefois,
comme sur tout marché tiré par l’offre, « c’est
à nous de créer la demande » déclare
Etienne Lamort de Gall. « Après de nombreuses
années d’évangélisation, nous commençons
à sentir l’émergence d’une demande réelle
pour les technologies de la langue orale. La demande française
reste néanmoins loin derrière la demande enregistrée
aux Etats-Unis, en Allemagne et au Royaume-Uni. »
La
taille importe-t-elle ?
Ce
qui soulève la question de la taille du marché. Pour la
plupart des petites entreprises présentes dans le secteur des
technologies de la langue, le chiffre d’affaires annuel ne
dépasse par les 3 millions d’euros, et il est souvent
bien inférieur. Se développer à l’international,
même si c’est essentiel, n’est souvent pas possible
compte tenu du coût que représente le développement
de technologies pour d’autres langues. Un phénomène
auquel semble cependant échapper le marché de la
reconnaissance vocale, où le multilinguisme est plus facile à
gérer, grâce à des accords de licence concernant
des modules de traitement du signal existants.
Bien
qu’il soit aussi difficile d’internationaliser des
produits de synthèse de la parole que des applications
textuelles, le premier marché d’Elan Speech aujourd’hui
est l’Allemagne, un marché nettement plus préparé
que la France à accueillir l’application radicalement
multilingue de l’entreprise. « La taille du marché
français ne permet pas à une entreprise d’autofinancer
sa croissance. »
Consolidation
ou…
Une
consolidation entre les différents acteurs du secteur
permettrait-elle de résoudre le problème de la taille
du marché et de la fragilité des entreprises ? Le
sentiment général est qu’il existe un risque réel
de voir de grandes entreprises étrangères prendre le
contrôle de l’ensemble du secteur français d’un
seul coup. Il existe d’ailleurs un précédent dans
le secteur des logiciels de bureau : la France qui
commercialisait plusieurs solutions de traitement de texte au milieu
des années 1980, période où l’ordinateur
personnel a commencé à se généraliser
dans la population, ne compte plus aujourd’hui aucun éditeur
de logiciel national, même si le secteur logiciel
emploie autant de personnes que le secteur automobile, grâce
notamment aux bonnes performances de la France dans le domaine de
l’intégration système avec des acteurs tels que
Cap Gemini Ernst &Young.
Philippe
Laval est convaincu qu’il est essentiel de consolider le
secteur afin de résister ensemble à la puissance des
mastodontes de l’édition logicielle. De même
Etienne Lamort de Gall suggère que la consolidation nécessaire
pour se développer à l’international se fera sans
doute naturellement à travers des partenariats entre des
sociétés françaises. Bernard Normier reconnaît
que la consolidation est inévitable, tout en précisant
que le manque évident de standards et la nature très
technique du marché nécessiteront un management
particulièrement compétent dans le domaine. L’exemple
célèbre de Lernout & Hauspie est précisément
ce qu’il faut éviter.
Personne
ne serait assez fou pour parier sur la capacité de la
technologie de la langue française à survivre 50 000
ans avec le satellite Keo. Parallèlement, des entreprises
telles que Lingway et Sinequa vont pouvoir mettre à profit ce
projet typiquement français – mi-conceptualisation
poétique, mi-vitrine universelle – pour collecter
gratuitement quantité de textes rédigés dans un
grand nombre de langues. Heureusement, cinq ans devraient leur
suffire pour offrir de meilleurs services aux entreprises.
Auteur
Basé
à Paris, Andrew Joscelyne est consultant et rédacteur
spécialisé dans les technologies de la langue. Vous
pouvez le joindre à l’adresse suivante :
ajoscelyne@bootstrap.fr