Les
équipes de Lingway disposent d'une très grande
expertise dans les champs d’application suivants : génération
automatique de textes, traduction automatique, aide à
la lecture en langue étrangère, indexation
automatique et catégorisation, interfaces en langage
naturel pour la recherche et le codage de l’information
et résumé automatique de textes.
Lingway
entretient des liens étroits avec des organismes
tels que l’INSEE, SchlumbergerSema, Paris Biotech et les
différents participants du projet ePatent. En effet,
Lingway entend être l’un des acteurs majeurs dans
le domaine de la propriété industrielle.
L’effectif
de Lingway est de 13 personnes.
Historique
Au
début des années 90, il ressortait des études
marketing que les utilisateurs potentiels mais occasionnels
des services d’information de l’INPI (personnes travaillant
dans des administrations chargées de la délivrance
des brevets, inventeurs potentiels, étudiants, personnes
travaillant dans des organismes d'étude et de développement,
personnes s’appliquant ou mettant au point des techniques)
attendaient un service simple et rapide qui leur permette
d’accéder instantanément au texte intégral
des brevets pertinents.
L’INPI,
assurant son rôle de précurseur dans le domaine
des technologies de l’information et de la communication
et désirant renforcer sa mission de diffusion d’information
(article 1 du code de la propriété industrielle),
décide alors de répondre aux besoins et aux
attentes de ce public non spécialiste en développant
un système d’accès simple et rapide aux données
brevets via Internet.
Le
choix des technologies de Lingway
Dans
un premier temps, l’INPI identifie les outils d’indexation
et de recherche existants alors sur le marché. Différentes
comparaisons de ces outils sont ensuite effectuées,
au moyen de corpus spécialisés spécifiquement
constitués pour ces tests. Les taux de pertinence
et de performance obtenus par la solution d’indexation et
de recherche d’information en langage naturel de la société
Linway (à l'époque ERLI), dirigé par
Bernard Normier, convainc Isabelle Leclercq, directrice
marketing du département documentation et information
à l’INPI, de choisir cette solution et de créer,
en collaboration avec ERLI, un prototype. Ce prototype ne
cessera d’évoluer au cours des années jusqu’à
sa mise en ligne sur le site de l’INPI, sous le nom de CIB-LN,
en 1998, dans une version finalisée.
Classification
Internationale des Brevets (CIB) et Langage Naturel (LN)
: une alliance efficace
CIB-LN
repose sur l’utilisation d’un dictionnaire de la propriété
industrielle et permet d’effectuer en français des
recherches en langage naturel sur les brevets publiés
au cours des 24 derniers mois, grâce à la Classification
Internationale des Brevets (CIB).
Chaque
requête en langage naturel de l’utilisateur est analysée,
enrichie et transformée en requête booléenne,
qui donne lieu à une recherche dans la CIB. Les réponses
trouvées sont affichées sous la forme d’une
liste triée par ordre de pertinence décroissante
des entrées (les entrées les plus pertinentes
sont d’abord présentées). Dans cette liste,
on peut alors choisir le code de l’entrée que l’on
désire consulter. La sélection d’une entrée
permet dès lors de naviguer dans la CIB, c’est-à-dire
de consulter l’ensemble des informations associées
à cette entrée et notamment les autres entrées
auxquelles cette entrée est liée.
L’originalité
de ce moteur de recherche, on le voit, réside dans
le choix par les deux organismes développeurs d’une
approche, langage naturel sur filtre CIB. Cette approche
en fait un outil à la fois simple et efficace destiné
à des utilisateurs divers et pas forcément
familiarisés avec les techniques de recherche existantes
aujourd’hui ou encore avec le vocabulaire de la propriété
industrielle ou le domaine qui fait l’objet d’une recherche.
Déploiement
multilingue de CIB-LN : le projet ePatent et Plutarque
Plusieurs
études de marché et enquêtes-utilisateurs
ont montré les besoins réels en termes de
traitement multilingue. C’est dans ce contexte que, fin
2001, l’INPI répond avec d’autres partenaires à
l’appel d’offre eContent lancé par la Commission
européenne dans le but de simplifier l’accès
à l’information concernant la propriété
industrielle en Europe.
Le
projet ePatent associe plusieurs types de partenaires (offices
de brevets européens et prestataires technologiques
tels que Lingway). Il a notamment pour objectif de fédérer
les bases de données relatives aux brevets de plus
de 40 pays en créant une interface de recherche multilingue
(4 langues sont prévues : le français, l’anglais,
l’espagnol et l’allemand) en langage naturel, nommée
Plutarque. Ce projet vise également à offrir
aux différents usagers une aide à la compréhension
(à la lecture). La société Lingway,
impliquée dans le projet, est chargée de la
dimension multilingue de Plutarque.
Par
ailleurs, Plutarque devrait couvrir non seulement les brevets,
comme nous l’avons signalé ci-dessus, mais également
les marques, les modèles et les dessins alors qu’auparavant,
deux bases cohabitaient sur le service : une base «
brevets » et une base « dessins et modèles
».
Plutarque
est actuellement en phase de tests et devrait être
accessible en septembre 2002, dans sa version française
et anglaise. Les versions allemande et espagnole sont prévues
pour 2003.
Investissement
CIB-LN
est le résultat de plusieurs années de R&D
et représente un important investissement à
la fois pour l’INPI (plus d’un million d’euros sur une période
de 10 ans) et pour l’équipe technique d’ERLI/Lingway.
Pour le projet ePatent, la Commission européenne
contribue à hauteur de 50 % de financement global,
soit une enveloppe d’un million d’euros au consortium ePatent.
Résultats
et avantages
Le
moteur de recherche, accessible sur le site de l’INPI, et
bientôt disponible dans une version multilingue et
plus complète (en matière de contenu), présente
plusieurs avantages pour ceux et celles qui recherchent
des informations sur les brevets, exposés ci-dessous
:
-
le langage naturel permet à une large variété
d'utilisateurs d'accéder plus facilement à
l'information. Inutile de connaître la terminologie
de la propriété industrielle, la codification
complexe utilisée ou bien de maîtriser
le domaine ; l’utilisateur utilise sa propre terminologie
et le langage courant ;
-
il n’est pas non plus nécessaire de maîtriser
les différents langages d’interrogation ;
-
la CIB, en tant que système de classement hiérarchique,
permet un classement uniforme des brevets à
l'échelon international et s’avère ainsi
être un critère de recherche efficace
;
-
cette démarche permet, si on la compare avec
les approches langage naturel sur texte intégral
des brevets, d’obtenir des réponses nettement
plus pertinentes et de limiter le phénomène
de bruit causé par le texte intégral,
d’autant que les informations concernant les brevets
sont souvent artificiellement cachées ;
-
elle permet également de contourner la barrière
de la langue dans la mesure où les brevets
trouvés sont présentés avec le
code de classification qui leur a été
attribué ; il est ainsi possible de naviguer
dans la CIB, en sélectionnant les codes de
classification, et d’accéder à des informations
proches ou associées à celles que l’on
recherche, ce qui ne nécessite pas de connaître
telle ou telle langue.
Ces
moyens de recherche ont donné lieu, suite au lancement
de CIB-LN en 1998, à une augmentation significative
du nombre de connexions sur son site et du nombre de requêtes
professionnelles saisies (environ 30000 requêtes par
mois). L’Institut a par ailleurs reçu plusieurs retours
positifs de la part des utilisateurs par l’intermédiaire
du webmaster du site. L’INPI s’attend à autant d’enthousiasme
pour l’ouverture du site Plutarque.com.
Perspectives
CIB-LN
et aujourd’hui Plutarque sont des services à forte
valeur ajoutée qui constituent un enjeu important
dans le domaine de la propriété industrielle.
L’OMPI envisage d’ailleurs de créer un partenariat
avec l’INPI afin d’étendre le système à
l’ensemble des langues des Nations Unies.
La
première version de Plutarque devrait être
gratuite et passer en mode payant ultérieurement.
Plutarque
devrait intégrer un système de recherche à
partir des structures chimiques, qu’il suffira de dessiner
à l’écran. Plutarque devrait également
proposer des recherches de logos de marques et de reproductions
de dessins et modèles à partir d’une photo
ou d’une image. Sur ce point, Lingway et l’INPI envisagent
de permettre une recherche de dessins alliant l’image et
le langage naturel.
Remerciements
Cette
enquête a été réalisée
par ELDA grâce au témoignage d’Isabelle Leclercq
de l’INPI et de Dominique Maret de Lingway. Nous les remercions
pour leur coopération.