Description: | WinBrill est un outil de marquage morpho-syntaxique. Il s’agit de l’étiqueteur d’Eric BRILL (UPenn) entraîné pour le français à l’INaLF (sur un corpus-échantillon d’environ 450 000 occurrences tiré de la base FRANTEXT) et porté sur PC Windows 95 par Gilles Souvay.
Le catégoriseur de BRILL est fondé sur les travaux des structuralistes américains, en particulier Bloomfield et Harris. Le jeu d’étiquettes utilisé pour l’étiquetage contient 50 étiquettes de Parties du Discours, non compris les ponctuations.
Quatre fichiers paramètres sont livrés avec WinBrill : un lexique "importé" (établi par Josette Lecomte) contenant à ce jour environ 440 000 entrées, deux fichiers de règles (règles dites "lexicales" pour étiqueter les mots inconnus, et règles dites "contextuelles" pour affiner l’étiquetage) et une liste de "bigrammes".
WinBrill peut être livré avec un lemmatiseur, Flemm (développé par Fiammetta Namer), intervenant dans la phase ultime du traitement et optionnel. |