Description: | CAT est un corpus de référence (sans erreur) annoté pour les lemmes, les mots composés et la morphosyntaxe pour le français écrit (1 million de mots du journal Le Monde entre 89 et 94).
Le travail de constitution de ce corpus a été consacré aux spécifications linguistiques, au test des logiciels de segmentation et d'étiquetage, à l'enrichissement des dictionnaires électroniques (mots composés, noms propres) et à la post-correction manuelle de 800 000 mots étiquetés automatiquement.
Le résultat des traitements automatiques a été automatiquement projeté dans le jeu d'étiquettes plus riche du lexique. La correction manuelle a consisté à séparer ou regrouper des mots composés non pertinents ou oubliés en contexte, à enrichir ou corriger les étiquettes assignées automatiquement, chaque sous-corpus étant corrigé deux fois (par deux annotateurs différents), afin de minimiser les risques d'erreur. Dans un second temps, il s'est agi d'associer automatiquement les lemmes aux étiquettes et de choisir à la main le bon lemme dans les quelques cas où l'étiquette morpho-syntaxique ne suffit pas à le déterminer. Le formatage final du corpus a été fait avec un balisage SGML inspiré de la TEI. |