Outil 
Nom:Catégoriseur INALF (Maucourt/Papin)
Catégorie(s):Outil.
Type d'outil:2.2. Analyse syntaxique
Description:Le catégoriseur INALF réalisé par Jacques Maucourt (informaticien) et Marc Papin (linguiste) est à la fois un segmenteur, un catégoriseur et un lemmatiseur. Conçu à partir de règles testées sur un vaste corpus d'oeuvres littéraires, il permet "d'annoter" des corpus textuels de grande taille. Plus précisément, il permet une segmentation fine des textes et propose des milliers de mots composés, tant grammaticaux que lexicaux venant de la nomenclature du Trésor de la Langue Française (TLF). L'attribution de la 'partie du discours' se fait en s’appuyant sur un dictionnaire électronique de référence, 'TLFnome', dérivé de la nomenclature du Trésor de la Langue Française (TLF). La désambiguïsation des formes homographes est obtenue au moyen de plusieurs milliers de règles, établies en testant les contextes discriminants sur des corpus de plusieurs centaines d'oeuvres. Lorsque ce contexte discriminant n’existe pas, on propose la réalisation la plus fréquente en discours, suivie d'un point d'interrogation. De nombreuses difficultés linguistiques sont traitées : désambiguïsation des mots grammaticaux polycatégoriels, traitement du trait-d'union, des chiffres, etc. Le système permet d’associer un 'lemme' à chaque forme catégorisée.
Traitement:Monolingue
Langue(s) traitée(s):Français.
Organisme:ATILF