Description: | Langid est un outil d'identification de la langue. Avant de lancer une procédure d'identification de la langue sur un ou plusieurs texte, il convient de procéder à une phase d'apprentissage. L'apprentissage se fait sur des corpus de texte dont la langue est connue. Plus le corpus est important, plus l'apprentissage est précis (le minimum est de 50 Ko par langue). Cette procédure est également précédée par la création un fichier que l'on appelle "Groupe de Profiles". Le système est d'ailleurs livré avec les profiles pour l'anglais, le français et l'allemand en ISO-8859-1 en conservant les 100 meilleurs n-grams pour chacun des couples (langue, codage) ce qui accélère grandement le système mais peut engendrer des erreurs sur des très petites parties de texte (moins de 10 caractères). Il est conseillé de faire l'apprentissage sur les n-grams de taille 2 (pour tester les chaînes ou fichiers de moins de 20 caractères) et de taille 3 (pour des textes plus important > 20 caractères). |