langDetect - Détection de la langue d’un texte

Malgré les contrôles qualité que nous effectuons avant de mettre nos web services en production, les outils d'IA peuvent commettre des erreurs. Nous vous recommandons de vérifier les informations importantes.

Niveau d'utilisation : Débutant

Niveau de validation : Validé

Objectif

Le web service détecte la langue d’un document texte.

Méthode

Le web service détecte la langue d’un document texte et renvoie le code langue et la probabilité correspondante. Le code langue renvoyé correspond aux étiquettes d’identification de langues IETF que l’on peut trouver ici. Dans le cas où le résultat est trop incertain, le service renverra unknown.

Ce service s’appuie sur l’algorithme CLD3 (https://github.com/google/cld3) qui fait appel à un réseau de neurones.

Le service fonctionne dans environ 100 langues différentes.

Métriques

Le modèle a une accuracy de 0,98, c’est à dire que l’algorithme utilisé sur des textes de plusieurs phrases donne la bonne réponse dans 98% des cas.

Précautions :

À noter que la détection de langue a besoin d’un texte suffisamment long pour fonctionner correctement. Avec un nombre de mots trop réduit le résultat sera très incertain. Dans le cas d’un article scientifique il faut au moins un résumé ou un paragraphe pour que le résultat soit fiable.
Le résultat peut être parasité si, par exemple le texte contient beaucoup d’équations mathématiques et peu de texte.

Références

Algorithme CLD3 : https://github.com/google/cld3
Liste des langues traitées : https://github.com/google/cld3/blob/master/README.md#supported-languages

Absent de TDM Factory

Présent sur Lodex

LIEN VERS LA DOCUMENTATION LODEX

Utilisation dans Lodex

Sélectionnez le web service dans le catalogue :

Enrichissement : le web service traite chaque document l’un après l’autre. Exemple pour l’extraction de termes à partir du résumé. On parlera de web service synchrone.

Saisir cette URL https://nlp-tools2.services.istex.fr/v1/detect-lang et sélectionner la colonne dédiée au texte.
Sauvegarder et lancer le traitement

Traitement

Le résultat donne le code langue détecté, “unknown” dans le cas où le résultat est incertain.

Primero, caminó por La Rambla, la calle más famosa de Barcelona, llena de gente, tiendas y restaurantes.	==>	es
The latter is tested in the presence and absence of vectors in order to check that they do not inhibit the detection of recombinants.	==>	en

Démonstration

Code source

Vous souhaitez connaître la langue de vos documents pour avoir une idée des langues utilisées dans votre domaine ?
Le web service destecLang répond à ce besoin.