engLemma - Lemmatisation de termes anglais

Niveau d'utilisation :  Débutant
Niveau de validation :  Expérimental
Objectif

Ce web service lemmatise des termes dans des textes en anglais.

Méthode

En linguistique informatique, la lemmatisation est une procédure qui ramène un mot portant des marques de flexion (par exemple, la forme conjuguée d’un verbe : aimerions) à sa forme de référence (dite lemme : aimer). Ainsi les noms et adjectifs  au pluriel sont ramenés à leur forme singulier, les verbes conjugués sont mis à l’infinitif.

Un lemmatiseur dépend de la langue : ici seul l’anglais est traité.
Même si ce lemmatiseur peut prendre en compte des mots-clés, des listes de mots ou du texte, les résultats sont meilleurs dans le cas de mots mis en contexte.

Ce web service prend en entrée du JSON avec deux champs : id et value, et renvoie un JSON avec le(s) terme(s) lemmatisé(s) dans le champ value.

Métriques

Précautions :

  • Comme toute méthode automatique, il peut y avoir des erreurs du fait de l’ambiguïté de certains termes quant à leur catégorie grammaticale.
  • Le lemmatiseur a besoin de phrases complètes pour bien fonctionner, l’utilisation de mots isolés n’est pas conseillée.
  • Seul l’anglais est traité.
Ces web services qui peuvent vous intéresser

Traitement du langage naturel

Normalisation d’un texte ou d’un terme

Traitement
“Computers” ==> “Computer”
“As of 2 April 2021, more than 129 million cases have been confirmed, with more than 2.82 million deaths attributed to COVID-19, making it one of the deadliest pandemics in history.” ==> “as of 2 April 2021 , more than 129 million case have be confirm , with more than 2.82 million death attribute to COVID-19 , make -PRON- one of the deadly pandemic in history”
“rocks”,”are”,”images analysis” ==> “rock”,”be”,”image analysis”

Vous avez besoin de simplifier et normaliser vos textes ou votre liste de termes d’indexation à des fins de traitement automatique du langage ? Vous avez besoin de réduire les différentes formes d’un mot, de les regrouper sous un lemme commun ?

En lançant engLemma sur vos données depuis Lodex, logiciel libre de visualisation, vous obtiendrez pour chaque document le lemme des termes du résumé ou le lemme des mots-clés extraits par Teeft, un autre web service présent dans le catalogue. A partir de là, vous pourrez effectuer du traitement automatique de la langue ou déjà réaliser des représentations graphiques.

En poursuivant votre navigation, sans modifier vos paramètres, vous acceptez l'utilisation et le dépôt de cookies destinés à mesurer la fréquentation du site grâce au logiciel Matomo.
OK
Modifier les paramètres