engLemma - Lemmatisation de termes anglais

Niveau d'utilisation :  Débutant
Niveau de validation :  Expérimental
Objectif

Ce web service lemmatise des termes dans des textes en anglais.

Méthode

En linguistique informatique, la lemmatisation est une procédure qui ramène un mot portant des marques de flexion (par exemple, la forme conjuguée d’un verbe : aimerions) à sa forme de référence (dite lemme : aimer). Ainsi les noms et adjectifs  au pluriel sont ramenés à leur forme singulier, les verbes conjugués sont mis à l’infinitif.

Un lemmatiseur dépend de la langue : ici seul l’anglais est traité.
Même si ce lemmatiseur peut prendre en compte des mots-clés, des listes de mots ou du texte, les résultats sont meilleurs dans le cas de mots mis en contexte.

Ce web service prend en entrée du JSON avec deux champs : id et value, et renvoie un JSON avec le(s) terme(s) lemmatisé(s) dans le champ value.

Métriques

Précautions :

  • Comme toute méthode automatique, il peut y avoir des erreurs du fait de l’ambiguïté de certains termes quant à leur catégorie grammaticale.
  • Le lemmatiseur a besoin de phrases complètes pour bien fonctionner, l’utilisation de mots isolés n’est pas conseillée.
  • Seul l’anglais est traité.
Ces web services qui peuvent vous intéresser

Traitement du langage naturel

Normalisation d’un texte ou d’un terme

Traitement
“Computers” ==> “Computer”
“As of 2 April 2021, more than 129 million cases have been confirmed, with more than 2.82 million deaths attributed to COVID-19, making it one of the deadliest pandemics in history.” ==> “as of 2 April 2021 , more than 129 million case have be confirm , with more than 2.82 million death attribute to COVID-19 , make -PRON- one of the deadly pandemic in history”
“rocks”,”are”,”images analysis” ==> “rock”,”be”,”image analysis”

Vous souhaitez mieux appréhender le contenu de votre corpus de documents anglais en l’analysant grâce à une indexation et/ou classification automatiques ?

En lançant engLemma sur vos données, vous obtiendrez des données plus homogènes présentant moins de formes lexicales différentes. Une fois le traitement effectué, vous pourrez lancer des web services qui traitent de la langue anglaise.

En poursuivant votre navigation, sans modifier vos paramètres, vous acceptez l'utilisation et le dépôt de cookies destinés à mesurer la fréquentation du site grâce au logiciel Matomo.
OK
Modifier les paramètres