engLemma - Lemmatisation de termes anglais
Ce web service lemmatise des termes dans des textes en anglais.
En linguistique informatique, la lemmatisation est une procédure qui ramène un mot portant des marques de flexion (par exemple, la forme conjuguée d’un verbe : aimerions) à sa forme de référence (dite lemme : aimer). Ainsi les noms et adjectifs au pluriel sont ramenés à leur forme singulier, les verbes conjugués sont mis à l’infinitif.
Un lemmatiseur dépend de la langue : ici seul l’anglais est traité.
Même si ce lemmatiseur peut prendre en compte des mots-clés, des listes de mots ou du texte, les résultats sont meilleurs dans le cas de mots mis en contexte.
Ce web service prend en entrée du JSON avec deux champs : id
et value
, et renvoie un JSON avec le(s) terme(s) lemmatisé(s) dans le champ value
.
Précautions :
- Comme toute méthode automatique, il peut y avoir des erreurs du fait de l’ambiguïté de certains termes quant à leur catégorie grammaticale.
- Le lemmatiseur a besoin de phrases complètes pour bien fonctionner, l’utilisation de mots isolés n’est pas conseillée.
- Seul l’anglais est traité.
“Computers” | ==> | “Computer” |
“As of 2 April 2021, more than 129 million cases have been confirmed, with more than 2.82 million deaths attributed to COVID-19, making it one of the deadliest pandemics in history.” | ==> | “as of 2 April 2021 , more than 129 million case have be confirm , with more than 2.82 million death attribute to COVID-19 , make -PRON- one of the deadly pandemic in history” |
“rocks”,”are”,”images analysis” | ==> | “rock”,”be”,”image analysis” |
Vous avez besoin de simplifier et normaliser vos textes ou votre liste de termes d’indexation à des fins de traitement automatique du langage ? Vous avez besoin de réduire les différentes formes d’un mot, de les regrouper sous un lemme commun ?
En lançant engLemma sur vos données depuis Lodex, logiciel libre de visualisation, vous obtiendrez pour chaque document le lemme des termes du résumé ou le lemme des mots-clés extraits par Teeft, un autre web service présent dans le catalogue. A partir de là, vous pourrez effectuer du traitement automatique de la langue ou déjà réaliser des représentations graphiques.