engLemma - Lemmatisation de termes anglais
Ce web service lemmatise des termes dans des textes en anglais.
En linguistique informatique, la lemmatisation est une procédure qui ramène un mot portant des marques de flexion (par exemple, la forme conjuguée d’un verbe : aimerions) à sa forme de référence (dite lemme : aimer). Ainsi les noms et adjectifs au pluriel sont ramenés à leur forme singulier, les verbes conjugués sont mis à l’infinitif.
Un lemmatiseur dépend de la langue : ici seul l’anglais est traité.
Même si ce lemmatiseur peut prendre en compte des mots-clés, des listes de mots ou du texte, les résultats sont meilleurs dans le cas de mots mis en contexte.
Ce web service prend en entrée du JSON avec deux champs : id
et value
, et renvoie un JSON avec le(s) terme(s) lemmatisé(s) dans le champ value
.
Précautions :
- Comme toute méthode automatique, il peut y avoir des erreurs du fait de l’ambiguïté de certains termes quant à leur catégorie grammaticale.
- Le lemmatiseur a besoin de phrases complètes pour bien fonctionner, l’utilisation de mots isolés n’est pas conseillée.
- Seul l’anglais est traité.
“Computers” | ==> | “Computer” |
“As of 2 April 2021, more than 129 million cases have been confirmed, with more than 2.82 million deaths attributed to COVID-19, making it one of the deadliest pandemics in history.” | ==> | “as of 2 April 2021 , more than 129 million case have be confirm , with more than 2.82 million death attribute to COVID-19 , make -PRON- one of the deadly pandemic in history” |
“rocks”,”are”,”images analysis” | ==> | “rock”,”be”,”image analysis” |
Vous souhaitez mieux appréhender le contenu de votre corpus de documents anglais en l’analysant grâce à une indexation et/ou classification automatiques ?
En lançant engLemma sur vos données, vous obtiendrez des données plus homogènes présentant moins de formes lexicales différentes. Une fois le traitement effectué, vous pourrez lancer des web services qui traitent de la langue anglaise.