entityTag - Extraction d’entités nommées (Personnes, Localisations, Organismes et autres)
Ce web service extrait d’un texte diverses entités nommées. Deux variantes existent : la première fonctionne sur des textes français et anglais et propose 3 types d’entités ; la seconde fonctionne sur des textes en anglais uniquement.
Les trois champs en sortie sont :
– “PER” : Personnes, y compris les personnages fictifs.
– “LOC” : Lieux comme les pays, villes, états, les chaînes de montagnes, les plans d’eau, etc.
– “ORG” : Entreprises, agences, institutions, etc.
Les deux modèles ont été entraînés en partant de zéro et en utilisant la bibliothèque PyTorch. Toutes les données d’entraînement des modèles sont disponibles sur notre dépôt git ws-data, dédié aux données d’entraînement et d’évaluation.
La f-mesure de ces modèles varie entre 0.85 et 0.9 en fonction des corpus. Ils ont été évalués sur 2 jeux de données différents (3 pour le modèle multilingue). L’ensemble des résultats par corpus peut être retrouvé sur notre dépôt git ws-data, dédié aux données d’entraînement et d’évaluation.
Modèle multilingue
Pour le modèle multilingue, l’URL à utiliser est https://person-ner.services.istex.fr/v1/tagger
Modèle pour des textes anglais
Sur des textes uniquement écrits en anglais, l’URL à utiliser est https://person-ner.services.istex.fr/v1/tagger-en
URL du dépôt git dédié à l’entraînement de ce modèle : ws-data.
Jean Dupont assiste au festival de Cannes sur la côte d’Azur. | ==> | PER: Jean Dupont LOC: côte d’Azur ORG: MISC: festival de Cannes |
Python is widely used in data science. Bob R. uses it ; he works for the CNRS | ==> | PER: Bob R. LOC: ORG: CNRS MISC: Python |
Vous avez un corpus et vous souhaitez en connaître le contenu ?
En lançant entityTag sur vos données depuis Lodex, logiciel libre de visualisation, vous obtiendrez pour chaque document des termes associés à différentes entités nommées (Personne, Localisation, Organisme et Divers) et des représentations graphiques liées.
Graphes réalisés à partir des données du corpus Istex “Biodiversité”. Sont affichées les valeurs supérieures à 10.
Profitez en pour naviguer dans l’ensemble du corpus
et découvrez d’autres corpus scientifiques