entityTag - Extraction d’entités nommées (Personnes, Localisations, Organismes et autres)

Niveau d'utilisation :  Débutant
Niveau de validation :  Expérimental
Objectif

Ce web service extrait d’un texte diverses entités nommées. Deux variantes existent : la première fonctionne sur des textes français et anglais et propose 3 types d’entités ; la seconde fonctionne sur des textes en anglais uniquement.

Méthode

Les trois champs en sortie sont :
– “PER” : Personnes, y compris les personnages fictifs.
– “LOC” : Lieux comme les pays, villes, états, les chaînes de montagnes, les plans d’eau, etc.
– “ORG” : Entreprises, agences, institutions, etc.

Les deux modèles ont été entraînés en partant de zéro et en utilisant la bibliothèque PyTorch. Toutes les données d’entraînement des modèles sont disponibles sur notre dépôt git ws-data, dédié aux données d’entraînement et d’évaluation.

Métriques

La f-mesure de ces modèles varie entre 0.85 et 0.9 en fonction des corpus. Ils ont été évalués sur 2 jeux de données différents (3 pour le modèle multilingue). L’ensemble des résultats par corpus peut être retrouvé sur notre dépôt git ws-data, dédié aux données d’entraînement et d’évaluation.

Variantes

Modèle multilingue

Pour le modèle multilingue, l’URL à utiliser est https://person-ner.services.istex.fr/v1/tagger

Modèle pour des textes anglais

Sur des textes uniquement écrits en anglais, l’URL à utiliser est https://person-ner.services.istex.fr/v1/tagger-en

Références

URL du dépôt git dédié à l’entraînement de ce modèle : ws-data.

Traitement
Jean Dupont assiste au festival de Cannes sur la côte d’Azur. ==> PER: Jean Dupont
LOC: côte d’Azur
ORG:
MISC: festival de Cannes
Python is widely used in data science. Bob R. uses it ; he works for the CNRS ==> PER: Bob R.
LOC:
ORG: CNRS
MISC: Python

Vous avez un corpus et vous souhaitez en connaître le contenu ?
En lançant entityTag sur vos données depuis Lodex, logiciel libre de visualisation, vous obtiendrez pour chaque document des termes associés à différentes entités nommées (Personne, Localisation, Organisme et Divers) et des représentations graphiques liées.

 

Graphes réalisés à partir des données du corpus Istex “Biodiversité”. Sont affichées les valeurs supérieures à 10.

Profitez en pour naviguer dans l’ensemble du corpus
et découvrez d’autres corpus scientifiques

En poursuivant votre navigation, sans modifier vos paramètres, vous acceptez l'utilisation et le dépôt de cookies destinés à mesurer la fréquentation du site grâce au logiciel Matomo.
OK
Modifier les paramètres