entityTag - Extraction d’entités nommées (Personnes, Localisations, Organismes et autres)

Malgré les contrôles qualité que nous effectuons avant de mettre nos web services en production, les outils d'IA peuvent commettre des erreurs. Nous vous recommandons de vérifier les informations importantes.

Niveau d'utilisation : Débutant

Niveau de validation : Expérimental

Objectif

Ce web service extrait d’un texte diverses entités nommées. Deux variantes existent : la première fonctionne sur des textes français et anglais et propose 3 types d’entités ; la seconde fonctionne sur des textes en anglais uniquement.

Méthode

Les trois champs en sortie sont :
– “PER” : Personnes, y compris les personnages fictifs.
– “LOC” : Lieux comme les pays, villes, états, les chaînes de montagnes, les plans d’eau, etc.
– “ORG” : Entreprises, agences, institutions, etc.

Les deux modèles ont été entraînés en partant de zéro et en utilisant la bibliothèque PyTorch. Toutes les données d’entraînement des modèles sont disponibles sur notre dépôt git ws-data, dédié aux données d’entraînement et d’évaluation.

Métriques

La f-mesure de ces modèles varie entre 0.85 et 0.9 en fonction des corpus.

Corpus d’évaluation

Les modèles ont été évalués sur 2 jeux de données différents (3 pour le modèle multilingue). L’ensemble des résultats par corpus peut être retrouvé sur notre dépôt git ws-data, dédié aux données d’entraînement et d’évaluation.

Les sous-ensembles français et anglais du corpus wikiner ayant servi à l’entraînement du modèle sont disponibles à l’adresse suivante :

https://www.ortolang.fr/market/corpora/tdm-eval-dataset-ner

Variantes

Modèle multilingue

Pour le modèle multilingue, l’URL à utiliser est https://person-ner.services.istex.fr/v1/tagger

Modèle pour des textes anglais

Sur des textes uniquement écrits en anglais, l’URL à utiliser est https://person-ner.services.istex.fr/v1/tagger-en

Références

URL du dépôt git dédié à l’entraînement de ce modèle : ws-data.

Ces web services qui peuvent vous intéresser

Extraction d'entités géographiques

Extraction d'entités nommées de maladies

Extraction d'entités nommées en astronomie

Extraction d'entités nommées en chimie

Extraction de financeurs dans un article

Extraction de termes d'un corpus

Absent de TDM Factory

Présent sur Lodex

LIEN VERS LA DOCUMENTATION LODEX

Utilisation dans Lodex

Sélectionnez le web service dans le catalogue :

Enrichissement : le web service traite chaque document l’un après l’autre. Exemple pour l’extraction de termes à partir du résumé. On parlera de web service synchrone.

* Si vous avez des textes anglais et français

Saisir cette URL https://person-ner.services.istex.fr/v1/tagger et sélectionner la colonne dédiée au texte.
Sauvegarder et lancer le traitement
Pour récupérer la valeur souhaitée : GET et le nom du champ dont vous voulez extraire la donnée

PER pour les noms de personnes
LOC pour les noms géographiques
ORG pour les noms d’organismes
MISC pour le divers

* Si vous avez des textes anglais uniquement

Saisir cette URL https://person-ner.services.istex.fr/v1/tagger-en et sélectionner la colonne dédiée au texte en anglais
Sauvegarder et lancer le traitement
Pour récupérer la valeur souhaitée : GET et le nom du champ dont vous voulez extraire la donnée

Traitement

Jean Dupont assiste au festival de Cannes sur la côte d’Azur.

==>

PER: Jean Dupont
LOC: côte d’Azur
ORG:
MISC: festival de Cannes

Python is widely used in data science. Bob R. uses it ; he works for the CNRS

==>

PER: Bob R.
LOC:
ORG: CNRS
MISC: Python

Démonstration

Code source

Vous avez un corpus et vous souhaitez en connaître le contenu ?
En lançant entityTag sur vos données depuis Lodex, logiciel libre de visualisation, vous obtiendrez pour chaque document des termes associés à différentes entités nommées (Personne, Localisation, Organisme et Divers) et des représentations graphiques liées.

Graphes réalisés à partir des données du corpus Istex “Biodiversité”. Sont affichées les valeurs supérieures à 10.

Profitez en pour naviguer dans l’ensemble du corpus
et découvrez d’autres corpus scientifiques