entityTag - Extraction d’entités nommées (Personnes, Localisations, Organismes et autres)

Niveau d'utilisation :  Débutant
Niveau de validation :  Expérimental
Objectif

Ce web service extrait d’un texte diverses entités nommées. Deux variantes existent : la première fonctionne sur des textes indépendamment de la langue et propose 4 types d’entités, la seconde fonctionne sur des textes en anglais et propose davantage de types d’entités.

Méthode

Les quatre champs en sortie pour la version multilingue sont :
– “PER” : Personnes, y compris les personnages fictifs.
– “LOC” : Lieux comme les pays, villes, états, les chaînes de montagnes, les plans d’eau, etc.
– “ORG” : Entreprises, agences, institutions, etc.
– “MISC” : Autres/divers

Le modèle mis à disposition est le modèle xx_ent_wiki_sm de Spacy.

Métriques

La f-mesure de ce modèle est évaluée à 0.83. (voir la section accuracy )

Variantes

Modèle multilingue

Pour le modèle multilingue, l’URL à utiliser est https://person-ner.services.istex.fr/v1/tagger
Les différents types d’entités nommées retournés sont explicités ci-dessus.

Modèle pour des textes anglais

Sur des textes uniquement écrits en anglais, l’URL à utiliser est https://person-ner.services.istex.fr/v1/tagger-en
Les différents types d’entités nommées retournés sont les suivants :
– “PER” : Personnes, y compris les personnages fictifs.
– “LOC” : Lieux comme les pays, villes, états, les chaînes de montagnes, les plans d’eau, etc.
– “ORG” : Entreprises, agences, institutions, etc.
– “NORP” : Nationalités, groupes religieux ou politiques.
– “FAC” : Bâtiments, aéroports, autoroutes, ponts, etc.
– “PRODUCT” : Objets, véhicules, aliments, etc. (exclut les services).
– “EVENT” : Événements nommés comme les ouragans, batailles, guerres, événements sportifs, etc.
– “WORK_OF_ART” : Titres de livres, chansons, etc.
– “LAW” : Documents nommés qui ont été légiférés.
– “LANGUAGE” : Toute langue nommée.
– “DATE” : Dates ou périodes absolues ou relatives.
– “MONEY” : Valeurs monétaires, y compris les unités.
– “QUANTITY” : Mesures de poids, distance, etc.

Références

Pour plus d’informations sur le modèle utilisé voir ce github.

Honnibal, M., & Montani, I. (2017). spaCy 2: Natural language understanding with Bloom embeddings, convolutional neural networks and incremental parsing.

Traitement
Jean Dupont assiste au festival de Cannes sur la côte d’Azur. ==> PER: Jean Dupont
LOC: côte d’Azur
ORG:
MISC: festival de Cannes
Python is widely used in data science. Bob R. uses it ; he works for the CNRS ==> PER: Bob R.
LOC:
ORG: CNRS
MISC: Python

Vous avez un corpus et vous souhaitez en connaître le contenu ?
En lançant entityTag sur vos données depuis Lodex, logiciel libre de visualisation, vous obtiendrez pour chaque document des termes associés à différentes entités nommées (Personne, Localisation, Organisme et Divers) et des représentations graphiques liées.

 

Graphes réalisés à partir des données du corpus Istex “Biodiversité”. Sont affichées les valeurs supérieures à 10.

Profitez en pour naviguer dans l’ensemble du corpus
et découvrez d’autres corpus scientifiques

En poursuivant votre navigation, sans modifier vos paramètres, vous acceptez l'utilisation et le dépôt de cookies destinés à mesurer la fréquentation du site grâce au logiciel Matomo.
OK
Modifier les paramètres