entityTag - Extraction d’entités nommées (Personnes, Localisations, Organismes et autres)

Niveau d'utilisation :  Débutant
Niveau de validation :  Expérimental
Objectif

Ce web service extrait d’un texte diverses entités nommées. Deux variantes existent : la première fonctionne sur des textes indépendamment de la langue et propose 4 types d’entités, la seconde fonctionne sur des textes en anglais et propose davantage de types d’entités.

Méthode

Les quatre champs en sortie pour la version multilingue sont :
– “PER” : Personnes, y compris les personnages fictifs.
– “LOC” : Lieux comme les pays, villes, états, les chaînes de montagnes, les plans d’eau, etc.
– “ORG” : Entreprises, agences, institutions, etc.
– “MISC” : Autres/divers

Le modèle mis à disposition est le modèle xx_ent_wiki_sm de Spacy.

Métriques

La f-mesure de ce modèle est évaluée à 0.83. (voir la section accuracy )

Variantes

Modèle multilingue

Pour le modèle multilingue, l’URL à utiliser est https://person-ner.services.istex.fr/v1/tagger
Les différents types d’entités nommées retournés sont explicités ci-dessus.

Modèle pour des textes anglais

Sur des textes uniquement écrits en anglais, l’URL à utiliser est https://person-ner.services.istex.fr/v1/tagger-en
Les différents types d’entités nommées retournés sont les suivants :
– “PER” : Personnes, y compris les personnages fictifs.
– “LOC” : Lieux comme les pays, villes, états, les chaînes de montagnes, les plans d’eau, etc.
– “ORG” : Entreprises, agences, institutions, etc.
– “NORP” : Nationalités, groupes religieux ou politiques.
– “FAC” : Bâtiments, aéroports, autoroutes, ponts, etc.
– “PRODUCT” : Objets, véhicules, aliments, etc. (exclut les services).
– “EVENT” : Événements nommés comme les ouragans, batailles, guerres, événements sportifs, etc.
– “WORK_OF_ART” : Titres de livres, chansons, etc.
– “LAW” : Documents nommés qui ont été légiférés.
– “LANGUAGE” : Toute langue nommée.
– “DATE” : Dates ou périodes absolues ou relatives.
– “MONEY” : Valeurs monétaires, y compris les unités.
– “QUANTITY” : Mesures de poids, distance, etc.

Références

Pour plus d’informations sur le modèle utilisé voir ce github.

Honnibal, M., & Montani, I. (2017). spaCy 2: Natural language understanding with Bloom embeddings, convolutional neural networks and incremental parsing.

Ces web services qui peuvent vous intéresser

Traitement
Jean Dupont assiste au festival de Cannes sur la côte d’Azur. ==> PER: Jean Dupont
LOC: côte d’Azur
ORG:
MISC: festival de Cannes
Python is widely used in data science. Bob R. uses it ; he works for the CNRS ==> PER: Bob R.
LOC:
ORG: CNRS
MISC: Python

Vous avez un corpus et vous souhaitez en connaître le contenu ?
En lançant entityTag sur vos données depuis Lodex, logiciel libre de visualisation, vous obtiendrez pour chaque document des termes associés à différentes entités nommées (Personne, Localisation, Organisme et Divers) et des représentations graphiques liées.

 

Graphes réalisés à partir des données du corpus Istex “Biodiversité”. Sont affichées les valeurs supérieures à 10.

Profitez en pour naviguer dans l’ensemble du corpus
et découvrez d’autres corpus scientifiques

En poursuivant votre navigation, sans modifier vos paramètres, vous acceptez l'utilisation et le dépôt de cookies destinés à mesurer la fréquentation du site grâce au logiciel Matomo.
OK
Modifier les paramètres