entityTag - Extraction d’entités nommées (Personnes, Localisations, Organismes et autres)
Ce web service extrait d’un texte diverses entités nommées. Deux variantes existent : la première fonctionne sur des textes indépendamment de la langue et propose 4 types d’entités, la seconde fonctionne sur des textes en anglais et propose davantage de types d’entités.
Les quatre champs en sortie pour la version multilingue sont :
– “PER” : Personnes, y compris les personnages fictifs.
– “LOC” : Lieux comme les pays, villes, états, les chaînes de montagnes, les plans d’eau, etc.
– “ORG” : Entreprises, agences, institutions, etc.
– “MISC” : Autres/divers
Le modèle mis à disposition est le modèle xx_ent_wiki_sm de Spacy.
La f-mesure de ce modèle est évaluée à 0.83. (voir la section accuracy )
Modèle multilingue
Pour le modèle multilingue, l’URL à utiliser est https://person-ner.services.istex.fr/v1/tagger
Les différents types d’entités nommées retournés sont explicités ci-dessus.
Modèle pour des textes anglais
Sur des textes uniquement écrits en anglais, l’URL à utiliser est https://person-ner.services.istex.fr/v1/tagger-en
Les différents types d’entités nommées retournés sont les suivants :
– “PER” : Personnes, y compris les personnages fictifs.
– “LOC” : Lieux comme les pays, villes, états, les chaînes de montagnes, les plans d’eau, etc.
– “ORG” : Entreprises, agences, institutions, etc.
– “NORP” : Nationalités, groupes religieux ou politiques.
– “FAC” : Bâtiments, aéroports, autoroutes, ponts, etc.
– “PRODUCT” : Objets, véhicules, aliments, etc. (exclut les services).
– “EVENT” : Événements nommés comme les ouragans, batailles, guerres, événements sportifs, etc.
– “WORK_OF_ART” : Titres de livres, chansons, etc.
– “LAW” : Documents nommés qui ont été légiférés.
– “LANGUAGE” : Toute langue nommée.
– “DATE” : Dates ou périodes absolues ou relatives.
– “MONEY” : Valeurs monétaires, y compris les unités.
– “QUANTITY” : Mesures de poids, distance, etc.
Pour plus d’informations sur le modèle utilisé voir ce github.
Honnibal, M., & Montani, I. (2017). spaCy 2: Natural language understanding with Bloom embeddings, convolutional neural networks and incremental parsing.
Jean Dupont assiste au festival de Cannes sur la côte d’Azur. | ==> | PER: Jean Dupont LOC: côte d’Azur ORG: MISC: festival de Cannes |
Python is widely used in data science. Bob R. uses it ; he works for the CNRS | ==> | PER: Bob R. LOC: ORG: CNRS MISC: Python |
Vous avez un corpus et vous souhaitez en connaître le contenu ?
En lançant entityTag sur vos données depuis Lodex, logiciel libre de visualisation, vous obtiendrez pour chaque document des termes associés à différentes entités nommées (Personne, Localisation, Organisme et Divers) et des représentations graphiques liées.
Graphes réalisés à partir des données du corpus Istex “Biodiversité”. Sont affichées les valeurs supérieures à 10.
Profitez en pour naviguer dans l’ensemble du corpus
et découvrez d’autres corpus scientifiques