astroTag - Extraction d’entités nommées en astronomie

Niveau d'utilisation :  Débutant
Niveau de validation :  Expérimental
Objectif

Ce web service détecte des entités nommées en astronomie sur des textes en anglais et les répartit parmi les 16 classes suivantes :

Amas stellaires Astéroïdes Constellations Étoiles
Étoiles binaires (et pulsars) Exoplanètes Galaxies et amas de galaxies Nébuleuses et régions apparentées
Objets artificiels Planètes Satellites naturels Statut hypothétique
Supernovas Sursauts radios, sources radios, autres sursauts Système solaire Trous noirs, quasars et apparentés

 

Méthode

Le modèle a été entrainé de manière supervisée avec la bibliothèque python Flair.

Les corpus d’entrainement et de test ont été créés à partir de données d’Istex annotées manuellement. Ces données ont été prétraitées pour correspondre au format attendu par Flair.

Il ne s’agit pas d’un corpus Gold.

Données annotées :

Le web service renvoie les entités réparties par classes sous la forme d’un tableau. Si aucune entité n’est trouvée dans le texte alors la valeur est vide {}.

Si aucun texte n’est présent dans la valeur d’entrée, alors le WS renvoie une sortie vide ""

 

 

Métriques

Le modèle a une accuracy de 0,91. Cela signifie que dans 91% des cas, le service a retourné la bonne réponse.

Précaution
Le web service fonctionne uniquement sur du texte anglais.

Références

Bibliothèque python Flair : https://huggingface.co/flair

Exemple textuel du traitement
Le format d'entrée :
[
    {"id": "1", "value": "V643 Orionis is a binary star system located in the Orion constellation, offering valuable insightsinto stellar evolution."},
    {"id": "2", "value": "If these planets had isothermal atmospheres, the light curves obtained during those occultations would have been smooth. Hence the presence of spikes in the light curves demonstrates immediately that the atmospheres of Jupiter and Neptune are not isothermal over distances much smaller than a scale height"},
    {"id": "3", "value": "This did not occur accidentally since g Carinae is one of the most luminous stars of the Galaxy. The environment of this extended object can be observed in very high angular (spatial) and spectral resolution simultaneously using the Hubble Space Telescope (HST) with its Space Telescope Imaging Spectrograph (STIS) on board (Kimble et al., 1988)."},
    {"id": "4", "value": "The purportedly fastest star in the Gaia catalogue, Gaia DR2 5932173855446728064 (Bromley et al. 2018; Marchetti et al. 2019), has been found to be spurious (Boubert et al. 2019)."}
]
Le résultat :
[
{"id": "1","value": {"Etoiles binaires (et pulsars)": ["V643 Orionis"],"Constellations": ["Orion"]}},
{"id": "2","value": {"Planete": ["Jupiter","Neptune"]}},
{"id": "3","value": {"Objets artificiels": ["Hubble Space Telescope","HST"],"Etoiles binaires (et pulsars)": ["g"],"Nebuleuse et region apparentes": ["Carinae"]}},
{"id": "4","value": {"Objets artificiels": ["Gaia"],"Etoiles": ["Gaia DR2 5932173855446728064"]}}
]
En poursuivant votre navigation, sans modifier vos paramètres, vous acceptez l'utilisation et le dépôt de cookies destinés à mesurer la fréquentation du site grâce au logiciel Matomo.
OK
Modifier les paramètres