chemTag - Extraction d’entités nommées en chimie

Niveau d'utilisation :  Débutant
Niveau de validation :  Validé
Objectif

Ce web service détecte, dans un texte en anglais, les entités nommées en chimie et les désambiguïse.

Méthode

Les deux champs en sortie sont :
– chemical : correspond à l’entité nommée de chimie extraite.
– chemical_disambiguisate : correspond au nom IUPAC issu de PubChem (pour l’entité extraite).

Pour l’extraction, le modèle utilisé par ce web service, “bio-ner”, est disponible à ce lien huggingface.
Aucun fine-tuning n’a été opéré : nous mettons simplement le modèle à disposition via un web service.

Pour la désambiguisation, nous utilisons un référentiel issu de PubChem afin de récupérer le nom IUPAC associé à l’entité trouvée. Le référentiel complet peut être trouvé à ce lien.

Le code git pour fine-tuner le modèle est disponible à ce lien.

Métriques

Le modèle possède une f-mesure de 0.92 ± 0.02.
Quant à la désambiguïsation, nous utilisons une table de correspondance issue de la base PubChem : les résultats dépendent de l’exhaustivité des synonymes présents sur PubChem.

Précaution : Le web service fonctionne uniquement sur du texte anglais.

Références
Traitement
This is three chemical named entities: methanol, 2-propanol, or CO2. ==> chemical: methanol, 2-propanol, CO2
chemical_disambiguisate: methanol, propan-2-ol
Single atoms of elements are not molecules. A single oxygen, O, is not a molecule. When oxygen bonds to itself (e.g., O3) or to another element (e.g., carbon dioxide or CO2), molecules are formed ==> chemical: oxygen, O, O3, carbon dioxide, CO2
chemical_disambiguisate: molecular oxygen, ozone
This sentence does not contain any chemical named entities. ==> chemical
chemical_disambiguisate
En poursuivant votre navigation, sans modifier vos paramètres, vous acceptez l'utilisation et le dépôt de cookies destinés à mesurer la fréquentation du site grâce au logiciel Matomo.
OK
Modifier les paramètres