chemTag - Extraction d’entités nommées en chimie

Malgré les contrôles qualité que nous effectuons avant de mettre nos web services en production, les outils d'IA peuvent commettre des erreurs. Nous vous recommandons de vérifier les informations importantes.

Niveau d'utilisation :  Débutant
Niveau de validation :  Validé
Objectif

Ce web service détecte, dans un texte en anglais, les entités nommées en chimie.

Méthode

Les entités nommées sont toutes renvoyées dans un champ “chemical”.

Le modèle utilisé par ce web service, “bio-ner”, est disponible à ce lien huggingface.
Aucun fine-tuning n’a été opéré : nous mettons simplement le modèle à disposition via un web service.

Le code git pour fine-tuner le modèle est disponible à ce lien.

Métriques

Le modèle possède une f-mesure de 0.92 ± 0.02.

Précaution : Le web service fonctionne uniquement sur du texte anglais.

Le corpus BC4CHEMD (BioCreative IV Chemical and Drug) ayant servi à l’entraînement de ce modèle est disponible à l’adresse suivante :

https://www.ortolang.fr/market/corpora/dataset-chemical-extract

Références
Présent sur TDM Factory

Utilisation dans TDM Factory

Ce web service se lance sur :

  • un corpus Istex en anglais au format targz
  • un document en anglais au format PDF texte (le format PDF image ne fonctionne pas)
Présent sur Lodex

Utilisation dans Lodex

Sélectionnez le web service dans le catalogue :

Enrichissement : le web service traite chaque document l’un après l’autre. Exemple pour l’extraction de termes à partir du résumé. On parlera de web service synchrone.

Saisir cette URL https://chem-ner.services.istex.fr/v1/chem/tagger et sélectionner la colonne dédiée au texte en anglais.
Sauvegarder et lancer le traitement
Pour récupérer la valeur souhaitée : GET et le nom du champ dont vous voulez extraire la donnée : chemical

Traitement

Single atoms of elements are not molecules. A single oxygen, O, is not a molecule. When oxygen bonds to itself (e.g., O3) or to another element (e.g., carbon dioxide or CO2), molecules are formed==>chemical: oxygen, O, O3, carbon dioxide, CO2

This is three chemical named entities: methanol, 2-propanol, or CO2. ==> chemical: methanol, 2-propanol, CO2

Vous avez un corpus et vous souhaitez en connaître le contenu ?

En lançant chemTag sur vos données depuis Lodex, logiciel libre de visualisation, vous obtiendrez la liste de termes chimiques et des représentations graphiques liées.

Graphe réalisé à partir des données du corpus Istex “Biodiversité”. Sont affichées les valeurs supérieures à 10.

Profitez en pour naviguer dans l’ensemble du corpus
et découvrez d’autres corpus scientifiques

En poursuivant votre navigation, sans modifier vos paramètres, vous acceptez l'utilisation et le dépôt de cookies destinés à mesurer la fréquentation du site grâce au logiciel Matomo.
OK
Modifier les paramètres