chemTag - Extraction d’entités nommées en chimie
Ce web service détecte, dans un texte en anglais, les entités nommées en chimie.
Les entités nommées sont toutes renvoyées dans un champ “chemical”.
Le modèle utilisé par ce web service, “bio-ner”, est disponible à ce lien huggingface.
Aucun fine-tuning n’a été opéré : nous mettons simplement le modèle à disposition via un web service.
Le code git pour fine-tuner le modèle est disponible à ce lien.
Le modèle possède une f-mesure de 0.92 ± 0.02.
Précaution : Le web service fonctionne uniquement sur du texte anglais.
- Article explicitant la méthodologie pour obtenir le modèle bio-ner : Alonso Casero, Álvaro (2021). Named entity recognition and normalization in biomedical literature: a practical case in SARS-CoV-2 literature. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM)
- Le modèle bio-ner est obtenu après fine-tuning du modèle bioBERT : Data and text mining. BioBERT: a pre-trained biomedical language representation model for biomedical text mining
Single atoms of elements are not molecules. A single oxygen, O, is not a molecule. When oxygen bonds to itself (e.g., O3) or to another element (e.g., carbon dioxide or CO2), molecules are formed==>chemical: oxygen, O, O3, carbon dioxide, CO2
This is three chemical named entities: methanol, 2-propanol, or CO2. | ==> | chemical: methanol, 2-propanol, CO2 |
Vous avez un corpus et vous souhaitez en connaître le contenu ?
En lançant chemTag sur vos données depuis Lodex, logiciel libre de visualisation, vous obtiendrez la liste de termes chimiques et des représentations graphiques liées.
Graphe réalisé à partir des données du corpus Istex “Biodiversité”. Sont affichées les valeurs supérieures à 10.
Profitez en pour naviguer dans l’ensemble du corpus
et découvrez d’autres corpus scientifiques