softwareTag - Extraction de noms de logiciels
Ce web service détecte des noms de logiciels sur des textes en anglais.
Précaution : Le web service fonctionne uniquement sur du texte anglais.
Vérifier si le logiciel extrait est open source
Précaution : cette variante est beaucoup plus lente : les résultats sont limités à 60 par minute.
Cette variante utilise l’API libraries.io pour vérifier la licence de chaque entité extraite. L’URL à utiliser pour cette variante est :
https://software-extract.services.istex.fr/v1/tagger-oa
Le modèle a été entraîné en utilisant Flair.
Pour obtenir la licence des logiciels, nous utilisons l’API de Libraries.io.
Extraction d'entités géographiques
Extraction d'entités nommées de maladies
Extraction d'entités nommées en astronomie
Extraction d'entités nommées en chimie
Extraction de financeurs dans un article
Extraction d'entités nommées (Personnes, Localisations, Organismes et autres)
Utilisation dans Lodex
Sélectionnez le web service dans le catalogue :
Enrichissement : le web service traite chaque document l’un après l’autre. Exemple pour l’extraction de termes à partir du résumé. On parlera de web service synchrone.
Les textes doivent être en anglais
- URL à renseigner si vous ne trouvez pas l’enrichissement softwareTag qui extrait le nom du logiciel, dans le catalogue Lodex :
https://software-extract.services.istex.fr/v1/tagger
Sauvegarder et lancer le traitement
Pour récupérer la valeur souhaitée : GET et le nom du champ dont vous voulez extraire la donnée : SOFT
- URL à renseigner si vous ne trouvez pas l’enrichissement softwareTag, qui repère si le logiciel est en open access ou pas, dans le catalogue Lodex :
https://software-extract.services.istex.fr/v1/tagger-oa
Sauvegarder et lancer le traitement
Pour récupérer la valeur souhaitée : GET et le nom du champ dont vous voulez extraire la donnée : SOFT.license
Les entités nommées sont toutes renvoyées dans un champ “SOFT”.
| This is a test text for the ner model. Model has to extract software such as BioImag Softr | ==> | BioImag Softr |
| An RNN-based model was designed using Python3 language with the PyTorch packages. | ==> | Python3, PyTorch. |