softwareTag - Extraction de noms de logiciels

Malgré les contrôles qualité que nous effectuons avant de mettre nos web services en production, les outils d'IA peuvent commettre des erreurs. Nous vous recommandons de vérifier les informations importantes.

Niveau d'utilisation :  Débutant
Niveau de validation :  Expérimental
Objectif

Ce web service détecte des noms de logiciels sur des textes en anglais.

Méthode

Le modèle utilisé par ce web service est un réseau de neurones entraîné en utilisant Flair sur le jeu de données softCite. Le code pour entraîner et évaluer le modèle est disponible à ce lien.

Métriques

Précaution : Le web service fonctionne uniquement sur du texte anglais.

Variantes

Vérifier si le logiciel extrait est open source

Précaution : cette variante est beaucoup plus lente : les résultats sont limités à 60 par minute.

Cette variante utilise l’API libraries.io pour vérifier la licence de chaque entité extraite. L’URL à utiliser pour cette variante est :
https://software-extract.services.istex.fr/v1/tagger-oa

Références

Le modèle a été entraîné en utilisant Flair.
Pour obtenir la licence des logiciels, nous utilisons l’API de Libraries.io.

Absent de TDM Factory
Présent sur Lodex

Utilisation dans Lodex

Sélectionnez le web service dans le catalogue :

Enrichissement : le web service traite chaque document l’un après l’autre. Exemple pour l’extraction de termes à partir du résumé. On parlera de web service synchrone.

Les textes doivent être en anglais

  • URL à renseigner si vous ne trouvez pas l’enrichissement softwareTag qui extrait le nom du logiciel, dans le catalogue Lodex :
    https://software-extract.services.istex.fr/v1/tagger
    Sauvegarder et lancer le traitement
    Pour récupérer la valeur souhaitée : GET et le nom du champ dont vous voulez extraire la donnée : SOFT

    • URL à renseigner si vous ne trouvez pas l’enrichissement softwareTag, qui repère si le logiciel est en open access ou pas, dans le catalogue Lodex :
      https://software-extract.services.istex.fr/v1/tagger-oa
      Sauvegarder et lancer le traitement
      Pour récupérer la valeur souhaitée : GET et le nom du champ dont vous voulez extraire la donnée : SOFT.license
    Traitement

    Les entités nommées sont toutes renvoyées dans un champ “SOFT”.

    This is a test text for the ner model. Model has to extract software such as BioImag Softr ==> BioImag Softr
    An RNN-based model was designed using Python3 language with the PyTorch packages. ==> Python3, PyTorch.
    En poursuivant votre navigation, sans modifier vos paramètres, vous acceptez l'utilisation et le dépôt de cookies destinés à mesurer la fréquentation du site grâce au logiciel Matomo.
    OK
    Modifier les paramètres