halClass - Classification dans les domaines HAL

Malgré les contrôles qualité que nous effectuons avant de mettre nos web services en production, les outils d'IA peuvent commettre des erreurs. Nous vous recommandons de vérifier les informations importantes.

Niveau d'utilisation :  Débutant
Niveau de validation :  Validé
Objectif

Ce web service classe des documents en français ou en anglais dans les  13 grands domaines (en français) du plan de classement utilisé par la base HAL

Chimie Planète et Univers [physics] Sciences de l’Homme et Société
Économie et finance quantitative [q-fin] Science non linéaire [physics] Sciences de l’ingénieur [physics]
Informatique [cs] Sciences cognitives Sciences du Vivant [q-bio]
Mathématiques [math] Sciences de l’environnement Statistiques [stat]
Physique [physics]

 

Méthode

Le web service prend en entrée un texte en anglais ou en français et lui attribue, grâce à une méthode d’apprentissage, le domaine scientifique correspondant dans le plan de classement utilisé par la base HAL.

A partir de données HAL un modèle d’ embedding a été construit qui permet la vectorisation des documents.  Le vecteur document créé est utilisé pour calculer les K-plus proches voisins (ici k=50) dans un corpus de référence HAL. Un vote majoritaire est effectué afin de déterminer la classe d’appartenance du document. Le modèle a appris sur un corpus étiqueté de 100 729 résumés d’articles associés à leur titre extrait de HAL.

Métriques

Le modèle a une accuracy de 0,87. Cela signifie que dans 87% des cas, le service a retourné la bonne réponse.

Précautions :

  • Assurez-vous que la langue du texte corresponde à la variante retenue.
  • Comme toute méthode par apprentissage, il faut qu’il y ait un minimum de texte pour que le résultat soit fiable ; l’idéal est d’appliquer ce service au résumé d’un article (avec éventuellement son titre).
Variantes

Langues

  • Anglais : https://hal-classifier.services.istex.fr/v1/en/classhalen
  • Français : https://hal-classifier.services.istex.fr/v1/fr/classhalfr
Références

Classification HAL : https://aurehal.archives-ouvertes.fr/domain/index

Absent de TDM Factory
Présent sur Lodex

Utilisation dans Lodex

Sélectionnez le web service dans le catalogue :

Précalcul : le web service traite le corpus dans sa globalité. Le résultat obtenu pour chaque document dépend des autres. Exemple pour la génération de clusters. On parlera de web service asynchrone

* Si vous avez des textes en anglais

Saisir cette URL https://hal-classifier.services.istex.fr/v1/en/classhalen et sélectionner la colonne dédiée au texte en anglais.
Sauvegarder et lancer le traitement

Pour récupérer la valeur souhaitée : GET et le nom du champ dont vous voulez extraire la donnée :

  • code pour le code domainesur 3 lettres
  • labelFr pour le label du domaine en français
  • labelEn pour le label du domaine en anglais

* Si vous avez des textes en français

Saisir cette URL https://hal-classifier.services.istex.fr/v1/fr/classhalfr et sélectionner la colonne dédiée au texte en français.
Sauvegarder et lancer le traitement

Pour récupérer la valeur souhaitée : GET et le nom du champ dont vous voulez extraire la donnée :

  • code pour le code domainesur 3 lettres
  • labelFr pour le label du domaine en français
  • labelEn pour le label du domaine en anglais
Traitement
In the southern French Massif Central, the Montagne Noire axial zone is a NE-SW elongated granite-migmatite dome emplaced within Visean south-verging recumbent folds and intruded by syn- to late-migmatization granitoids. The tectonic setting of this dome is still disputed, thus several models have been proposed. In order to better understand the emplacement mechanism of this dome, petrofabric and Anisotropy of Magnetic Susceptibility (AMS) studies have been carried out. In the granites and migmatites that form the dome core, magmatic texture and to a lesser extent weak solid-state texture are dominant … ==> code : “sdu”

labelFr : “Planète et Univers [physics]”

labelEn : “Sciences of the Universe [physics]”

Vous avez un corpus et vous souhaitez en connaître le contenu ?
En lançant halClass sur vos données depuis Lodex, logiciel libre de visualisation, vous obtiendrez pour chaque document l’intitulé de la classe à laquelle il appartient et des représentations graphiques liées.

Graphes issus d’une étude réalisée pour le COPIL ISTEX (Identifier les pratiques TDM des chercheurs français non-experts en text mining pour la période 2013-2023).

En poursuivant votre navigation, sans modifier vos paramètres, vous acceptez l'utilisation et le dépôt de cookies destinés à mesurer la fréquentation du site grâce au logiciel Matomo.
OK
Modifier les paramètres