halClass - Classification dans les domaines HAL

Niveau d'utilisation :  Débutant
Niveau de validation :  Validé
Objectif

Ce web service classe des documents en français ou en anglais dans les  13 grands domaines (en français) du plan de classement utilisé par la base HAL

Chimie Planète et Univers [physics] Sciences de l’Homme et Société
Économie et finance quantitative [q-fin] Science non linéaire [physics] Sciences de l’ingénieur [physics]
Informatique [cs] Sciences cognitives Sciences du Vivant [q-bio]
Mathématiques [math] Sciences de l’environnement Statistiques [stat]
Physique [physics]

 

Méthode

Le web service prend en entrée un texte en anglais ou en français et lui attribue, grâce à une méthode d’apprentissage, le domaine scientifique correspondant dans le plan de classement utilisé par la base HAL.

A partir de données HAL un modèle d’ embedding a été construit qui permet la vectorisation des documents.  Le vecteur document créé est utilisé pour calculer les K-plus proches voisins (ici k=50) dans un corpus de référence HAL. Un vote majoritaire est effectué afin de déterminer la classe d’appartenance du document. Le modèle a appris sur un corpus étiqueté de 100 729 résumés d’articles associés à leur titre extrait de HAL.

Métriques

Le modèle a une accuracy de 0,87. Cela signifie que dans 87% des cas, le service a retourné la bonne réponse.

Précautions :

  • Assurez-vous que la langue du texte corresponde à la variante retenue.
  • Comme toute méthode par apprentissage, il faut qu’il y ait un minimum de texte pour que le résultat soit fiable ; l’idéal est d’appliquer ce service au résumé d’un article (avec éventuellement son titre).
Variantes

Langues

  • Anglais : https://hal-classifier.services.istex.fr/v1/en/classhalen
  • Français : https://hal-classifier.services.istex.fr/v1/fr/classhalfr
Références

Classification HAL : https://aurehal.archives-ouvertes.fr/domain/index

Exemple textuel du traitement
Le format d'entrée :
[
{
"id":"1",
"value":"In the southern French Massif Central, the Montagne Noire axial zone is a NE-SW elongated granite-migmatite dome emplaced within Visean south-verging recumbent folds and intruded by syn- to late-migmatization granitoids. The tectonic setting of this dome is still disputed, thus several models have been proposed. In order to better understand the emplacement mechanism of this dome, petrofabric and Anisotropy of Magnetic Susceptibility (AMS) studies have been carried out. In the granites and migmatites that form the dome core, magmatic texture and to a lesser extent weak solid-state texture are dominant. As a paramagnetic mineral, biotite is the main carrier of the magnetic susceptibility. On the basis of 135 AMS sites, the magnetic fabrics appear as independent of the lithology but related to the dome architecture. Coupling our results with previous structural and geochronological studies, allows us to propose a new emplacement model. Between 340-325 Ma, the Palaeozoic series underwent a compressional deformation represented by nappes and recumbent folds involving the thermal event leading to partial melting. Until ~325-310 Ma, the dome emplacement was assisted by diapiric processes. An extensional event took place at 300 Ma, after the emplacement of the late to post-migmatitic granitic plutons. In the northeast side of the dome, a brittle normal-dextral faulting controlled the opening of the Graissessac coal-basin."
}
]
Le résultat :

En format json il reprend l’identifiant du document initial et donne le domaine scientifique du document.



[{​
    "id":"1",
    "value": "Planète et Univers [physics]"​

}]

Vous avez un corpus et vous souhaitez en connaître le contenu ?
En lançant halClass sur vos données depuis Lodex, logiciel libre de visualisation, vous obtiendrez pour chaque document l’intitulé de la classe à laquelle il appartient et des représentations graphiques liées.

Graphes issus d’une étude réalisée pour le COPIL ISTEX (Identifier les pratiques TDM des chercheurs français non-experts en text mining pour la période 2013-2023).

En poursuivant votre navigation, sans modifier vos paramètres, vous acceptez l'utilisation et le dépôt de cookies destinés à mesurer la fréquentation du site grâce au logiciel Matomo.
OK
Modifier les paramètres