halClass - Classification dans les domaines HAL
Ce web service classe des documents en français ou en anglais dans les 13 grands domaines (en français) du plan de classement utilisé par la base HAL
| Chimie | Planète et Univers [physics] | Sciences de l’Homme et Société |
| Économie et finance quantitative [q-fin] | Science non linéaire [physics] | Sciences de l’ingénieur [physics] |
| Informatique [cs] | Sciences cognitives | Sciences du Vivant [q-bio] |
| Mathématiques [math] | Sciences de l’environnement | Statistiques [stat] |
| Physique [physics] |
Le web service prend en entrée un texte en anglais ou en français et lui attribue, grâce à une méthode d’apprentissage, le domaine scientifique correspondant dans le plan de classement utilisé par la base HAL.
A partir de données HAL un modèle d’ embedding a été construit qui permet la vectorisation des documents. Le vecteur document créé est utilisé pour calculer les K-plus proches voisins (ici k=50) dans un corpus de référence HAL. Un vote majoritaire est effectué afin de déterminer la classe d’appartenance du document. Le modèle a appris sur un corpus étiqueté de 100 729 résumés d’articles associés à leur titre extrait de HAL.
Le modèle a une accuracy de 0,87. Cela signifie que dans 87% des cas, le service a retourné la bonne réponse.
Précautions :
- Assurez-vous que la langue du texte corresponde à la variante retenue.
- Comme toute méthode par apprentissage, il faut qu’il y ait un minimum de texte pour que le résultat soit fiable ; l’idéal est d’appliquer ce service au résumé d’un article (avec éventuellement son titre).
Langues
- Anglais :
https://hal-classifier.services.istex.fr/v1/en/classhalen - Français :
https://hal-classifier.services.istex.fr/v1/fr/classhalfr
Classification HAL : https://aurehal.archives-ouvertes.fr/domain/index
Utilisation dans Lodex
Sélectionnez le web service dans le catalogue :
Précalcul : le web service traite le corpus dans sa globalité. Le résultat obtenu pour chaque document dépend des autres. Exemple pour la génération de clusters. On parlera de web service asynchrone
* Si vous avez des textes en anglais
Saisir cette URL https://hal-classifier.services.istex.fr/v1/en/classhalen et sélectionner la colonne dédiée au texte en anglais.
Sauvegarder et lancer le traitement
Pour récupérer la valeur souhaitée : GET et le nom du champ dont vous voulez extraire la donnée :
- code pour le code domainesur 3 lettres
- labelFr pour le label du domaine en français
- labelEn pour le label du domaine en anglais
* Si vous avez des textes en français
Saisir cette URL https://hal-classifier.services.istex.fr/v1/fr/classhalfr et sélectionner la colonne dédiée au texte en français.
Sauvegarder et lancer le traitement
Pour récupérer la valeur souhaitée : GET et le nom du champ dont vous voulez extraire la donnée :
- code pour le code domainesur 3 lettres
- labelFr pour le label du domaine en français
- labelEn pour le label du domaine en anglais
| In the southern French Massif Central, the Montagne Noire axial zone is a NE-SW elongated granite-migmatite dome emplaced within Visean south-verging recumbent folds and intruded by syn- to late-migmatization granitoids. The tectonic setting of this dome is still disputed, thus several models have been proposed. In order to better understand the emplacement mechanism of this dome, petrofabric and Anisotropy of Magnetic Susceptibility (AMS) studies have been carried out. In the granites and migmatites that form the dome core, magmatic texture and to a lesser extent weak solid-state texture are dominant … | ==> | code : “sdu”
labelFr : “Planète et Univers [physics]” labelEn : “Sciences of the Universe [physics]” |
Vous avez un corpus et vous souhaitez en connaître le contenu ?
En lançant halClass sur vos données depuis Lodex, logiciel libre de visualisation, vous obtiendrez pour chaque document l’intitulé de la classe à laquelle il appartient et des représentations graphiques liées.
Graphes issus d’une étude réalisée pour le COPIL ISTEX (Identifier les pratiques TDM des chercheurs français non-experts en text mining pour la période 2013-2023).

