OALDocTypeClass - Classification de documents OpenAlex par type de document

Malgré les contrôles qualité que nous effectuons avant de mettre nos web services en production, les outils d'IA peuvent commettre des erreurs. Nous vous recommandons de vérifier les informations importantes.

Niveau d'utilisation : Débutant

Niveau de validation : Validé

Objectif

Ce web service prend en entrée un identifiant OpenAlex et vérifie si le document associé est un document de recherche ou non.

Ce service a été développé par Nick Haupka (Université de Göttingen, Allemagne) et financé par : the Federal Ministry of Education and Research (Grant Funding Number: 16WIK2301E, The OpenBib project).

Méthode

Nous utilisons le modèle développé par Nick Haupka dont la construction est détaillée sur ce dépôt git.
À partir de l’ID OpenAlex, nous utilisons l’API pour récupérer divers champ (par exemple les références, le nombre de page, etc). Le document est représenté vectoriellement à partir de ces informations et nous utilisons un modèle pré-entraîné par Haupka (2026).

C’est un modèle type KPPV (K Plus Proches Voisins) : pour une notice d’OpenAlex, le modèle regarde les k documents les plus proches (par rapport à la distance des représentations vectorielles). En fonction de cette proportion, cette notice est ensuite classée “document de recherche” ou non, et une probabilité lui est attribuée.

Sorties possibles

Le modèle retourne un json contenant un champ “isResearchDoc” et un champ donnant un score de confiance : “score”.
Voici les différentes valeurs que peut prendre “isResearchDoc” :
– True : le document est bien un document de recherche.
– False : le document n’est pas un document de recherche.
– “not_processed” : le document n’a pas été traité : son type est en général bien attribué.
– “n/a” : une erreur a été rencontrée pour le document. Dans ce cas là, le traitement peut être relancé ; après vérification des données à traiter.

Métriques

Le modèle atteint une f-mesure, une précision et un rappel de 0,95.

Références

Haupka, N. Presenting a classifier to improve the identification of research journal publications in OpenAlex. Scientometrics 131, 925–941 (2026). https://doi.org/10.1007/s11192-025-05524-7

Absent de TDM Factory

Absent de Lodex

Démonstration

Code source