OALDocTypeClass - Classification de documents OpenAlex par type de document
Ce web service prend en entrée un identifiant OpenAlex et vérifie si le document associé est un document de recherche ou non.
Ce service a été développé par Nick Haupka (Université de Göttingen, Allemagne) et financé par : the Federal Ministry of Education and Research (Grant Funding Number: 16WIK2301E, The OpenBib project).
Nous utilisons le modèle développé par Nick Haupka dont la construction est détaillée sur ce dépôt git.
À partir de l’ID OpenAlex, nous utilisons l’API pour récupérer divers champ (par exemple les références, le nombre de page, etc). Le document est représenté vectoriellement à partir de ces informations et nous utilisons un modèle pré-entraîné par Haupka (2026).
C’est un modèle type KPPV (K Plus Proches Voisins) : pour une notice d’OpenAlex, le modèle regarde les k documents les plus proches (par rapport à la distance des représentations vectorielles). En fonction de cette proportion, cette notice est ensuite classée “document de recherche” ou non, et une probabilité lui est attribuée.
Sorties possibles
Le modèle retourne un json contenant un champ “isResearchDoc” et un champ donnant un score de confiance : “score”.
Voici les différentes valeurs que peut prendre “isResearchDoc” :
– True : le document est bien un document de recherche.
– False : le document n’est pas un document de recherche.
– “not_processed” : le document n’a pas été traité : son type est en général bien attribué.
– “n/a” : une erreur a été rencontrée pour le document. Dans ce cas là, le traitement peut être relancé ; après vérification des données à traiter.
Le modèle atteint une f-mesure, une précision et un rappel de 0,95.
Haupka, N. Presenting a classifier to improve the identification of research journal publications in OpenAlex. Scientometrics 131, 925–941 (2026). https://doi.org/10.1007/s11192-025-05524-7