authorDistinct - Désambiguïsation d’auteurs via ORCID

Niveau d'utilisation :  Avancé
Niveau de validation :  Expérimental
Objectif

Ce web service retrouve un auteur à partir d’un certain nombre d’éléments connus le concernant, comme les nom et prénom, des titres de publications, ou encore des co-auteurs. Cette désambiguïsation se fait en utilisant les ressources à disposition sur le site d’ORCID.

Ce service fonctionne quelle que soit la langue à condition qu’elle soit dans un alphabet latin.

Méthode

Ce web service prend en entrée du JSON avec deux champs, id et value, et renvoie un JSON avec un identifiant ORCID dans le champ value.

Le champ value doit contenir un json contenant au minimum les deux champs suivants :

  • firstName : Le prénom de la personne que l’on souhaite trouver
  • lastName : Le nom de la personne que l’on souhaite trouver

De plus, d’autres champs facultatifs (mais fortement recommandés d’utiliser pour plus de précision) sont possibles :

  • email : Une liste [] d’emails de la personne que l’on souhaite trouver
  • titles : Une liste [] de titres de publications scientifiques de la personne que l’on souhaite trouver
  • coAuthors : Une liste [] de co-auteurs de la personne que l’on souhaite trouver
  • affiliations : Une liste [] d’affiliations (actuelles ou passées) de la personne que l’on souhaite trouver

Le programme fonctionne de la façon suivante :

  1. Il fait une requête ORCID sur le firstName et lastName donnés récupérant un nombre nameDepth de personnes, nameDepth étant un paramètre fixé à 20, et pouvant être modifié via l’url.
  2. L’algorithme prend ces personnes une à une et effectue dans cet ordre les traitements suivants :
    • Si une liste d’e-mails a été fournie en entrée, il effectue une comparaison avec les e-mails disponibles pour la personne. Il s’arrête s’il y en a un en commun, et renvoie l’identifiant ORCID de la personne.
  3. L’algorithme fait une requête pour récupérer un nombre worksDepth maximum de publications de la personne, worksDepth étant un paramètre fixé à 20, et pouvant être modifié via l’url. De ces publications, il extrait les titres ainsi que tous les co-auteurs disponibles.
    • Si une liste de titres a été fournie en entrée, l’algorithme compare les titres de ces publications avec la liste d’entrée. Si un titre de la liste d’entrée correspond à plus de 70% à un titre de la liste des publications de la personne, l’algorithme s’arrête et renvoie l’identifiant ORCID de cette personne.
    • Si une liste de co-auteurs a été fournie en entrée, l’algorithme compare les co-auteurs de ces publications avec la liste d’entrée. Si un co-auteur de la liste d’entrée correspond à un co-auteur de la liste des publications de la personne, l’algorithme s’arrête et renvoie l’identifiant ORCID de cette personne.
    • Si aucune des étapes précédentes n’est validée, et si une liste d’affiliations a été fournie, l’algorithme compare la liste d’affiliations d’entrée avec les affiliations actuelles et passées de la personne. Plus il y a d’affiliations en commun, plus la personne obtiendra un score élevé et sera susceptible d’être retenue à la fin.
    • Pour finir, des points sont également ajoutés au score si la personne a le même nom, le même prénom ou la même initiale que le prénom de la personne que l’on souhaite retrouver. Si au cours de cette boucle, l’algorithme ne s’est pas arrêté suite à un e-mail, titre ou co-auteur, il renverra la personne ayant obtenu le score le plus élevé.
Métriques

Précautions :

  • Si le web service fonctionne avec au minimum deux informations (nom et prénom), plus vous ajoutez de données facultatives, meilleure sera la qualité du résultat.
  • Pour les combinaisons de prénom/nom très communes dans certains pays (par exemple John Smith, Yue Chen), il est conseillé d’augmenter le paramètre nameDepth. Cependant cela risque également d’augmenter le temps de calcul. De plus, l’algorithme renverra dans la majorité des cas un résultat, mais il est possible que celui-ci soit incorrect si aucun des arguments d’entrée n’a aidé à identifier la personne recherchée.
  • On ne pourra pas trouver une personne à l’aide de titres, co-auteurs, e-mails et affiliations si cette personne n’a pas rentré ces données dans son compte ORCID. Par conséquent, une personne présente sur ORCID mais n’ayant mis aucune information à disposition peut ne pas être trouvée.
Variantes

Nombre de personnes

Le paramètre nameDepth est fixé à 20 par défaut. Il est à adapter en fonction des besoins
Pour obtenir 50 termes, il est nécessaire de rajouter ?nameDepth=50&amp à la fin de l’URL :
https://authors-tools.services.inist.fr/v1/orcid-disambiguation/orcidDisambiguation?nameDepth=50

Nombre de publications

Le paramètre nameDepth est fixé à 20 par défaut. Il est à adapter en fonction des besoins
Pour obtenir 50 termes, il est nécessaire de rajouter ?worksDepth=50 à la fin de l’URL :
https://authors-tools.services.inist.fr/v1/orcid-disambiguation/orcidDisambiguation?worksDepth=50

Combinaison des paramètres

https://authors-tools.services.inist.fr/v1/orcid-disambiguation/orcidDisambiguation?nameDepth=50&worksDepth=40

Références

ORCID https://orcid.org/

Ces web services qui peuvent vous intéresser

Détection du genre de l’auteur

Exemple textuel du traitement
Le format d'entrée :
[
 {"id":"1","value":[{"firstName" : "Pascal", "lastName" : "Cuxac", "email" : ["blabla@blabla.fr","pascal.cuxac@inist.fr"]}]},
 {"id":"2","value":[{"firstName" : "Rubén", "lastName" : "Vázquez-Cárdenas", "coAuthors" : ["Juan pablo Martínez-Pastor"]}]}
]
Le résultat :
[
{"id":"1","value":"0000-0002-6809-5654"}, 
{"id":"2","value":"0000-0002-8416-869X"}
]

Pour les combinaisons de prénom/nom très communes dans certains pays (par exemple John Smith, Yue Chen), il est conseillé d’augmenter le paramètre nameDepth. Cependant cela risque également d’augmenter le temps de calcul.
De plus, l’algorithme renverra dans la majorité des cas un résultat, mais il est possible que celui-ci soit incorrect si aucun des arguments d’entrée n’a aidé à identifier la personne recherchée.

Remarque : On ne pourra pas trouver une personne à l’aide de titres, co-auteurs, e-mails et affiliations si cette personne n’a pas rentré ces données dans son compte ORCID. Par conséquent, une personne présente sur ORCID mais n’ayant mis aucune information à disposition peut ne pas être trouvée.

En poursuivant votre navigation, sans modifier vos paramètres, vous acceptez l'utilisation et le dépôt de cookies destinés à mesurer la fréquentation du site grâce au logiciel Matomo.
OK
Modifier les paramètres