authorDistinct - Désambiguïsation d’auteurs via ORCID
Ce web service retrouve un auteur à partir d’un certain nombre d’éléments connus le concernant, comme les nom et prénom, des titres de publications, ou encore des co-auteurs. Cette désambiguïsation se fait en utilisant les ressources à disposition sur le site d’ORCID.
Ce service fonctionne quelle que soit la langue à condition qu’elle soit dans un alphabet latin.
Ce web service prend en entrée du JSON avec deux champs, id
et value
, et renvoie un JSON avec un identifiant ORCID dans le champ value
.
Le champ value
doit contenir un json contenant au minimum les deux champs suivants :
firstName
: Le prénom de la personne que l’on souhaite trouverlastName
: Le nom de la personne que l’on souhaite trouver
De plus, d’autres champs facultatifs (mais fortement recommandés d’utiliser pour plus de précision) sont possibles :
email
: Une liste[]
d’emails de la personne que l’on souhaite trouvertitles
: Une liste[]
de titres de publications scientifiques de la personne que l’on souhaite trouvercoAuthors
: Une liste[]
de co-auteurs de la personne que l’on souhaite trouveraffiliations
: Une liste[]
d’affiliations (actuelles ou passées) de la personne que l’on souhaite trouver
Le programme fonctionne de la façon suivante :
- Il fait une requête ORCID sur le
firstName
etlastName
donnés récupérant un nombrenameDepth
de personnes,nameDepth
étant un paramètre fixé à 20, et pouvant être modifié via l’url. - L’algorithme prend ces personnes une à une et effectue dans cet ordre les traitements suivants :
- Si une liste d’e-mails a été fournie en entrée, il effectue une comparaison avec les e-mails disponibles pour la personne. Il s’arrête s’il y en a un en commun, et renvoie l’identifiant ORCID de la personne.
- L’algorithme fait une requête pour récupérer un nombre
worksDepth
maximum de publications de la personne,worksDepth
étant un paramètre fixé à 20, et pouvant être modifié via l’url. De ces publications, il extrait les titres ainsi que tous les co-auteurs disponibles.- Si une liste de titres a été fournie en entrée, l’algorithme compare les titres de ces publications avec la liste d’entrée. Si un titre de la liste d’entrée correspond à plus de 70% à un titre de la liste des publications de la personne, l’algorithme s’arrête et renvoie l’identifiant ORCID de cette personne.
- Si une liste de co-auteurs a été fournie en entrée, l’algorithme compare les co-auteurs de ces publications avec la liste d’entrée. Si un co-auteur de la liste d’entrée correspond à un co-auteur de la liste des publications de la personne, l’algorithme s’arrête et renvoie l’identifiant ORCID de cette personne.
- Si aucune des étapes précédentes n’est validée, et si une liste d’affiliations a été fournie, l’algorithme compare la liste d’affiliations d’entrée avec les affiliations actuelles et passées de la personne. Plus il y a d’affiliations en commun, plus la personne obtiendra un score élevé et sera susceptible d’être retenue à la fin.
- Pour finir, des points sont également ajoutés au score si la personne a le même nom, le même prénom ou la même initiale que le prénom de la personne que l’on souhaite retrouver. Si au cours de cette boucle, l’algorithme ne s’est pas arrêté suite à un e-mail, titre ou co-auteur, il renverra la personne ayant obtenu le score le plus élevé.
Précautions :
- Si le web service fonctionne avec au minimum deux informations (nom et prénom), plus vous ajoutez de données facultatives, meilleure sera la qualité du résultat.
- Pour les combinaisons de prénom/nom très communes dans certains pays (par exemple John Smith, Yue Chen), il est conseillé d’augmenter le paramètre
nameDepth
. Cependant cela risque également d’augmenter le temps de calcul. De plus, l’algorithme renverra dans la majorité des cas un résultat, mais il est possible que celui-ci soit incorrect si aucun des arguments d’entrée n’a aidé à identifier la personne recherchée. - On ne pourra pas trouver une personne à l’aide de titres, co-auteurs, e-mails et affiliations si cette personne n’a pas rentré ces données dans son compte ORCID. Par conséquent, une personne présente sur ORCID mais n’ayant mis aucune information à disposition peut ne pas être trouvée.
Nombre de personnes
Le paramètre nameDepth
est fixé à 20 par défaut. Il est à adapter en fonction des besoins
Pour obtenir 50 termes, il est nécessaire de rajouter ?nameDepth=50&
à la fin de l’URL :
https://authors-tools.services.inist.fr/v1/orcid-disambiguation/orcidDisambiguation?nameDepth=50
Nombre de publications
Le paramètre nameDepth
est fixé à 20 par défaut. Il est à adapter en fonction des besoins
Pour obtenir 50 termes, il est nécessaire de rajouter ?worksDepth=50
à la fin de l’URL :
https://authors-tools.services.inist.fr/v1/orcid-disambiguation/orcidDisambiguation?worksDepth=50
Combinaison des paramètres
https://authors-tools.services.inist.fr/v1/orcid-disambiguation/orcidDisambiguation?nameDepth=50&worksDepth=40
ORCID https://orcid.org/
firstName : Pascal, lastName : Cuxac, email : blabla@blabla.fr, pascal.cuxac@inist.fr | ==> | 0000-0002-6809-5654 |
firstName : Rubén, lastName : Vázquez-Cárdenas, coAuthors : Juan pablo Martínez-Pastor | ==> | 0000-0002-8416-869X |
Pour les combinaisons de prénom/nom très communes dans certains pays (par exemple John Smith, Yue Chen), il est conseillé d’augmenter le paramètre nameDepth
. Cependant cela risque également d’augmenter le temps de calcul.
De plus, l’algorithme renverra dans la majorité des cas un résultat, mais il est possible que celui-ci soit incorrect si aucun des arguments d’entrée n’a aidé à identifier la personne recherchée.
Remarque : On ne pourra pas trouver une personne à l’aide de titres, co-auteurs, e-mails et affiliations si cette personne n’a pas rentré ces données dans son compte ORCID. Par conséquent, une personne présente sur ORCID mais n’ayant mis aucune information à disposition peut ne pas être trouvée.