textSimilarity - Calcul de similarité entre des métadonnées
Ce web service renvoie, pour chaque document d’un corpus, les documents dont la métadonnée comparée lui sont le plus similaires ainsi que les scores de similarité associés. Il compare des textes courts tels que le titre d’un article ou une phrase extraite du résumé voire des mots-clés.
Le calcul de similarité s’effectue via la fonction SequenceMatcher de la bibliothèque python difflib.
Par défaut le nombre de documents similaires à un autre est calculé dynamiquement.
- Pour obtenir le score des autres documents, rajouter l’option à la fin de l’URL :
?output=1
:
https://data-computer.services.istex.fr/v1/corpus-similarity?output=1
- Pour renvoyer au maximum les X documents les plus proches d’un autre, avec pour X un entier supérieur ou égal à 2, rajouter l’option à la fin de l’URL
?output=X
:
https://data-computer.services.istex.fr/v1/corpus-similarity?output=X
Supposons un corpus constitué des 4 documents suivants pour lesquels les titres sont comparés :
Titre1 . |
==> | similarity:Titre 4,Titre 2 |
Titre2 |
==> | similarity:Titre 1 |
Titre3 |
==> | similarity:Titre 4 |
Titre4 |
==> | similarity:Titre 1 |
Vous avez un corpus que vous avez constitué à partir de plusieurs sources. Vous aurez naturellement des doublons. Si les DOIs sont absents, vous souhaitez repérer des titres proches pour identifier d’éventuels doublons.
En lançant textSimilarity sur le titre de vos données, depuis Lodex, logiciel libre de visualisation, vous pourrez vérifier manuellement s’il s’agit ou non de doublons.