textSimilarity - Calcul de similarité entre des métadonnées
Ce web service renvoie, pour chaque document d’un corpus, les documents dont la métadonnée comparée lui sont le plus similaires ainsi que les scores de similarité associés. Il compare des textes courts tels que le titre d’un article ou une phrase extraite du résumé voire des mots-clés.
Le calcul de similarité s’effectue via la fonction SequenceMatcher de la bibliothèque python difflib.
Par défaut le nombre de documents similaires à un autre est calculé dynamiquement.
- Pour obtenir le score des autres documents, rajouter l’option à la fin de l’URL :
?output=1:
https://data-computer.services.istex.fr/v1/corpus-similarity?output=1 - Pour renvoyer au maximum les X documents les plus proches d’un autre, avec pour X un entier supérieur ou égal à 2, rajouter l’option à la fin de l’URL
?output=X:
https://data-computer.services.istex.fr/v1/corpus-similarity?output=X
Utilisation dans TDM Factory
Ce web service se lance sur un corpus Istex au format targz.
Utilisation dans Lodex
Sélectionnez le web service dans le catalogue :
Précalcul : le web service traite le corpus dans sa globalité. Le résultat obtenu pour chaque document dépend des autres. Exemple pour la génération de clusters. On parlera de web service asynchrone
* Par défaut
Saisir cette URL https://data-computer.services.istex.fr/v1/corpus-similarity et sélectionner la colonne dédiée au champ comparé.
Sauvegarder et lancer le traitement
* Pour obtenir tous les scores de similarité avec les autres documents
Saisir cette URL https://data-computer.services.istex.fr/v1/corpus-similarity?output=1 et sélectionner la colonne dédiée au champ comparé.
Sauvegarder et lancer le traitement
* Si vous voulez paramétrer le nombre de documents similaires
Saisir cette URL https://data-computer.services.istex.fr/v1/corpus-similarity?output=5 et sélectionner la colonne dédiée au champ comparé.
Sauvegarder et lancer le traitement
Supposons un corpus constitué des 4 documents suivants pour lesquels les titres sont comparés :
Titre1. |
==> | similarity:Titre 4,Titre 2 |
Titre2 |
==> | similarity:Titre 1 |
Titre3 |
==> | similarity:Titre 4 |
Titre4 |
==> | similarity:Titre 1 |
Vous avez un corpus que vous avez constitué à partir de plusieurs sources. Vous aurez naturellement des doublons. Si les DOIs sont absents, vous souhaitez repérer des titres proches pour identifier d’éventuels doublons.
En lançant textSimilarity sur le titre de vos données, depuis Lodex, logiciel libre de visualisation, vous pourrez vérifier manuellement s’il s’agit ou non de doublons.