textSimilarity - Calcul de similarité entre des métadonnées

Niveau d'utilisation :  Débutant
Niveau de validation :  Expérimental
Objectif

Ce web service renvoie, pour chaque document d’un corpus, les documents dont la métadonnée comparée lui sont le plus similaires ainsi que les scores de similarité associés. Il compare des textes courts tels que le titre d’un article ou une phrase extraite du résumé voire des mots-clés.

Méthode

Le calcul de similarité s’effectue via la fonction SequenceMatcher de la bibliothèque python difflib.

Variantes

Par défaut le nombre de documents similaires à un autre est calculé dynamiquement.

  • Pour obtenir le score des autres documents, rajouter l’option à la fin de l’URL : ?output=1  :
    https://data-computer.services.istex.fr/v1/corpus-similarity?output=1
  • Pour renvoyer au maximum les X documents les plus proches d’un autre, avec pour X un entier supérieur ou égal à 2, rajouter l’option à la fin de l’URL ?output=X  :
    https://data-computer.services.istex.fr/v1/corpus-similarity?output=X
Présent sur IA Factory
Traitement

Supposons un corpus constitué des 4 documents suivants pour lesquels les titres sont comparés :

Titre1
IESM International Conference on Industrial Engineering and Systems Management
.
==> similarity:Titre 4,Titre 2
score:0.9411764705882353,0.9349112426035503
Titre2
IESM 2017 : 7th International Conference on Industrial Engineering and Systems Management
==> similarity:Titre 1
score:0.9349112426035503
Titre3
7th International Conference on Industrial Engineering and Systems Management (IESM 2017)
==> similarity:Titre 4
score:0.8888888888888888
Titre4
Intrenational Conference on Industrial Engineering and Systems Management
==> similarity:Titre 1
score:0.9411764705882353

Vous avez un corpus que vous avez constitué à partir de plusieurs sources. Vous aurez naturellement des doublons. Si les DOIs sont absents, vous souhaitez repérer des titres proches pour identifier d’éventuels doublons.

En lançant textSimilarity sur le titre de vos données, depuis Lodex, logiciel libre de visualisation, vous pourrez vérifier manuellement s’il s’agit ou non de doublons.

En poursuivant votre navigation, sans modifier vos paramètres, vous acceptez l'utilisation et le dépôt de cookies destinés à mesurer la fréquentation du site grâce au logiciel Matomo.
OK
Modifier les paramètres