textSimilarity - Calcul de similarité entre des métadonnées

Malgré les contrôles qualité que nous effectuons avant de mettre nos web services en production, les outils d'IA peuvent commettre des erreurs. Nous vous recommandons de vérifier les informations importantes.

Niveau d'utilisation :  Débutant
Niveau de validation :  Expérimental
Objectif

Ce web service renvoie, pour chaque document d’un corpus, les documents dont la métadonnée comparée lui sont le plus similaires ainsi que les scores de similarité associés. Il compare des textes courts tels que le titre d’un article ou une phrase extraite du résumé voire des mots-clés.

Méthode

Le calcul de similarité s’effectue via la fonction SequenceMatcher de la bibliothèque python difflib.

Variantes

Par défaut le nombre de documents similaires à un autre est calculé dynamiquement.

  • Pour obtenir le score des autres documents, rajouter l’option à la fin de l’URL : ?output=1  :
    https://data-computer.services.istex.fr/v1/corpus-similarity?output=1
  • Pour renvoyer au maximum les X documents les plus proches d’un autre, avec pour X un entier supérieur ou égal à 2, rajouter l’option à la fin de l’URL ?output=X  :
    https://data-computer.services.istex.fr/v1/corpus-similarity?output=X
Présent sur TDM Factory

Utilisation dans TDM Factory

Ce web service se lance sur un corpus Istex au format targz.

Présent sur Lodex

Utilisation dans Lodex

Sélectionnez le web service dans le catalogue :

Précalcul : le web service traite le corpus dans sa globalité. Le résultat obtenu pour chaque document dépend des autres. Exemple pour la génération de clusters. On parlera de web service asynchrone

* Par défaut

Saisir cette URL https://data-computer.services.istex.fr/v1/corpus-similarity et sélectionner la colonne dédiée au champ comparé.
Sauvegarder et lancer le traitement

* Pour obtenir tous les scores de similarité avec les autres documents

Saisir cette URL https://data-computer.services.istex.fr/v1/corpus-similarity?output=1 et sélectionner la colonne dédiée au champ comparé.
Sauvegarder et lancer le traitement

* Si vous voulez paramétrer le nombre de documents similaires

Saisir cette URL https://data-computer.services.istex.fr/v1/corpus-similarity?output=5 et sélectionner la colonne dédiée au champ comparé.
Sauvegarder et lancer le traitement

Traitement

Supposons un corpus constitué des 4 documents suivants pour lesquels les titres sont comparés :

Titre1
IESM International Conference on Industrial Engineering and Systems Management
.
==> similarity:Titre 4,Titre 2
score:0.9411764705882353,0.9349112426035503
Titre2
IESM 2017 : 7th International Conference on Industrial Engineering and Systems Management
==> similarity:Titre 1
score:0.9349112426035503
Titre3
7th International Conference on Industrial Engineering and Systems Management (IESM 2017)
==> similarity:Titre 4
score:0.8888888888888888
Titre4
Intrenational Conference on Industrial Engineering and Systems Management
==> similarity:Titre 1
score:0.9411764705882353

Vous avez un corpus que vous avez constitué à partir de plusieurs sources. Vous aurez naturellement des doublons. Si les DOIs sont absents, vous souhaitez repérer des titres proches pour identifier d’éventuels doublons.

En lançant textSimilarity sur le titre de vos données, depuis Lodex, logiciel libre de visualisation, vous pourrez vérifier manuellement s’il s’agit ou non de doublons.

En poursuivant votre navigation, sans modifier vos paramètres, vous acceptez l'utilisation et le dépôt de cookies destinés à mesurer la fréquentation du site grâce au logiciel Matomo.
OK
Modifier les paramètres