textSimilarity - Calcul de similarité entre des métadonnées

Malgré les contrôles qualité que nous effectuons avant de mettre nos web services en production, les outils d'IA peuvent commettre des erreurs. Nous vous recommandons de vérifier les informations importantes.

Niveau d'utilisation : Débutant

Niveau de validation : Expérimental

Objectif

Ce web service renvoie, pour chaque document d’un corpus, les documents dont la métadonnée comparée lui sont le plus similaires ainsi que les scores de similarité associés. Il compare des textes courts tels que le titre d’un article ou une phrase extraite du résumé voire des mots-clés.

Méthode

Le calcul de similarité s’effectue via la fonction SequenceMatcher de la bibliothèque python difflib.

Références

difflib : https://docs.python.org/3/library/difflib.html

Présent sur TDM Factory

LIEN VERS TDM FACTORY

Utilisation dans TDM Factory

Ce web service se lance sur un corpus Istex au format targz.

Présent sur Lodex

LIEN VERS LA DOCUMENTATION LODEX

Utilisation dans Lodex

Sélectionnez le web service dans le catalogue :

Précalcul : le web service traite le corpus dans sa globalité. Le résultat obtenu pour chaque document dépend des autres. Exemple pour la génération de clusters. On parlera de web service asynchrone

* Par défaut

Saisir cette URL https://data-computer.services.istex.fr/v1/corpus-similarity et sélectionner la colonne dédiée au champ comparé.
Sauvegarder et lancer le traitement

* Pour obtenir tous les scores de similarité avec les autres documents

Saisir cette URL https://data-computer.services.istex.fr/v1/corpus-similarity?output=1 et sélectionner la colonne dédiée au champ comparé.
Sauvegarder et lancer le traitement

* Si vous voulez paramétrer le nombre de documents similaires

Saisir cette URL https://data-computer.services.istex.fr/v1/corpus-similarity?output=5 et sélectionner la colonne dédiée au champ comparé.
Sauvegarder et lancer le traitement

Variantes

Par défaut le nombre de documents similaires à un autre est calculé dynamiquement.

Pour obtenir le score des autres documents, rajouter l’option à la fin de l’URL : ?output=1 :
https://data-computer.services.istex.fr/v1/corpus-similarity?output=1
Pour renvoyer au maximum les X documents les plus proches d’un autre, avec pour X un entier supérieur ou égal à 2, rajouter l’option à la fin de l’URL ?output=X :
https://data-computer.services.istex.fr/v1/corpus-similarity?output=X

Traitement

Supposons un corpus constitué des 4 documents suivants pour lesquels les titres sont comparés :

`Titre1 IESM International Conference on Industrial Engineering and Systems Management`.	==>	`similarity:Titre 4,Titre 2 score:0.9411764705882353,0.9349112426035503`
`Titre2 IESM 2017 : 7th International Conference on Industrial Engineering and Systems Management`	==>	`similarity:Titre 1 score:0.9349112426035503`
`Titre3 7th International Conference on Industrial Engineering and Systems Management (IESM 2017)`	==>	`similarity:Titre 4 score:0.8888888888888888`
`Titre4 Intrenational Conference on Industrial Engineering and Systems Management`	==>	`similarity:Titre 1 score:0.9411764705882353`

Démonstration

Code source

Vous avez un corpus que vous avez constitué à partir de plusieurs sources. Vous aurez naturellement des doublons. Si les DOIs sont absents, vous souhaitez repérer des titres proches pour identifier d’éventuels doublons.

En lançant textSimilarity sur le titre de vos données, depuis Lodex, logiciel libre de visualisation, vous pourrez vérifier manuellement s’il s’agit ou non de doublons.