dataHomogenise - Homogénéisation automatique de mots-clés

Niveau d'utilisation :  Avancé
Niveau de validation :  Expérimental
Objectif

Ce web service traite un corpus en anglais. Il homogénéise automatiquement un ensemble de mots-clés ou de liste de mots-clés.

Méthode

On calcule des embeddings de phrases (ou mots) avec le modèle all-MiniLM-L6-v2. Si la similarité sémantique des deux phrases (ou mots) est suffisante, elles sont homogénéisées. Pour calculer la similarité sémantique, nous utilisons la similarité cosinus.

Métriques

Nous avons remarqué plusieurs seuils en fonction de la similarité cosinus de deux termes :
– Un premier seuil : 0.6. La similarité cosinus entre deux termes n’ayant rien à voir est en dessous de 0.6.
– Un deuxième seuil : 0.7. La similarité cosinus entre deux termes synonymes est souvent au dessus de 0.7.
– Un troisième seuil : 0.8. La similarité cosinus entre deux termes non lemmatisés ou mal orthographiés est souvent au dessus de 0.8.

Pour plus de détails, voir l’ensemble des données sur le github dédié (lien à venir).

Variantes

Faire varier le seuil
Il est possible de faire varier le seuil pour être plus ou moins permissif sur l’homogénéisation : un seuil bas (proche de 0.6) entraîne une homogénéisation plus importante. Un seuil élevé (proche de 0.9) entraîne une homogénéisation plus stricte.

Par défaut ce seuil est à 0.7.
Pour mettre le seuil à 0.8 par exemple, il faut l’ajouter en paramètre à l’URL en pourcentage. L’URL du précalcul devient alors :
https://data-homogenise.services.istex.fr/v1/homogenise?threshold=80

Ce seuil ne doit pas être inférieur à 0.6.
Au dessus de 0.9, peu de mots-clés seront homogénéisés.

Références

Voir l’article associé à la bibliothèque sentence-transformer.

Ces web services qui peuvent vous intéresser

Traitement
1. [ write , written , huge ]
[ immense , wrtie , example ]
==> 1. [ write , write, huge ]
[ huge , write , example ]
2. [ … , … , immense ]
[ huge, … , … ]
==> 2. [ … , … , immense]
[ immense , … , … ]
En poursuivant votre navigation, sans modifier vos paramètres, vous acceptez l'utilisation et le dépôt de cookies destinés à mesurer la fréquentation du site grâce au logiciel Matomo.
OK
Modifier les paramètres