noiseDetect - Détection de bruit d’un corpus

Malgré les contrôles qualité que nous effectuons avant de mettre nos web services en production, les outils d'IA peuvent commettre des erreurs. Nous vous recommandons de vérifier les informations importantes.

Niveau d'utilisation : Avancé

Niveau de validation : Expérimental

Objectif

Ce web service traite non plus du texte mais de corpus de textes en anglais. En effet, le résultat obtenu pour chacun des documents dépend des autres.

L’algorithme repère la liste des identifiants des documents considérés comme du bruit dans un corpus. Il s’agit de documents considérés comme non pertinents.

Méthode

Dans un premier temps, un embedding est utilisé pour vectoriser les documents. Une fois représentés sous forme de vecteurs, il est possible de calculer leur ressemblance. Pour ce faire, nous réduisons la dimension des vecteurs en utilisant l’algorithme UMAP puis nous comparons les proximités entre ces vecteurs en utilisant la distance cosinus et nous les regroupons en cluster en utilisant HDBSCAN

– L’entrée doit être un texte court (type titre ou un abstract). Fonctionne également sur un tableau de mots-clés pertinents extraits d’un texte (pouvant être obtenus avec teeft par exemple).
– La sortie est la liste de l’ensemble des identifiants des documents considérés comme du bruit.

Métriques

Un modèle est créé à chaque utilisation : une optimisation des paramètres est incluse dans le code pour s’adapter à chaque corpus.

Précaution
Le web service fonctionne uniquement sur des textes anglais.

Références

UMAP (Uniform Manifold Approximation and Projection for Dimension Reduction) : https://doi.org/10.48550/arXiv.1802.03426

HDBSCAN (Hierarchical Density-Based Spatial Clustering of Applications with Noise) : https://doi.org/10.21105/joss.00205

Ces web services qui peuvent vous intéresser

Extraction de clusters d'un corpus

Extraction de thématiques d'un corpus

Présent sur TDM Factory

LIEN VERS TDM FACTORY

Utilisation dans TDM Factory

Ce web service se lance sur :

un corpus Istex en anglais au format targz
un corpus en anglais au format CSV

Présent sur Lodex

LIEN VERS LA DOCUMENTATION LODEX

Utilisation dans Lodex

Sélectionnez le web service dans le catalogue :

Précalcul : le web service traite le corpus dans sa globalité. Le résultat obtenu pour chaque document dépend des autres. Exemple pour la génération de clusters. On parlera de web service asynchrone

Saisir cette URL https://text-clustering.services.istex.fr/v1/noise-lodex et sélectionner la colonne dédiée au texte en anglais.
Sauvegarder et lancer le traitement

Variantes

Pour obtenir la liste des identifiants considérés comme bruit, l’URL à utiliser dans Lodex est la suivante :
https://text-clustering.services.istex.fr/v1/noise-lodex

La variante suivante permet un résultat bien plus simplifié (la liste des identifiants), incompatible avec Lodex. Elle est à utiliser en ligne de commande.
https://text-clustering.services.istex.fr/v1/noise

Démonstration

Code source

Vous avez un corpus et vous souhaitez en connaître le contenu ? Vous souhaitez l’affiner en écartant des documents non pertinents ?
En lançant noiseDetect sur vos données depuis Lodex, logiciel libre de visualisation, vous pourrez repérer des documents identifiés comme non pertinents par rapport au reste du corpus.