textClustering - Extraction de clusters d’un corpus

Malgré les contrôles qualité que nous effectuons avant de mettre nos web services en production, les outils d'IA peuvent commettre des erreurs. Nous vous recommandons de vérifier les informations importantes.

Niveau d'utilisation : Avancé

Niveau de validation : Expérimental

Objectif

Ce web service traite non plus du texte mais de corpus de textes en anglais. En effet, le résultat obtenu pour chacun des documents dépend des autres.

L’algorithme extrait plusieurs groupes (clusters) d’un corpus afin d’y classer les différents textes en fonction de leur similarité. Un document est présent dans un seul groupe.

Chaque cluster est caractérisé par 20 termes.

Méthode

Dans un premier temps, un embedding est utilisé pour vectoriser les documents. Une fois représentés sous forme de vecteurs, il est possible de calculer leur ressemblance. Pour se faire, nous réduisons la dimension des vecteurs en utilisant l’algorithme UMAP puis nous comparons les proximités entre ces vecteurs en utilisant la distance cosinus. Enfin, on les regroupe en cluster en utilisant l’algorithme des k-means

– Le nombre de clusters est déterminé de manière automatique (en utilisant la méthode de la silhouette). Si des documents ne permettent pas d’être traités, ils seront considérés comme du bruit (dans ce cas précis, le label de leur cluster sera 0 (zéro) ; les documents appartenant au cluster 0 ne sont pas regroupés ensembles).
– L’entrée doit être un texte court (type titre ou un abstract). Fonctionne également sur un tableau de mots-clés pertinents extraits d’un texte (pouvant être obtenus avec teeft par exemple).

Métriques

Un modèle est créé à chaque utilisation : une optimisation des paramètres est incluse dans le code pour s’adapter à chaque corpus.
Cependant, la cohérence et l’exhaustivité des thématiques doivent être vérifiées à chaque utilisation.

Précautions :

Le web service fonctionne uniquement sur du texte anglais.
Les résultats ne sont pas pertinents s’il y a trop peu de données (au moins une cinquantaine).

Références

UMAP (Uniform Manifold Approximation and Projection for Dimension Reduction) : https://doi.org/10.48550/arXiv.1802.03426

Ces web services qui peuvent vous intéresser

Extraction de thématiques d'un corpus

Extraction de termes d'un texte via Teeft

Présent sur TDM Factory

LIEN VERS TDM FACTORY

Utilisation dans TDM Factory

Ce web service se lance sur :

un corpus Istex en anglais au format targz
un corpus en anglais au format CSV

Présent sur Lodex

LIEN VERS LA DOCUMENTATION LODEX

Utilisation dans Lodex

Sélectionnez le web service dans le catalogue :

Précalcul : le web service traite le corpus dans sa globalité. Le résultat obtenu pour chaque document dépend des autres. Exemple pour la génération de clusters. On parlera de web service asynchrone

Saisir cette URL https://text-clustering.services.istex.fr/v1/clustering et sélectionner la colonne dédiée au texte en anglais.
Sauvegarder et lancer le traitement

Variantes

Nombre de clusters

Il est possible de choisir le nombre de clusters que l’on souhaite en sortie en le spécifiant en paramètre nbCluster. Pour l’utiliser il suffit de le rajouter à la fin de l’URL :
https://text-clustering.services.istex.fr/v1/clustering?nbCluster=7

Traitement

Ce service web ne traite pas des fichiers mais des corpus : ceci est un exemple de contenu d’un fichier d’un corpus.

Zinc (Zn), iron (Fe), magnesium (Mg), and calcium (Ca) in chickpea seed are important constituents in vegetarian diets. The aim was to investigate associations of these nutrients in different chickpea (Cicer arietinum L.) cultivars with phytic acid (PA), another naturally occurring constituent of grain that may influence the bioavailability of mineral micronutrients. Chickpea was grown at Saskatoon and Swift Current, SK, in 2002 and 2003, representing dryland production from high-yielding locations in western Canada. Minerals were measured by atomic absorption spectroscopy; PA was measured using high-performance anion-exchange conductivity detection methodology. Seed from 10 genotypes contained from 29 to 52 mg/kg Zn, 77–112 mg/kg Fe, 1,448–2,457 mg/kg Mg, 1,211–2,457 mg/kg Ca, to 3.8–9.0 mg/g PA. Phytic acid, Fe, Mg, and Ca decreased in 2003 from 2002 concentrations. Kabulis had greater Zn, the same Fe, but lower Mg and Ca concentrations than desi genotypes. Large-seeded genotypes had greater or the same Zn, the same Fe and Mg, but lower Ca than small-seeded genotypes. Iron and Ca concentrations positively correlated with PA concentration. Nutrients were affected by environment and genotype, which means that chickpea can be exploited by breeding, in addition to sourcing favorable nutritional profiles by environment, seed size, and market class.

==>

cluster : 2
weight : 0.854

Démonstration

Code source

Vous avez un corpus et vous souhaitez en connaître le contenu ?
En lançant textClustering sur vos données depuis Lodex, logiciel libre de visualisation, vous obtiendrez pour chaque document l’attribution d’une classe et des représentations graphiques liées.
A chaque classe sont associés un poids et 20 termes permettant d’avoir une idée de la thématique.

La représentation graphique des résultats est en cours de développement.