TermSuite - Extraction de termes d’un corpus
Ce web service s’appuie sur l’outil TermSuite pour faire une extraction terminologique à partir d’un corpus de textes en anglais ou en français.
La liste des 500 termes extraits par défaut contient les termes les plus spécifiques au corpus correspondant à tous les fichiers textes.
Cela permet d’avoir une idée des sujets abordés par l’ensemble des fichiers.
L’extraction terminologique à partir d’un corpus spécialisé est une première étape à la constitution d’un vocabulaire contrôlé sur un domaine particulier.
Le programme utilisé est TermSuite. Il effectue les traitements en 2 phases :
- Analyses linguistiques : segmentation du texte en mots, lemmatisation et étiquetage morphosyntaxique
- Extraction terminologique monolingue : détection d’occurrences de termes simples et complexes, normalisation et regroupement des termes en fonction de leurs variations, calcul de spécificité et filtrage statistique.
TermSuite calcule la spécificité (termhood) d’un candidat terme par rapport à un corpus de langue générale. Les termes ainsi sélectionnés sont renvoyés par spécificité décroissante.
L’entrée est un fichier .tar.gz
contenant des fichiers .json
en anglais ou en français (voir Variantes).
La sortie est une liste de 500 termes par défaut (voir Variantes). Chaque mot est précédé de son étiquette grammaticale (n
pour nom, a
pour adjectif, …). Chaque terme est associé à sa fréquence d’apparition dans le corpus.
Précaution
Assurez-vous que la langue des textes corresponde à la variante retenue.
Langues
- anglais :
https://data-termsuite.services.istex.fr/v1/en/minimal
- français :
https://data-termsuite.services.istex.fr/v1/fr/minimal
Nombre de termes
Le paramètre nb
est à adapter en fonction des besoins. Par défaut, 500 termes sont renvoyés.
Pour obtenir 10 termes, il est nécessaire de rajouter ?nb=10
à la fin de l’URL :
https://data-termsuite.services.istex.fr/v1/en/minimal?nb=10
- TermSuite
- Béatrice Daille.
Term Variation in Specialised Corpora: Characterisation, automatic discovery and applications.
Vol. 19. John Benjamins Publishing Company, 2017.
Notice - Damien Cram and Béatrice Daille.
Terminology Extraction with Term Variant Detection.
Proceedings of ACL-2016 System Demonstrations.
PDF - Jérôme Rocheteau and Béatrice Daille.
TTC TermSuite: A UIMA Application for Multilingual Terminology Extraction from Comparable Corpora.
Proceedings of the 5th International Joint Conference on Natural Language Processing, 2011.
PDF
Ce web service ne traite pas des fichiers mais des corpus : ceci est un exemple de contenu d’un fichier d’un corpus
Microbiology and Nitrogen Cycle in the Benthic Sediments of a Glacial Oligotrophic Deep Andean Lake as Analog of Ancient Martian Lake-Beds . Potential benthic habitats of early Mars lakes, probably oligotrophic, could range from hydrothermal to cold sediments. Dynamic processes in the water column (such as turbidity or UV penetration) as well as in the benthic bed (temperature gradients, turbation, or sedimentation rate) contribute to supply nutrients to a potential microbial ecosystem … | ==> | key: n: sediment freq: 10 key: nn: proto-paratethys sea freq: 9 key: a: glacial freq: 7 key: n: mmes freq: 7 key: a: tropical freq: 7 |
PS: Techniquement, le service renvoie un JSON dont le champ value
est l’identifiant du traitement:
[ { "id": "termsuite-en", "value": "gp8QhnnGb" } ]
À partir de cet identifiant, on peut forger une requête vers https://data-termsuite.services.istex.fr/v1/retrieve-json
pour récupérer le résultat.
Pour plus de détails, voir la démonstration.
Vous avez un corpus et vous souhaitez en connaître le contenu ?
En lançant TermSuite sur vos données depuis Lodex, logiciel libre de visualisation, vous obtiendrez, par défaut, la liste des 500 termes les plus spécifiques au corpus (il ne s’agit pas d’une indexation de chaque document) et des représentations graphiques liées.
Pour obtenir le graphe ci-dessus dans Lodex, partie Graphiques :
- Sélectionner Donnée précalculée
- Choisir le précalcul existant
- Choisir la routine values-precomputed-nofilter/
- Sélectionner le format d’affichage Diagramme en barres et Décocher “Visible”