TermSuite - Extraction de termes d’un corpus

Niveau d'utilisation :  Débutant
Niveau de validation :  Expérimental
Objectif

Ce web service s’appuie sur l’outil TermSuite pour faire une extraction terminologique à partir d’un corpus de textes en anglais ou en français.
La liste des 500 termes extraits par défaut contient les termes les plus spécifiques au corpus correspondant à tous les fichiers textes.
Cela permet d’avoir une idée des sujets abordés par l’ensemble des fichiers.

L’extraction terminologique à partir d’un corpus spécialisé est une première étape à la constitution d’un vocabulaire contrôlé sur un domaine particulier.

Méthode

Le programme utilisé est TermSuite. Il effectue les traitements en 2 phases :

  • Analyses linguistiques : segmentation du texte en mots, lemmatisation et étiquetage morphosyntaxique
  • Extraction terminologique monolingue : détection d’occurrences de termes simples et complexes, normalisation et regroupement des termes en fonction de leurs variations, calcul de spécificité et filtrage statistique.

TermSuite calcule la spécificité (termhood) d’un candidat terme par rapport à un corpus de langue générale. Les termes ainsi sélectionnés sont renvoyés par spécificité décroissante.

L’entrée est un fichier .tar.gz contenant des fichiers .json en anglais ou en français (voir Variantes).

La sortie est une liste de 500 termes par défaut (voir Variantes). Chaque mot est précédé de son étiquette grammaticale (n pour nom, a pour adjectif, …). Chaque terme est associé à sa fréquence d’apparition dans le corpus.

Métriques

Précaution
Assurez-vous que la langue des textes corresponde à la variante retenue.

Variantes

Langues

  • anglais : https://data-termsuite.services.istex.fr/v1/en/minimal
  • français : https://data-termsuite.services.istex.fr/v1/fr/minimal

Nombre de termes

Le paramètre nb est à adapter en fonction des besoins. Par défaut, 500 termes sont renvoyés.

Pour obtenir 10 termes, il est nécessaire de rajouter ?nb=10 à la fin de l’URL :
https://data-termsuite.services.istex.fr/v1/en/minimal?nb=10

Références
  • TermSuite
  • Béatrice Daille.
    Term Variation in Specialised Corpora: Characterisation, automatic discovery and applications.
    Vol. 19. John Benjamins Publishing Company, 2017.
    Notice
  • Damien Cram and Béatrice Daille.
    Terminology Extraction with Term Variant Detection.
    Proceedings of ACL-2016 System Demonstrations.
    PDF
  • Jérôme Rocheteau and Béatrice Daille.
    TTC TermSuite: A UIMA Application for Multilingual Terminology Extraction from Comparable Corpora.
    Proceedings of the 5th International Joint Conference on Natural Language Processing, 2011.
    PDF
Traitement

Ce web service ne traite pas des fichiers mais des corpus : ceci est un exemple de contenu d’un fichier d’un corpus

Microbiology and Nitrogen Cycle in the Benthic Sediments of a Glacial Oligotrophic Deep Andean Lake as Analog of Ancient Martian Lake-Beds . Potential benthic habitats of early Mars lakes, probably oligotrophic, could range from hydrothermal to cold sediments. Dynamic processes in the water column (such as turbidity or UV penetration) as well as in the benthic bed (temperature gradients, turbation, or sedimentation rate) contribute to supply nutrients to a potential microbial ecosystem … ==> key: n: sediment
freq: 10
key: nn: proto-paratethys sea
freq: 9
key: a: glacial
freq: 7
key: n: mmes
freq: 7
key: a: tropical
freq: 7

PS: Techniquement, le service renvoie un JSON dont le champ value est l’identifiant du traitement:

[ { "id": "termsuite-en", "value": "gp8QhnnGb" } ]

À partir de cet identifiant, on peut forger une requête vers https://data-termsuite.services.istex.fr/v1/retrieve-json pour récupérer le résultat.
Pour plus de détails, voir la démonstration.

En poursuivant votre navigation, sans modifier vos paramètres, vous acceptez l'utilisation et le dépôt de cookies destinés à mesurer la fréquentation du site grâce au logiciel Matomo.
OK
Modifier les paramètres