nlpTools - Traitement du langage naturel

Niveau d'utilisation :  Avancé
Niveau de validation :  Expérimental
Objectif

Cette bibliothèque d’outils pour le TALN (traitement du langage naturel) contient des composants qui effectuent des traitements de stemming, POStagging, de reconnaissance de termes contrôlés, d’entités nommées, de chunking nominal et de chunking nominal par analyse en dépendance.

Méthode

Les composants disponibles dans cette bibliothèque, construite au dessus de spaCy, effectuent des traitements de :

  • Stemming [engine = stemmer], en français et en anglais = racinisation des mots sous forme de stem.
    Ex: “dissection”    ->    “dissect”
  • Etiquetage en partie du discours [engine = POStagger] avec lemmatisation, en français et en anglais = affectation d’une catégorie syntaxique et production de la forme lemmatique de chaque mot.
    Ex : disséquera -> {« orth »: « disséquera », « pos »: « V », « lemma »: « disséquer »}
  • Chunking nominal, en anglais :
    • [engine = npchunker ]  extraction des groupes nominaux classique (analyse en constituant)
    • [engine = npchunkerdp ]  extraction des groupes nominaux basée sur de l’analyse en dépendance
      Ex : “fleur_bleue”, “muscle_strié _cardiaque”,
      “production_intérieur_de _gaz_de_la_Russie”
  • Reconnaissance terminologique [engine = termatcher] sur la ressource MX2015 (MX étant le vocabulaire de la base Pascal)  =
    Ex : "Non-local effects by homogenization or 3D–1D dimension reduction in elastic materials reinforced by stiff fibers. We first consider an elastic thin heterogeneous cylinder of radius of order ε: the interior of the cylinder is occupied by a stiff material (fiber) that is surrounded by a soft material"

->

   "Non-MX_local_effects by MX_homogenization or 3D–1D MX_dimension_reduction in MX_elastic_materials reinforced by stiff MX_fibers. We first consider an elastic thin heterogeneous MX_cylinder of MX_radius of MX_order ε: the interior of the MX_cylinder is occupied by a stiff MX_material (MX_fiber ) that is surrounded by a MX_soft_material"

Code retour

  • 200 si OK
  • 404 si service non contacté

L’analyse linguistique avec spaCy

Pour une meilleure compréhension des formats d’analyse et des mécanismes impliqués dans NLP-tools, se référer à la documentation spaCy

Variantes

Langues et traitements

https://nlp-tools-2.services.istex.fr/v1/{langue}/{engine}/analyze?output={val}

    • {langue}                       la langue à analyser           [en , fr]
    • {engine}                      nom pipeline de traitement à appliquer :
                     anglais :           [stemmer, postagger, npchunker, npchunkerdp]
                     francais :          [stemmer , postagger]
    • paramètres :
      {output}                       format du résultat           [doc , json]
      doc = le résultat est réinséré dans le document
      json = le résultat de l’analyse au format json

      Listes des routes

      Description de la tâche français anglais engine
      Stemming     /v1/fr/stemmer/analyze        /v1/en/stemmer/analyze stemmer
      Etiquetage en partie du discours /v1/fr/postagger/analyze /v1/en/postagger/analyze postagger
      Reconnaissance de termes contrôlés /v1/en/termmatcher/analyze  termmatcher
      Chunking nominal /v1/en/npchunker/analyze  NPchunker
      Chunking nominal issu d’une analyse en dépendance /v1/en/npchunkerdp/analyze  NPchunkerDP

       

      Sorties

      En fonction du paramètre output indiqué et la nature du traitement, le résultat sera :

      • le texte, produit de la transformation du texte d’origine (output=doc)
      • une structure d’information au format json (output=json) plus complète qui contient toutes les métadonnées issues de l’analyse.
      Références

      Documentation spaCy

      Ces web services qui peuvent vous intéresser

      Lemmatisation de termes anglais

      Normalisation d’un texte ou d’un terme

      Traitement

      Exemple d’interrogation du chuncker en anglais, sortie doc :

      • route :  /v1/en/npchunker/analyze       
      • format de sortie  :  output=doc

      construit  l’url :  https://nlp-tools-2.services.istex.fr/v1/en/npchunker/analyze?output=doc

      Random walk of passive tracers among randomly moving obstacles. Background: This study is mainly motivated by the need of understanding how the diffusion behaviour of a biomolecule (or even of a larger object) is affected by other moving macromolecules, organelles, and so on, inside a living cell, whence the possibility of understanding whether or not a randomly walking biomolecule is also subject to a long-range force field driving it to its target … ==> random_walk passive_tracer move_obstacle diffusion_behaviour live_cell walking_biomolecule range_force_field continuous_time_random time_random_walk random_walk …
      Planck 2015 results. XIII. Cosmological parameters.We present results based on full-mission Planck observations of temperature and polarization anisotropies of the CMB. These data are consistent with the six-parameter inflationary LCDM cosmology … ==> cosmological_parameter mission_planck_observation observation_of_temperature polarization_anisotropy inflationary_lcdm_cosmology planck_temperature lense_datum matter_density_parameter scalar_spectral_index measured_parameter …
      En poursuivant votre navigation, sans modifier vos paramètres, vous acceptez l'utilisation et le dépôt de cookies destinés à mesurer la fréquentation du site grâce au logiciel Matomo.
      OK
      Modifier les paramètres