nlpTools - Traitement du langage naturel
Cette bibliothèque d’outils pour le TALN (traitement du langage naturel) contient des composants qui effectuent des traitements de stemming, POStagging, de reconnaissance de termes contrôlés, d’entités nommées, de chunking nominal et de chunking nominal par analyse en dépendance.
Les composants disponibles dans cette bibliothèque, construite au dessus de spaCy, effectuent des traitements de :
- Stemming [engine = stemmer], en français et en anglais = racinisation des mots sous forme de stem.
Ex: “dissection” -> “dissect”
- Etiquetage en partie du discours [engine = POStagger] avec lemmatisation, en français et en anglais = affectation d’une catégorie syntaxique et production de la forme lemmatique de chaque mot.
Ex : disséquera -> {« orth »: « disséquera », « pos »: « V », « lemma »: « disséquer »}
- Chunking nominal, en anglais :
- [engine = npchunker ] extraction des groupes nominaux classique (analyse en constituant)
- [engine = npchunkerdp ] extraction des groupes nominaux basée sur de l’analyse en dépendance
Ex : “fleur_bleue”, “muscle_strié _cardiaque”,
“production_intérieur_de _gaz_de_la_Russie”
- Reconnaissance terminologique [engine = termatcher] sur la ressource MX2015 (MX étant le vocabulaire de la base Pascal) =
Ex : "Non-local effects by homogenization or 3D–1D dimension reduction in elastic materials reinforced by stiff fibers. We first consider an elastic thin heterogeneous cylinder of radius of order ε: the interior of the cylinder is occupied by a stiff material (fiber) that is surrounded by a soft material"
->
"Non-MX_local_effects by MX_homogenization or 3D–1D MX_dimension_reduction in MX_elastic_materials reinforced by stiff MX_fibers. We first consider an elastic thin heterogeneous MX_cylinder of MX_radius of MX_order ε: the interior of the MX_cylinder is occupied by a stiff MX_material (MX_fiber ) that is surrounded by a MX_soft_material"
Code retour
- 200 si OK
- 404 si service non contacté
L’analyse linguistique avec spaCy
Pour une meilleure compréhension des formats d’analyse et des mécanismes impliqués dans NLP-tools, se référer à la documentation spaCy
Langues et traitements
https://nlp-tools-2.services.istex.fr/v1/{langue}/{engine}/analyze?output={val}
- {langue} la langue à analyser [en , fr]
- {engine} nom pipeline de traitement à appliquer :
anglais : [stemmer, postagger, npchunker, npchunkerdp]
francais : [stemmer , postagger]- paramètres :
{output} format du résultat [doc , json]
doc = le résultat est réinséré dans le document
json = le résultat de l’analyse au format json
Listes des routes
Description de la tâche | français | anglais | engine |
---|---|---|---|
Stemming | /v1/fr/stemmer/analyze | /v1/en/stemmer/analyze | stemmer |
Etiquetage en partie du discours | /v1/fr/postagger/analyze | /v1/en/postagger/analyze | postagger |
Reconnaissance de termes contrôlés | /v1/en/termmatcher/analyze | termmatcher | |
Chunking nominal | /v1/en/npchunker/analyze | NPchunker | |
Chunking nominal issu d’une analyse en dépendance | /v1/en/npchunkerdp/analyze | NPchunkerDP |
Sorties
En fonction du paramètre output indiqué et la nature du traitement, le résultat sera :
- le texte, produit de la transformation du texte d’origine (output=doc)
- une structure d’information au format json (output=json) plus complète qui contient toutes les métadonnées issues de l’analyse.
Documentation spaCy
Exemple d’interrogation du chuncker en anglais, sortie doc :
- route : /v1/en/npchunker/analyze
- format de sortie : output=doc
construit l’url : https://nlp-tools-2.services.istex.fr/v1/en/npchunker/analyze?output=doc
Random walk of passive tracers among randomly moving obstacles. Background: This study is mainly motivated by the need of understanding how the diffusion behaviour of a biomolecule (or even of a larger object) is affected by other moving macromolecules, organelles, and so on, inside a living cell, whence the possibility of understanding whether or not a randomly walking biomolecule is also subject to a long-range force field driving it to its target … | ==> | random_walk passive_tracer move_obstacle diffusion_behaviour live_cell walking_biomolecule range_force_field continuous_time_random time_random_walk random_walk … |
Planck 2015 results. XIII. Cosmological parameters.We present results based on full-mission Planck observations of temperature and polarization anisotropies of the CMB. These data are consistent with the six-parameter inflationary LCDM cosmology … | ==> | cosmological_parameter mission_planck_observation observation_of_temperature polarization_anisotropy inflationary_lcdm_cosmology planck_temperature lense_datum matter_density_parameter scalar_spectral_index measured_parameter … |