textNormalize - Normalisation d’un texte ou d’un terme
Ce web service normalise un texte, un terme ou plus généralement une chaîne de caractères.
Ce web service fonctionne quelle que soit la langue du texte, à condition qu’elle soit dans un alphabet latin.
La normalisation sous-entend supprimer les caractères accentués, les caractères spéciaux, les espaces inutiles et redondants, la ponctuation pour in fine mettre tous les caractères en majuscules.
Utilisation dans Lodex
Sélectionnez le web service dans le catalogue :
Enrichissement : le web service traite chaque document l’un après l’autre. Exemple pour l’extraction de termes à partir du résumé. On parlera de web service synchrone.
Saisir cette URL https://terms-extraction.services.istex.fr/v1/tools/normalize et sélectionner la colonne dédiée au texte.
Sauvegarder et lancer le traitement
| café ! | ==> | CAFE |
| Côte d’Ivoire | ==> | COTE D IVOIRE |
| Le café (de l’arabe قهوة : qahwa, ‘boisson stimulante’) est une boisson énergisante psychotrope stimulante, obtenue à partir des graines torréfiées de diverses variétés de caféier, de l’arbuste caféier, du genre Coffea. | ==> | LE CAFE DE L ARABE قهوة QAHWA BOISSON STIMULANTE EST UNE BOISSON ENERGISANTE PSYCHOTROPE STIMULANTE OBTENUE A PARTIR DES GRAINES TORREFIEES DE DIVERSES VARIETES DE CAFEIER DE L ARBUSTE CAFEIER DU GENRE COFFEA |
Ce service peut servir dans Lodex à la génération de facettes en regroupant les valeurs des champs qui sont proches par leurs graphies.