Nouveau service d’indexation Teeft prenant en compte les nombres

Pour extraire des termes qui contiennent des nombres, on ne peut pas se contenter du service web classique Teeft, qui supprime les nombres des candidats termes.
C’est parce que Teeft est fait pour s’appliquer au texte intégral d’un article scientifique.
Or, quand ce texte est issu d’un océrisation, ce texte contient aussi les numéros de page, de section, de figures, le contenu numérique d’éventuels tableaux… qui viennent polluer les termes pertinents.
Donc, Teeft écarte ces termes numériques.

Mais quand on veut pouvoir récupérer des termes formés de plusieurs mots comme « 5 MW », « 2nd Order Wave Effect », ou d’un seul comme « H2 », en particulier depuis des textes courts, sans nombres polluants (c’est le cas quand on se contente d’un titre et d’un résumé) ce comportement n’est pas adapté.

C’est pourquoi nous avons ajouté un nouveau service web, appelé teeft/with-numbers, qui utilise exactement le même algorithme, mais en protégeant préalablement les chiffres.

Pour plus de détails, voir la fiche de ce nouveau service web: https://services.istex.fr/2023/06/30/extraction-de-termes-via-teeft-nombres-compris/.