Extraction de termes via Teeft (nombres compris)

Complexité d'utilisation :  Facile
Niveau de validation :  Expérimental

Extrait les termes les plus pertinents d’un texte en anglais ou en français, sans enlever les chiffres.

Le service web teeft/with-numbers applique l’algorithme teeft, qui extrait les termes les plus spécifiques d’un texte en anglais ou en français.
Il permet d’avoir une idée de ce dont parle le texte. Idéalement, le texte doit contenir plusieurs paragraphes.
La différence avec le service teeft classique, est qu’il peut fournir des termes contenant des chiffres (c’est important quand on a des formules chimiques, des grandeurs physiques, …).

Paramètres

NomDescription
nbNombre de termes à récupérer au maximum (de 1 à Infinity, 5 par défaut)
indenttrue ou false, indente le JSON résultat ou non (false par défaut)

Algorithme

Teeft commence par découper le texte en phrases, puis en tokens (des mots, typiquement).
Ensuite, il étiquette grammaticalement ces tokens (nom, adjectif, verbe, …).
Il fait de ces tokens des termes, en les sélectionnant selon leur étiquette, et en rassemblant ceux qui se suivent (dans le même groupe nominal).
On enlève les nombres (les termes exclusivement constitués de chiffres), les mots vides, les termes trop courts, les termes trop longs (plus de 50 caractères), les termes contenant moins de la moitié de caractères alphabétiques.
Puis on calcule une spécificité pour chaque terme, en se basant sur sa fréquence par rapport à sa fréquence d’apparition moyenne dans des textes génériques.
Enfin on filtre les termes pour ne garder que les plus spécifiques.

La particularité de ce Teeft c’est d’encoder les chiffres avant de commencer le traitement et de les décoder ensuite, ce qui évite que les filtres les éliminent.

Ainsi, un multiterme tel que « 5 MW » est représenté en « inffivesup MW » et parvient jusqu’au décodage final.

Qualité

Le service teeft classique est souvent utilisé, notamment pour enrichir les métadonnées de la base ISTEX.

Pour l’instant, nos tests sur des exemples en français se sont montrés décevants (avec la version 1.5.1).

Références bibliographiques
Exemple textuel du traitement
Le format d'entrée :
[
  {
    "id": "MPES-ERM_ER2023_000737",
    "value": "Flow control based 5 MW wind turbine enhanced energy production for hydrogen generation cost reduction"
  },
  {
    "id": "MPES-ERM_ER2023_001916",
    "value": "Study on the Motion Characteristics of 10 MW Superconducting Floating Offshore Wind Turbine Considering 2nd Order Wave Effect"
  }
]
Le résultat :
[
  {
    "id": "MPES-ERM_ER2023_000737",
    "value": [
      "flow control",
      "5 mw wind turbine",
      "energy production",
      "hydrogen generation cost"
    ]
  },
  {
    "id": "MPES-ERM_ER2023_001916",
    "value": [
      "motion characteristics",
      "10 mw",
      "offshore wind turbine",
      "2nd order wave"
    ]
  }
]