TAM (Tortured Abbreviations Miner) - Extraction d’abréviations torturées
Ce service permet l’extraction et la classification d’abréviations (i.e. “légitime” ou “à vérifier”) depuis du contenu textuel en anglais. Une abréviation torturée [2] correspond à la déformation d’un concept scientifique fortement établi dans une ou plusieurs disciplines (e.g. “convolutional brain organization (CNN)” au lieu de “convolutional neural network (CNN)” en informatique). Il s’agit généralement d’une abréviation qui ne correspond pas à sa définition et qui n’a pas de sens, résultant de l’utilisation d’outils de paraphrasage à des fins de dissimulation de plagiat [4]. Ce concept est une extension de la notion d’expression torturée [1] (e.g. “bosom peril” au lieu de “breast cancer” en médecine).
Ce service a été développé par l’Université de Toulouse au sein du projet européen NanoBubbles. Le projet a reçu une subvention Synergy du Conseil Européen de la Recherche (CER), dans le cadre du programme Horizon 2020 de l’Union Européenne, convention de subvention n° 951393.
Ce service utilise une expression régulière pour l’extraction des abréviations contenues dans du texte (i.e. du texte entre parenthèses, non séparé par des espaces), ainsi qu’un modèle de langue pré-entrainé sur un corpus d’abréviations préalablement annoté [3] pour la classification des abréviations extraites.
Pour information, une première version de ce service utilisait un moteur de filtrage basé sur des règles syntaxiques [3] plutôt que l’utilisation d’un modèle de langue.
Nous avons évalué ses performances avec les mesures suivantes :
| Extraction d’abréviations | Classification d’abréviations | Extraction d’abréviations et classification en “to be checked” | ||
| Rappel | 0,90 | 0,77 | 0,72 | |
| Précision | 0,90 | 0,64 | 0,53 | |
| F-mesure binaire | 0,90 | 0,70 | 0,61 | |
| F-mesure micro | 0,82 | 0,86 | 0,44 | |
| F-mesure macro | 0,45 | 0,80 | 0,30 | |
| F-mesure pondérée | 0,81 | 0,86 | 0,37 |
Ce service a été développé par l’Université de Toulouse au sein du projet européen NanoBubbles. Le projet a reçu une subvention Synergy du Conseil Européen de la Recherche (CER), dans le cadre du programme Horizon 2020 de l’Union Européenne, convention de subvention n° 951393.
[1] Guillaume Cabanac, Cyril Labbé, Alexander Magazinov. 2021. Tortured phrases: A dubious writing style emerging in science. Evidence of critical issues affecting established journals. Prépublication arXiv : https://arxiv.org/abs/2107.06751
[2] Alexandre Clausse, Guillaume Cabanac, Pascal Cuxac, Cyril Labbé. 2023. Mining tortured abbreviations from the scientific literature. 8th World Conference on Research Integrity (WCRI’24), Athènes, Grèce: https://hal.science/hal-04311600
[3] Alexandre Clausse, Guillaume Cabanac, Pascal Cuxac, Cyril Labbé. 2024. Mining tortured abbreviations from the scientific literature [Data set]. Zenodo: https://zenodo.org/records/14002956.
[4] Cathleen O’Grady. 2024. Software that detects ‘tortured acronyms’ in research papers could help root out misconduct. Science : doi.org/10.1126/science.znqe1aq.
Utilisation dans TDM Factory
Ce web service se lance sur :
- un document en anglais au format PDF texte en anglais (le format PDF image ne fonctionne pas)
- un document en anglais au format txt avec un encodage UTF8
Utilisation dans Lodex
Sélectionnez le web service dans le catalogue :
Enrichissement : le web service traite chaque document l’un après l’autre. Exemple pour l’extraction de termes à partir du résumé. On parlera de web service synchrone.
Saisir cette URL https://tabbr-mine.services.istex.fr/v1/mine et sélectionner la colonne dédiée au texte en anglais.
Sauvegarder et lancer le traitement
"convolutional neural network (CNN)" ⇒"genuine"
"convolutional brain organization (cnn)" ⇒"to be checked"