tabbrMine - Service d’extraction d’abréviations torturées

Niveau d'utilisation :  Débutant
Niveau de validation :  Expérimental
Objectif

Ce service permet l’extraction et la classifications d’abréviations (i.e. “légitime” ou “torturée”) depuis du contenu textuel en anglais. Une abréviation torturée [2] correspond à la déformation d’un concept scientifique fortement établi dans une ou plusieurs disciplines (e.g. “convolutional brain organization (CNN)” au lieu de “convolutional neural network (CNN)” en informatique). Il s’agit généralement d’une abréviation qui ne correspond pas à sa définition et qui n’a pas de sens, résultant de l’utilisation d’outils de paraphrasage à des fins de dissimulation de plagiat [4]. Ce concept est une extension de la notion d’expression torturée [1] (e.g. “bosom peril” au lieu de “breast cancer” en médecine).

 

Notez qu’il s’agit d’un service expérimental pour lequel les performances nécessitent une amélioration, il se peut que les résultats renvoyés soient erronés.

Méthode

Ce service utilise une expression régulière pour l’extraction des abréviations contenues dans du texte (i.e. du texte entre parenthèses, non séparé par des espaces), ainsi qu’un modèle de langue pré-entrainé sur un corpus d’abréviations préalablement annoté [3] pour la classification des abréviations extraites.

Métriques

Nous avons évalué ses performances avec les mesures suivantes :

Extraction d’abréviations Classification d’abréviations Extraction d’abréviations et classification en “torturée”
Rappel 0,90 0,77 0,72
Précision 0,90 0,64 0,53
F-mesure binaire 0,90 0,70 0,61
F-mesure micro 0,82 0,86 0,44
F-mesure macro 0,45 0,80 0,30
F-mesure pondérée 0,81 0,86 0,37
Variantes

Une première version de ce service utilisait un moteur de filtrage basé sur des règles syntaxiques [3] plutôt que l’utilisation d’un modèle de langue.

Références

Ce service a été développé par l’Université de Toulouse au sein du projet européen NanoBubbles. Le projet a reçu une subvention Synergy du Conseil Européen de la Recherche (CER), dans le cadre du programme Horizon 2020 de l’Union Européenne, convention de subvention n° 951393.

 

[1] Guillaume Cabanac, Cyril Labbé,  Alexander Magazinov. 2021. Tortured phrases: A dubious writing style emerging in science. Evidence of critical issues affecting established journals. Prépublication arXiv : https://arxiv.org/abs/2107.06751

[2] Alexandre Clausse, Guillaume Cabanac, Pascal Cuxac, Cyril Labbé. 2023. Mining tortured abbreviations from the scientific literature. 8th World Conference on Research Integrity (WCRI’24), Athènes, Grèce: https://hal.science/hal-04311600

[3] Alexandre Clausse, Guillaume Cabanac, Pascal Cuxac, Cyril Labbé. 2024. Mining tortured abbreviations from the scientific literature [Data set]. Zenodo: https://zenodo.org/records/14002956.

[4] Cathleen O’Grady. 2024. Software that detects ‘tortured acronyms’ in research papers could help root out misconduct. Science : doi.org/10.1126/science.znqe1aq.

Présent sur TDM Factory
Traitement
"convolutional neural network (CNN)" ⇒"genuine"
"convolutional brain organization (cnn)" ⇒"tortured"

Dans le cas d'une utilisation dans TDM Factory :
vous pouvez déposer un pdf en entrée (cela ne doit pas être un pdf image), vous aurez un csv en sortie
En poursuivant votre navigation, sans modifier vos paramètres, vous acceptez l'utilisation et le dépôt de cookies destinés à mesurer la fréquentation du site grâce au logiciel Matomo.
OK
Modifier les paramètres