textSummarize - Résumé automatique d’un article scientifique
Ce web service permet de résumer un texte scientifique.
Pour le résumé de textes scientifiques en anglais.
Après comparaison de plusieurs méthodes présentes dans l’état de l’art, nous mettons à disposition le modèle Bart-large-CNN, obtenu après fine-tuning du modèle Bart-large sur le jeu de données CNN-dailymail. Plusieurs modèles ont été testés sur le dataset scisumm (corpus d’articles scientifiques et de leur résumé). Le modèle ayant obtenu les meilleurs résultats génère le résumé à partir des 1000 premiers tokens du texte initial.
Les résultats du web service textSummarize sur le jeu de données dataset scisumm sont les suivants:
– BERT score (F1) : 0.87
– ROUGE-1 score : 0.48
– ROUGE-2 score : 0.28
– ROUGE-3 score : 0.23
– ROUGE-L score : 0.34
Si le résumé est présent dans l’article scientifique, les résultats sont encore meilleurs :
– BERT score (F1) : 0.88
– ROUGE-1 score : 0.56
– ROUGE-2 score : 0.41
– ROUGE-3 score : 0.37
– ROUGE-L score : 0.46
Le modèle multilingue n’a pas été testé sur un corpus comportant des textes de langues différentes. On peut s’attendre à des résultats légèrement inférieurs. Les résultats affichés par les auteurs du modèle sont disponibles dans la publication associée.
Pour le résumé de textes scientifiques en anglais.
l’URL à utiliser dans Lodex est la suivante : https://text-summarize.services.istex.fr/v1/en
Le traitement des textes anglais via cette variante est deux à trois fois plus rapide. Elle est conseillée lorsque la majorité des articles sont en anglais.
Modèles et jeux de données
Modèle anglais : https://arxiv.org/abs/1910.13461
Modèle multilingue : mBart-50-large, https://arxiv.org/abs/2008.00401
Jeu de données de validation – scisumm : https://arxiv.org/abs/1909.01716v3
Jeu de données pour le fine-tuning du modèle anglais – CNN-dailymail : https://arxiv.org/abs/1602.06023v5
Références bibliographiques
[1] A. R. Fabbri, W. Kryściński, B. McCann, C. Xiong, R. Socher, et D. Radev, « SummEval: Re-evaluating Summarization Evaluation », Transactions of the Association for Computational Linguistics, vol. 9, p. 391‑409, avr. 2021, doi: 10.1162/tacl_a_00373.
[2] P. Cuxac, J.-C. Lamirel, et N. Kieffer, « SKEEFT : indexing method taking into account the structure of the document », in 15th International Conference on Webometrics, Informetrics and Scientometrics and 20th COLLNET meeting, Dalian, China, nov. 2019. Consulté le: 14 janvier 2025. [En ligne]. Disponible sur: https://inria.hal.science/hal-03179724
[3] Y. Liu et al., « Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation », 6 juin 2023, arXiv: arXiv:2212.07981. doi: 10.48550/arXiv.2212.07981.
[4] R. Said et A. Guille, « Résumé interactif de documents », in 24ème Conférence sur l’Extraction et la Gestion des Connaissances (EGC), Dijon, France, janv. 2024. Consulté le: 7 février 2025. [En ligne]. Disponible sur: https://hal.science/hal-04448464
[5] M. Ortega et al., « REDIRE : Réduction Extrême de DImension pour le Résumé Extractif – Editions RNTI ». Consulté le: 7 février 2025. [En ligne]. Disponible sur: https://editions-rnti.fr/?inprocid=1002916
[6] M. Ciancone, I. Kerboua, M. Schaeffer, et W. Siblini, « MTEB-French: Resources for French Sentence Embedding Evaluation and Analysis », 17 juin 2024, arXiv: arXiv:2405.20468. doi: 10.48550/arXiv.2405.20468.
[7] M. Guo et al., « LongT5: Efficient Text-To-Text Transformer for Long Sequences », 3 mai 2022, arXiv: arXiv:2112.07916. doi: 10.48550/arXiv.2112.07916.
[8] L. C. M. team et al., « Large Concept Models: Language Modeling in a Sentence Representation Space », 15 décembre 2024, arXiv: arXiv:2412.08821. doi: 10.48550/arXiv.2412.08821.
[9] D. Yadav, R. Katna, A. K. Yadav, et J. Morato, « Feature Based Automatic Text Summarization Methods: A Comprehensive State-of-the-Art Survey », IEEE Access, vol. 10, p. 133981‑134003, 2022, doi: 10.1109/ACCESS.2022.3231016.
[10] M. Lewis et al., « BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension », 29 octobre 2019, arXiv: arXiv:1910.13461. doi: 10.48550/arXiv.1910.13461.
[11] S. Nair, Y. S. Rao, et R. Shankarmani, « Assessment of Transformer-Based Encoder-Decoder Model for Human-Like Summarization », 22 octobre 2024, arXiv: arXiv:2410.16842. doi: 10.48550/arXiv.2410.16842.
Introduction In bibliographic databases, affiliations of authors are of paramount importance. Hence, they permit to the laboratories or institutes to get national and even international visibility, as well as they consequently provide authors with scientific caution. We cannot discuss the issue of affiliations without talking of ”Shanghai ranking” which aims at evaluating universities. Our purpose here is not to feed up the controversy (Van Raan 2005) (Liu, Cheng and Liu 2005), but to point out that the management of affiliation plays an important role in the calculation of universities ”performance”. Moed (Moed 2005) reports some problems with author’s names and also institutions: ”Authors from the same institution, or even from the same department, may not indicate their institutional affiliations in the same way”. Depending on the country, it is not always clear how to name a laboratory with respect to its supervisory authorities. … (Efficient supervised and semi-supervised approaches for affiliations disambiguation, Pascal Cuxac, Jean-Charles Lamirel, Valérie Bonvallot) | ==> | In bibliographic databases, affiliations of authors are of paramount importance. The affiliation is also important information to disambiguate author names in databases. As the amount of available information increases, problem caused by misspelling, spelling difference, and name or affiliation change also become worse. This paper proposes an approach based on Bayes learning method and overlapping clustering. It is structured as follows: section 1 summarizes related works, section 2 summarizes identifies problems, section 3 describes supervised learning method, and section 4 reports experiments. Section 5 concludes and discusses future work. |