Grobid - Extraction et structuration de publication scientifique au format PDF

Malgré les contrôles qualité que nous effectuons avant de mettre nos web services en production, les outils d'IA peuvent commettre des erreurs. Nous vous recommandons de vérifier les informations importantes.

Niveau d'utilisation :  Débutant
Niveau de validation :  Validé
Objectif

Ce service extrait le texte d’une publication scientifique au format PDF et le structure au format XML-TEI avec l’API de Grobid.

Méthode

Ce service utilise l’API de Grobid pour extraire et structurer un article scientifique au format PDF. GeneRation Of BIbliographic Data …. Cela signifie que toutes les informations contenues dans l’article (titre, résumé, auteurs, affiliations, texte plein, références bibliographiques, … etc) sont mises dans des balises correspondantes.

Références

Grobid (2008-2026), https://github.com/kermitt2/grobid

Ces web services qui peuvent vous intéresser

Extraction du texte à partir d'un PDF

Présent sur TDM Factory

Utilisation dans TDM Factory

Ce web service se lance uniquement sur un article au format PDF.

Absent de Lodex

Voici un exemple d’entrée, une publication scientifique au format PDF :

La sortie sera un fichier XML-TEI, structuré, qui ressemble à ceci :

En poursuivant votre navigation, sans modifier vos paramètres, vous acceptez l'utilisation et le dépôt de cookies destinés à mesurer la fréquentation du site grâce au logiciel Matomo.
OK
Modifier les paramètres