datatableExtract - Détection et extraction de tableaux dans un article scientifique
Niveau d'utilisation :
Débutant
Niveau de validation :
Expérimental
Objectif
Ce web service extrait les différents tableaux présents dans les pdf d’un corpus, et renvoie le résultat sous format json ou csv.
Méthode
L’extraction se fait principalement via tesseractOCR, implémenté via la bibliothèque python img2table.
Variantes
Langues
- Anglais (par défaut) :
http://data-table.services.istex.fr/v1/table-extraction
- Français :
http://data-table.services.istex.fr/v1/table-extraction?lang=fra
Formats
- Format ligne (par défaut) :
http://data-table.services.istex.fr/v1/table-extraction
- Autres formats :
http://data-table.services.istex.fr/v1/table-extraction?format=dict
Plus d’informations sur les choix d’options disponibles sur https://github.com/Inist-CNRS/web-services/tree/main/services/data-table
Références
img2table : https://github.com/xavctn/img2table
Variantes enrichissement
Web service inaccessible depuis Lodex
Présent sur TDM Factory