datatableExtract - Détection et extraction de tableaux dans un article scientifique

Niveau d'utilisation :  Débutant
Niveau de validation :  Expérimental
Objectif

Ce web service extrait les différents tableaux présents dans les pdf d’un corpus, et renvoie le résultat sous format json ou csv.

Méthode

L’extraction se fait principalement via tesseractOCR, implémenté via la bibliothèque python img2table.

Variantes

Langues

  • Anglais (par défaut) : http://data-table.services.istex.fr/v1/table-extraction
  • Français : http://data-table.services.istex.fr/v1/table-extraction?lang=fra

Formats

  • Format ligne (par défaut) : http://data-table.services.istex.fr/v1/table-extraction
  • Autres formats : http://data-table.services.istex.fr/v1/table-extraction?format=dict

Plus d’informations sur les choix d’options disponibles sur https://github.com/Inist-CNRS/web-services/tree/main/services/data-table

Références

img2table : https://github.com/xavctn/img2table

Présent sur TDM Factory
Traitement
==>
En poursuivant votre navigation, sans modifier vos paramètres, vous acceptez l'utilisation et le dépôt de cookies destinés à mesurer la fréquentation du site grâce au logiciel Matomo.
OK
Modifier les paramètres