datatableExtract - Détection et extraction de tableaux dans un article scientifique

Malgré les contrôles qualité que nous effectuons avant de mettre nos web services en production, les outils d'IA peuvent commettre des erreurs. Nous vous recommandons de vérifier les informations importantes.

Niveau d'utilisation :  Débutant
Niveau de validation :  Expérimental
Objectif

Ce web service extrait les différents tableaux présents dans des documents au format PDF d’un corpus, et renvoie le résultat sous format json ou csv.

Méthode

L’extraction se fait principalement via tesseractOCR, implémenté via la bibliothèque python img2table.

Variantes

Langues

  • Anglais (par défaut) : http://data-table.services.istex.fr/v1/table-extraction
  • Français : http://data-table.services.istex.fr/v1/table-extraction?lang=fra

Formats

  • Format ligne (par défaut) : http://data-table.services.istex.fr/v1/table-extraction
  • Autres formats : http://data-table.services.istex.fr/v1/table-extraction?format=dict

Plus d’informations sur les choix d’options disponibles sur https://github.com/Inist-CNRS/web-services/tree/main/services/data-table

Références

img2table : https://github.com/xavctn/img2table

Présent sur TDM Factory

Utilisation dans TDM Factory

Ce web service se lance sur un document au format PDF texte (Le PDF format image ne fonctionne pas).

Absent de Lodex
Traitement
==>
En poursuivant votre navigation, sans modifier vos paramètres, vous acceptez l'utilisation et le dépôt de cookies destinés à mesurer la fréquentation du site grâce au logiciel Matomo.
OK
Modifier les paramètres