datatableExtract - Détection et extraction de tableaux dans un article scientifique

Malgré les contrôles qualité que nous effectuons avant de mettre nos web services en production, les outils d'IA peuvent commettre des erreurs. Nous vous recommandons de vérifier les informations importantes.

Niveau d'utilisation : Débutant

Niveau de validation : Expérimental

Objectif

Ce web service extrait les différents tableaux présents dans des documents au format PDF d’un corpus, et renvoie le résultat sous format json ou csv.

Méthode

L’extraction se fait principalement via tesseractOCR, implémenté via la bibliothèque python img2table.

Références

img2table : https://github.com/xavctn/img2table

Présent sur TDM Factory

LIEN VERS TDM FACTORY

Utilisation dans TDM Factory

Ce web service se lance sur un document au format PDF texte (Le PDF format image ne fonctionne pas).

Absent de Lodex

Variantes

Langues

Anglais (par défaut) : http://data-table.services.istex.fr/v1/table-extraction
Français : http://data-table.services.istex.fr/v1/table-extraction?lang=fra

Formats

Format ligne (par défaut) : http://data-table.services.istex.fr/v1/table-extraction
Autres formats : http://data-table.services.istex.fr/v1/table-extraction?format=dict

Plus d’informations sur les choix d’options disponibles sur https://github.com/Inist-CNRS/web-services/tree/main/services/data-table

Traitement

==>

Démonstration

Code source