textExtract - Extraction du texte à partir d’un PDF

Malgré les contrôles qualité que nous effectuons avant de mettre nos web services en production, les outils d'IA peuvent commettre des erreurs. Nous vous recommandons de vérifier les informations importantes.

Niveau d'utilisation : Débutant

Niveau de validation : Expérimental

Objectif

Ce web service transforme un PDF en texte en excluant les éléments qui perturberaient un traitement de fouille de textes ultérieur.

Le PDF ne doit pas être un PDF image.

Méthode

A partir d’un PDF texte, on extrait le texte brut en excluant la partie “références bibliographiques”, les figures et tableaux ainsi que leur légende. Les pieds et hauts de pages sont également ôtés. Les auteurs et leurs affiliations sont enlevés dans la mesure du possible.

Le texte généré est plus adapté aux traitements de TAL ou d’apprentissage automatique.

Les PDF peuvent être de formats variés, et cela peut impacter la qualité du résultat.

Il ne s’agit en aucun cas d’un programme d’OCRisation, le PDF ne doit pas être une image.

Attention ce service prend en entrée l’url d’un PDF. La langue du document n’a pas d’importance si le texte est en alphabet latin.

Métriques

Le programme est en test.

Ces web services qui peuvent vous intéresser

Normalisation d'un texte ou d'un terme

Présent sur TDM Factory

LIEN VERS TDM FACTORY

Utilisation dans TDM Factory

Ce web service se lance sur un document au format PDF texte (le format PDF image ne fonctionne pas).

Présent sur Lodex

LIEN VERS LA DOCUMENTATION LODEX

Utilisation dans Lodex

Sélectionnez le web service dans le catalogue :

Enrichissement : le web service traite chaque document l’un après l’autre. Exemple pour l’extraction de termes à partir du résumé. On parlera de web service synchrone.

Saisir cette URL https://pdf-text.services.istex.fr/v1/pdf2txt et sélectionner la colonne dédiée à l’URL du PDF.
Sauvegarder et lancer le traitement

Traitement

https://hal.science/hal-01990444v1/file/EGC_2019.pdf

==>

LODEX : des données structurées au web sémantique Stéphanie Collignon Parmentier , Nicolas Thouvenin Inist-CNRS, 2, Allée du Parc de Brabois, CS 10310, 54519 Vandœuvre-lès-Nancy prenom.nom@inist.fr est un logiciel open source dédié à la valorisation de données structurées. Il facilite la curation et la sémantisation de données brutes pour les connecter au web de données via les normes et les standards du web sémantique…

Démonstration

Code source

Vous avez des documents PDF texte (et non pas un PDF image) et vous souhaitez en extraire le texte uniquement pour pouvoir ensuite le traiter ?

En lançant textExtract sur vos données comportant l’url du document, depuis Lodex, logiciel libre de visualisation, vous obtiendrez la version textuelle du document (sans images, ni tableaux, ni les éléments de la bibliographie). A partir du résultat obtenu, vous pourrez lancer différents web services.