textExtract - Extraction du texte à partir d’un PDF

Niveau d'utilisation :  Débutant
Niveau de validation :  Expérimental
Objectif

Ce web service transforme un PDF en texte en excluant les éléments qui perturberaient un traitement de fouille de texte ultérieur.

Le PDF ne doit pas être un PDF image.

Méthode

A partir d’un PDF texte, on extrait le texte brut en excluant la partie “références bibliographiques”, les figures et tableaux ainsi que leur légende. Les pieds et hauts de pages sont également ôtés. Les auteurs et leurs affiliations sont enlevés dans la mesure du possible.

Le texte généré est plus adapté aux traitements de TAL ou d’apprentissage automatique.

Les PDF peuvent être de formats variés, et cela peut impacter la qualité du résultat.

Il ne s’agit en aucun cas d’un programme d’OCRisation, le PDF ne doit pas être une image.

Attention ce service prend en entrée l’url d’un PDF. La langue du document n’a pas d’importance si le texte est en alphabet latin.

 

Métriques

Le programme est en test.

Ces web services qui peuvent vous intéresser

Normalisation d’un texte ou d’un terme

Traitement
https://hal.science/hal-01990444v1/file/EGC_2019.pdf ==> LODEX : des données structurées au web sémantique Stéphanie Collignon Parmentier , Nicolas Thouvenin Inist-CNRS, 2, Allée du Parc de Brabois, CS 10310, 54519 Vandœuvre-lès-Nancy prenom.nom@inist.fr est un logiciel open source dédié à la valorisation de données structurées. Il facilite la curation et la sémantisation de données brutes pour les connecter au web de données via les normes et les standards du web sémantique…

Vous avez des documents PDF texte (et non pas un PDF image) et vous souhaitez en extraire le texte uniquement pour pouvoir ensuite le traiter ?

En lançant textExtract sur vos données comportant l’url du document, depuis Lodex, logiciel libre de visualisation, vous obtiendrez la version textuelle du document (sans images, ni tableaux, ni les éléments de la bibliographie). A partir du résultat obtenu, vous pourrez lancer différents web services.

En poursuivant votre navigation, sans modifier vos paramètres, vous acceptez l'utilisation et le dépôt de cookies destinés à mesurer la fréquentation du site grâce au logiciel Matomo.
OK
Modifier les paramètres