textExtract - Extraction du texte à partir d’un PDF
Ce web service transforme un PDF en texte en excluant les éléments qui perturberaient un traitement de fouille de texte ultérieur.
Le PDF ne doit pas être un PDF image.
A partir d’un PDF texte, on extrait le texte brut en excluant la partie “références bibliographiques”, les figures et tableaux ainsi que leur légende. Les pieds et hauts de pages sont également ôtés. Les auteurs et leurs affiliations sont enlevés dans la mesure du possible.
Le texte généré est plus adapté aux traitements de TAL ou d’apprentissage automatique.
Les PDF peuvent être de formats variés, et cela peut impacter la qualité du résultat.
Il ne s’agit en aucun cas d’un programme d’OCRisation, le PDF ne doit pas être une image.
Attention ce service prend en entrée l’url d’un PDF. La langue du document n’a pas d’importance si le texte est en alphabet latin.
Le programme est en test.
https://hal.science/hal-01990444v1/file/EGC_2019.pdf | ==> | LODEX : des données structurées au web sémantique Stéphanie Collignon Parmentier , Nicolas Thouvenin Inist-CNRS, 2, Allée du Parc de Brabois, CS 10310, 54519 Vandœuvre-lès-Nancy prenom.nom@inist.fr est un logiciel open source dédié à la valorisation de données structurées. Il facilite la curation et la sémantisation de données brutes pour les connecter au web de données via les normes et les standards du web sémantique… |
Vous avez des documents PDF texte (et non pas un PDF image) et vous souhaitez en extraire le texte uniquement pour pouvoir ensuite le traiter ?
En lançant textExtract sur vos données comportant l’url du document, depuis Lodex, logiciel libre de visualisation, vous obtiendrez la version textuelle du document (sans images, ni tableaux, ni les éléments de la bibliographie). A partir du résultat obtenu, vous pourrez lancer différents web services.