L’Inist-CNRS propose une série de services accessibles sur internet. Ces services tournent autour du TDM (Text and Data Mining, ou fouille de textes), de la terminologie ou de l’enrichissement de données.

Ils donnent accès à des traitements spécialisés, sans avoir à installer de programme spécifique (ni son environnement particulier, comme par exemple un langage de programmation et son gestionnaire de bibliothèques).

Cette facilité d’utilisation est liée au fait que les outils sont installés sur les serveurs de l’Inist.

Utilisation

Tous les services référencés sur le site ISTEX TDM peuvent s’utiliser de plusieurs manières, de la plus simple à la plus technique, suivant vos besoins et vos compétences :

avec Lodex

Ils sont tous compatibles avec l’outil Lodex, outil de visualisation en open source. Avec un simple copier-coller dans un formulaire dédié aux enrichissements, il est possible de traiter un corpus de documents ou l’ensemble des lignes d’un fichier tabulé.

avec IA Factory

IA Factory est une interface de chargement de corpus et d’exécution d’outils de TDM. Indépendante de Lodex, elle permet d’exploiter vos données en 3 étapes :

  • Téléchargez vos données et choisissez le format et le champ à traiter,
  • Choisissez le web service de TDM que vous voulez exécuter,
  • Remplissez votre adresse mail.

À l’issue du traitement vous recevrez un mail avec un lien de téléchargement du résultat.

par programme

Les web services sont tous compatibles avec la norme OpenAPI, il est donc possible de les utiliser avec tous les logiciels compatibles avec cette norme, mais également avec tous les langages informatiques qui permettent d’utiliser des API

POST https://terms-extraction.services.istex.fr/v1/teeft/en?indent=true HTTP/1.1
Content-Type: application/json
 
[
	{
		"value": "So far, the source of the heat lost from ...",
		"id": 1
	},
	{
		"value": "Systematic examination of all unusual ...",
		"id": 2
	}
]

Documentation

Le site ISTEX TDM propose une fiche descriptive avec un exemple d’utilisation pour chaque web service. Chaque web service dispose également d’une documentation technique compatible Swagger. Celle-ci permet de connaître les éventuels paramètres avancés pour chaque service mais elle permet surtout de tester rapidement chaque service, à partir d’un simple formulaire.

Code source

Les services sont proposés à travers une infrastructure technique, sans qu’il soit nécessaire de les installer localement. Néanmoins, l’Inist-CNRS propose un dépôt git qui permet de consulter les codes sources nécessaires à l’exécution des services sur son infrastructure : https://gitbucket.inist.fr/tdm/web-services. Vous retrouverez le lien direct vers le code dans chaque fiche de web service.

L’Inist-CNRS ne propose pas de support à l’installation des services, mais est ouvert à toutes les contributions.

 

Evaluation et métriques

Malgré les évaluations qualitatives que nous réalisons, les résultats retournés peuvent ne pas vous satisfaire. Plusieurs raisons sont envisageables :

  • la variante du web service retenue n’est pas la bonne : vérifier la langue traitée par le service et la langue de vos données.
  • les données fournies ne sont pas au bon format ou ne sont pas de qualité suffisante (GIGO : garbage in, garbage out).
  • le web service est perfectible : faites nous vos retours afin de l’améliorer.

Nous contacter