Technique

Rapports publics du projet Visa TM

Publié lecalendar

Nous vous invitons à découvrir les résultats du projet et mettons à votre disposition en consultation et en téléchargement  les documents ci-dessous . Les principaux résultats de Visa TM portent sur :  l’étude de la création d’une e-infrastructure de fouille de textes française en exposant ses besoins, ses acteurs, son… Lire plus

Sélection d’un corpus “géosciences” dans ISTEX

Publié lecalendar

Ce travail a été mené dans le cadre du volet "application pilote" du projet Visa TM, qui vise à illustrer la facilité de déploiement du service et la qualité des résultats obtenus en réponse à quelques besoins identifiés. L'application pilote développée à l'Inist est intitulée "Fouille et exploration de données pour la constitution d’un corpus documenté". Elle repose sur l'analyse d'un corpus d'articles scientifiques en texte intégral issu du réservoir ISTEX. Après analyse du paysage scientifique local et de la couverture d'ISTEX, c'est le domaine des "géosciences" qui a été choisi en tant que domaine-test pour cette application pilote. Cet article décrit la première étape du processus, qui a consisté à obtenir un corpus exploitable et représentatif du domaine. La démarche décrite ici pourrait être reproduite pour d'autres domaines, en se fondant sur les classifications présentes dans ISTEX. Lire plus

Visa TM en vidéo

Publié lecalendar

Vers une infrastructure de services avancés en Text Mining   /wp-content/uploads/2019/09/1568875574.mp4… Lire plus

Le projet Visa TM

Publié lecalendar

Objectifs / Composantes du projet / Organisation du projet Objectifs du projet L’objectif du projet Visa TM est de décrire une infrastructure capable de rendre la fouille de texte accessible à tous, en offrant des services à même de contribuer à un effet catalyseur de la science :… Lire plus

Extraction de cluster d’un corpus

Publié lecalendar

Ce web service traite non plus du texte mais des corpus de textes en anglais. En effet, le résultat obtenu pour chacun des documents dépend des autres. L’algorithme permet d’extraire plusieurs groupes (clusters) d’un corpus afin d’y classer les différents textes en fonction de leur similarité. Un document est présent… Lire plus

Extraction du texte à partir d’un PDF

Publié lecalendar

Ce web service transforme un PDF en texte en excluant les éléments qui perturberaient un traitement de fouille de texte ultérieur. Le PDF ne doit pas être un PDF image. Lire plus

Extraction de quantités

Publié lecalendar

Ce web service extrait des quantités (ex: 5 kg, 6 weeks…)  dans un texte en anglais. Lire plus

Extraction de termes d’un corpus

Publié lecalendar

Ce web service s’appuie sur l’outil TermSuite pour faire une extraction terminologique à partir d’un corpus de textes en anglais ou en français. La liste des 500 termes extraits par défaut contient les termes les plus spécifiques au corpus correspondant à tous les fichiers textes. Cela permet… Lire plus

Contrôle de référence bibliographique

Publié lecalendar

Ce web service contrôle une référence bibliographique donnée, en vérifiant sa présence dans Crossref tout en s’assurant que l’article associé n’est pas rétracté. Lire plus

Détection du pays d’une affiliation

Publié lecalendar

Ce web service détecte le pays d’origine d’une affiliation-adresse, qu’il soit présent ou absent dans celle-ci, quelle que soit la langue de l’adresse, à condition qu’elle soit dans un alphabet latin. Le nom du pays retourné est en anglais.  … Lire plus

Extraction de financeurs dans un article

Publié lecalendar

Ce web service détecte des financeurs dans un article en anglais et renvoie la liste des financeurs repérés. Lire plus

Extraction d’entités nommées en chimie

Publié lecalendar

Ce web service détecte, dans un texte en anglais, les entités nommées en chimie et les désambiguïse. Lire plus

Extraction d’entités nommées de maladies

Publié lecalendar

Ce web service détecte des entités nommées de maladies sur des textes en anglais. Lire plus

Extraction de thématiques d’un corpus

Publié lecalendar

Ce web service traite non plus du texte mais des corpus de textes en anglais. En effet, le résultat obtenu pour chacun des documents dépend des autres. Il extrait des thématiques d’un corpus : une thématique (ou topic) est caractérisée par dix mots. Une fois les thématiques extraites, chaque document… Lire plus

Extraction d’entités nommées en astronomie

Publié lecalendar

Ce web service détecte des entités nommées en astronomie sur des textes en anglais et les répartit parmi les 16 classes suivantes : Amas stellaires Astéroïdes Constellations Étoiles Étoiles binaires (et pulsars) Exoplanètes Galaxies et amas de galaxies Nébuleuses et régions apparentées Objets artificiels Planètes Satellites naturels Statut… Lire plus

Désambiguïsation d’auteurs via ORCID

Publié lecalendar

Ce web service retrouve un auteur à partir d’un certain nombre d’éléments connus le concernant, comme les nom et prénom, des titres de publications, ou encore des co-auteurs. Cette désambiguïsation se fait en utilisant les ressources à disposition sur le site d’ORCID. Ce service fonctionne quelle que soit la… Lire plus

Détection du statut d’une affiliation

Publié lecalendar

Ce web service renvoie, pour chaque affiliation d’auteurs du WOS ou de Scopus, l’information d’appartenance au secteur privé ou public. Lire plus

Nouveau service d’indexation Teeft prenant en compte les nombres

Publié lecalendar

Pour extraire des termes qui contiennent des nombres, on ne peut pas se contenter du service web classique Teeft, qui supprime les nombres des candidats termes. C’est parce que Teeft est fait pour s’appliquer au texte intégral d’un article scientifique. Or, quand ce texte est issu d’un… Lire plus

Comment pré-traiter ses données pour utiliser le WS de détection de genre

Publié lecalendar

Le Web Service de détection de genre prend en entrée deux formats très spécifiques : “prénom”, “prénom nom” ou “prénom, nom”. Dans cet article, nous allons montrer comment utiliser les recettes de Lodex pour utiliser le WS avec des données diverses issues de CorHal, Istex ou encore le… Lire plus

L’Inist accompagne les doctorants de Panthéon Sorbonne vers le TDM

Publié lecalendar

“Découvrir la fouille de textes à partir des ressources Istex”, c’était ce matin et en visio. Dans le cadre des Cycl@doc, des formations dédiées aux doctorants organisées par le Service Commun de Documentation de l’Université Paris 1 Panthéon Sorbonne, les équipes Istex Corpus et TDM de l’Inist ont… Lire plus

Détection du genre de l’auteur

Publié lecalendar

Ce web service retourne le genre d’un auteur ou d’une autrice à partir d’un prénom. Lire plus

Webinaire “Découverte du TDM” jeudi 8 juin 10h30 à 12h30

Publié lecalendar

Vous avez entendu parler du TDM (Text et data Mining) mais vous vous interrogez sur les principes et le fonctionnement, vous souhaitez avoir une approche des enjeux de ces techniques ou encore vous avez besoin de consolider les aspects éthiques et juridiques, alors n’hésitez pas à vous joindre à ce… Lire plus

Attribution d’identifiant(s) RNSR à une adresse (Apprentissage)

Publié lecalendar

Ce web service attribue un ou plusieurs identifiant(s) RNSR à partir d’une adresse d’affiliation d’auteur en langue française. Lire plus

Lemmatisation de termes anglais

Publié lecalendar

Ce web service lemmatise des termes dans des textes en anglais. Lire plus

Homogénéisation des affiliations hospitalières

Publié lecalendar

Ce web service a pour fonction d’homogénéiser les adresses d’affiliations hospitalières en identifiant l’hôpital ou la structure à laquelle l’affiliation est rattachée. Cette homogénéisation est réalisée à l’aide d’une table de correspondance et de la bibliothèque python fuzzywuzzy. La bibliothèque fuzzywuzzy utilise la distance de Levenshtein. Cette distance… Lire plus

Extraction de noms d’espèces

Publié lecalendar

Ce service web détecte dans un texte les noms scientifiques d’espèces animales, végétales (ainsi que les virus, bactéries, champignons, chromistes, protistes, etc.). Ce service fonctionne quelle que soit la langue à condition qu’elle soit dans un alphabet latin. Lire plus

ANF TDM 2022 “Exploration documentaire et extraction d’information” 3 au 5 octobre 2022 Délégation Paris-Michel Ange du CNRS

Publié lecalendar

Organisée par le CNRS et l’INRAE, cette formation s’adressait aux chercheurs et chercheuses, doctorant(e)s et ingénieur(e)s d’appui à la recherche souhaitant se former aux techniques numériques pour mettre en place ou développer la recherche d’information et la fouille de textes dans leur activité professionnelle. Le service Text et… Lire plus

Identification des laboratoires IN2P3

Publié lecalendar

Le web service permet d’attribuer le nom d’un des laboratoires IN2P3 à partir des codes laboratoires IN2P3, issus de la base INSPIRE_Hep signalés dans une table d’équivalence. Ce web-service est spécifique pour les besoins de l’IN2P3. NB : Il s’agit d’un web service d’alignement de valeurs, à partir d’une… Lire plus

Regroupement des catégories Inspire en méta-catégories IN2P3

Publié lecalendar

Le web service permet d’homogénéiser les catégories Inspire, issues de la base INSPIRE_Hep et de les regrouper en méta-catégories propres à l’IN2P3. Ce web-service est spécifique pour les besoins de l’IN2P3. NB : Il s’agit d’un web service d’alignement de valeurs, à partir d’une table d’équivalence créée en amont. Lire plus

Utilisation des Web Services en dehors de Lodex

Publié lecalendar

Avant-propos Dans cet article sur l’utilisation des web services en dehors de lodex, nous allons présenter Hoppscotch et data.page, tous deux utilisables via votre navigateur. Les fichiers que vous choisissez sont ainsi envoyés dans leurs serveurs pour être traités. Comment utiliser un web service ? Il y a plusieurs… Lire plus

Détection d’unités CNRS

Publié lecalendar

Ce web service détecte un code unité du CNRS dans une affiliation-adresse et lui associe des informations. Ce service fonctionne quelle que soit la langue à condition qu’elle soit dans un alphabet latin.  … Lire plus

Enrichissement Teeft dans LODEX

Publié lecalendar

Dans LODEX, les enrichissements sont par défaut en mode simple, et n’ont que peu de paramètres. Une manière d’accéder à plus de paramètres est de passer en mode avancé. On se trouve alors face à un script modifiable. Ce script pouvant être un peu… Lire plus

La fouille de textes par l’exemple : du corpus à la représentation des résultats en passant par les outils – rectificatif

Publié lecalendar

Diverses raisons nous ont contraint, en accord avec l’Enssib, à reporter notre formation initialement prévue fin septembre au mardi 29 novembre 2022. Les lieux et horaires ainsi que le programme restent inchangés. Vous avez donc encore un peu de temps supplémentaire pour vous inscrire et si vous évoluez… Lire plus

WS domains-classifier : cascade de modèles pour l’affectation de domaine(s) scientifique(s) aux publications scientifiques

Publié lecalendar

L’attribution de domaine(s) scientifique(s) est une activité nécessaire à la caractérisation et donc à l’identification des contenus des bibliothèques numériques. Les méthodes actuelles basées sur l’apprentissage supervisé permettent de tirer parti de fonds documentaires pour lesquels il existe des données enrichies. … Lire plus

Enrichissement RNSR dans LODEX

Publié lecalendar

Mode simple insuffisant Utiliser un service web dans LODEX pour enrichir les données est, la plupart du temps, très simple: on crée un enrichissement, on lui donne un nom (qui sera le nom de la colonne créée), on donne l’URL du service à utiliser, on sélectionne la colonne (le… Lire plus

La fouille de textes par l’exemple : du corpus à la représentation des résultats en passant par les outils

Publié lecalendar

Pour la 3e fois consécutive, l’Enssib a sollicité l’INIST-CNRS pour prendre en charge la responsabilité scientifique et l’animation d’une formation intitulée : « La fouille de textes par l’exemple : du corpus à la représentation des résultats en passant par les outils ». Cette formation se déroule sur… Lire plus

Détection d’entités nommées dans les bulletins administratifs de l’instruction publique – Persée

Publié lecalendar

Ce web service détecte des entités nommées spécifiques dans les bulletins administratifs de l’instruction publique (BAIP), Persée. Il prend en entrée un BAIP sous forme de texte et renvoie un dictionnaire contenant les organismes scolaires, localisations et opérations trouvés dans le champ. L’algorithme ayant été entraîné sur des bulletins issus… Lire plus

Attribution de noms d’instituts CNRS à partir d’identifiants RNSR

Publié lecalendar

Le web service attribue, à partir d’un identifiant RNSR, un institut CNRS, dans lequel se trouve une structure de recherche française. Ressource : Une table d’équivalence est créée en amont. Si la valeur n’est pas reconnue, le web service renverra la valeur nulle de type “n/a”. Rappel: le RNSR,… Lire plus

Homogénéisation des sources (revues, ouvrages, congrès)

Publié lecalendar

Le web service permet d’homogénéiser les formes d’écriture des valeurs “sources” dans une notice bibliographique, issues de la base CONDITOR (données provenant de HAL, Crossref, Pubmed), à partir de valeurs “sources” issues du Web of Science (sur l’année 2019). Une source peut être le… Lire plus

Homogénéisation des éditeurs

Publié lecalendar

Le web service permet d’homogénéiser les formes d’écriture des valeurs “éditeurs” dans une notice bibliographique, issues de la base CONDITOR (données provenant de HAL, Crossref, Pubmed) à partir de valeurs “éditeurs” issues du Web of Science (sur l’année 2019). NB : Il s’agit d’un… Lire plus

Homogénéisation des types de documents

Publié lecalendar

Le web service permet d’homogénéiser les formes d’écriture des valeurs “types de documents” dans une notice bibliographique, issues de la base CONDITOR (données provenant de HAL, Crossref, Pubmed), à partir des valeurs “types de document” issues du Web of Science (sur l’année 2019). Ces… Lire plus

Associer un IDREF Auteur à un identifiant HAL Author ID

Publié lecalendar

Ce web service permet de faire correspondre l’identifiant IDREF auteurs à celui des publiants dans HAL, disposant d’un identifiant IDHAL authors. IdRef (Identifiants et Référentiels pour l’Enseignement Supérieur et la Recherche) est une application Web développée et maintenue par l’ABES (Agence bibliographique de l’Enseignement Supérieur), qui… Lire plus

Associer un identifiant ORCID à l’identifiant IDREF correspondant

Publié lecalendar

Ce web service permet d’associer un identifiant ORCID à l’identifiant IDREF à partir d’une table d’équivalence.   Ressource : ORCID (Open Researcher and Contributor ID) est une organisation à but non lucratif soutenue par une communauté mondiale d’organisations… Lire plus

Les webservices à l’Inist

Publié lecalendar

L’Inist-CNRS propose une série de services web, accessibles de l’extérieur. Ces services tournent autour du TDM (Text and Data Mining, ou fouille de texte) et de la terminologie. Vous aurez ainsi accès à des traitements spécialisés, sans avoir à installer de programme spécifique (ni son environnement particulier, comme par exemple… Lire plus

La version française de TM Tools Explorer

Publié lecalendar

  Nous avions présenté en novembre 2021 la version bêta de TM Tools Explorer, une application en ligne vous permettant de choisir un outil de TDM adapté à vos besoins. Nous avions aussi expliqué la procédure pour la mettre sur pied. Cette première version était en anglais et nous pouvons… Lire plus

Extraction d’entités géographiques

Publié lecalendar

Ce web service détecte des entités géographiques dans un texte en anglais et renvoie la liste des localisations trouvées dans ce texte. Lire plus

Classification dans les domaines HAL

Publié lecalendar

Ce web service classe des documents en français ou en anglais dans les  13 grands domaines (en français) du plan de classement utilisé par la base HAL Chimie Planète et Univers [physics] Sciences de l’Homme et Société Économie et finance quantitative [q-fin] Science non linéaire [physics] Sciences… Lire plus

Enrichissement par DOI

Publié lecalendar

Ce web service récupère les métadonnées d’un article scientifique présent dans une base à partir d’un DOI. Il enrichit ainsi les données initiales. Lire plus

Associer un terme au vocabulaire des communes de France

Publié lecalendar

Le web service repère dans un texte des termes présents dans le thésaurus Communes de France et récupère le(s) concept(s) associé(s). Par exemple, il récupère la forme normalisée du nom d’une commune à partir de ses différentes variantes orthographiques. Ressource : La plateforme Loterre propose des vocabulaires ou terminologies… Lire plus

Normalisation d’un texte ou d’un terme

Publié lecalendar

Ce web service normalise un texte, un terme ou plus généralement une chaîne de caractères. Ce web service fonctionne quelle que soit la langue du texte, à condition qu’elle soit dans un alphabet latin. Lire plus

Traitement du langage naturel

Publié lecalendar

Cette bibliothèque d’outils pour le TALN (traitement du langage naturel) contient des composants qui effectuent des traitements de stemming, POStagging, de reconnaissance de termes contrôlés, d’entités nommées, de chunking nominal et de chunking nominal par analyse en dépendance. Lire plus

Associer un terme au vocabulaire Pays et Subdivisions

Publié lecalendar

Le web service repère des termes dans le vocabulaire Pays et Subdivisions de Loterre pour récupérer le concept associé. Par exemple, il récupère la forme normalisée du nom d’un pays à partir de ses différentes variations orthographiques. Ressource : La plateforme Loterre propose des vocabulaires ou terminologies pour différents… Lire plus

Verbalisation des préfixes de DOI

Publié lecalendar

Le web service  interroge la base de données Crossref et verbalise le préfixe d’un DOI à partir du préfixe de l’identifiant ou de l’identifiant DOI complet. Lire plus

Extraction de termes d’un texte via Teeft

Publié lecalendar

Le service web Teeft extrait, par défaut, les 5 termes les plus spécifiques d’un texte en anglais ou en français. Il permet ainsi d’avoir une idée de ce dont il est question dans le texte. Lire plus

Découpage d’une adresse

Publié lecalendar

Le web service découpe une adresse au format texte en plusieurs champs. Lire plus

Détection de la langue d’un texte

Publié lecalendar

Le web service détecte la langue d’un document texte. Lire plus

Attribution d’identifiants ARK

Publié lecalendar

Les identifiants ARK sont des identifiants pérennes indépendants et à gestion décentralisée.  Chaque autorité nommante doit garantir l’unicité et la pérennité des identifiants qu’elle génère. L’Inist-CNRS utilise les identifiants ARK pour différents types de ressources numériques (archive de documents, concepts terminologiques, etc.). Pour attribuer des identifiants et conserver un historique… Lire plus

Attribution d’identifiant(s) RNSR à une adresse (Alignements)

Publié lecalendar

Le web service attribue, à l’aide de règles, un ou plusieurs identifiants RNSR à partir d’une adresse d’affiliation d’auteur et d’une année de publication. Quand aucun code RNSR n’est trouvé, le service renvoie un tableau vide. Lire plus

Classification en domaines scientifiques Pascal-Francis

Publié lecalendar

Le web service classe automatiquement des documents scientifiques en anglais dans le plan de classement Pascal (Sciences, Techniques et Médecine) ou Francis (Sciences Humaines et Sociales). Après traitement, chaque document possède un domaine scientifique homogène, dans la mesure où les données de départ ont permis ce traitement. Lire plus

De l’ontologie OntoTM à TM Tools Explorer

Publié lecalendar

  Nous avions relaté il y a quelques mois pourquoi et comment nous avions décidé de mettre sur pied une ontologie computationnelle à partir de la liste d’outils de fouille de textes élaborée au décours du projet VisaTM. Nous poursuivions l’idée, au-delà de la mise à disposition d’une ontologie… Lire plus

La conférence WikiCite 2020

Publié lecalendar

Les 26 et 28 octobre 2020 a eu lieu la conférence virtuelle WikiCite, coïncidant avec les célébrations du 8ème anniversaire de Wikidata. WikiCite est une initiative pour développer les citations ouvertes et les données bibliographiques liées, en créant une base de données basée sur Wikidata.Cette année WikiCite c’était… Lire plus

Une ontologie des outils de fouille de textes

Publié lecalendar

Au cours du projet VisaTM, nous avions produit une liste de trois cents outils spécialisés dans le traitement automatique du langage et la fouille de textes. L’idée générale de ce document était de disposer d’un premier panorama des applications disponibles. La description de chaque outil contenait les informations… Lire plus

Le text-mining, source de connaissance de Florilège, la base de données intégrative d’habitats et de phénotypes microbiens

Publié lecalendar

  Les équipes Bibliome et Migale de l’unité INRAE-MaIAGE en collaboration avec le projet ENovFood du métaprogramme MEM proposent le service en ligne Florilège destiné aux microbiologistes pour l’étude des phénotypes et habitats microbiens. Florilège donne accès à un ensemble d’informations extraites, structurées, agrégées et… Lire plus

La fouille de textes aujourd’hui… et demain ? résultats de l’enquête

Publié lecalendar

Vous avez été nombreux (300) à répondre à notre appel à participation à une enquête destinée à qualifier les pratiques autour de la fouille de textes et nous vous en remercions. Notre analyse des réponses a été intégrée dans le livrable Analyse des besoins du projet Visa TM et vous trouverez également une version plus détaillée ici. Lire plus

Compte rendu de l’atelier : Compétences et profils nécessaires, quelles formations ?

Publié lecalendar

Restitution par Joanna Janik (Chargée de projets formations IST à la DIST-CNRS et copilote du Collège Compétences et formations du Comité pour la Science Ouverte) La fouille de textes et de données ne constitue pas seulement un défi technologique ou juridique mais également un défi humain pour amener les différents… Lire plus

Compte rendu de l’atelier : Futurs utilisateurs / futures utilisations

Publié lecalendar

Restitution par Sylvain Massip (Opscidia) 1.  Quelles tâches pour un robot en 2050 ? Nous avons commencé par nous projeter en 2050 pour imaginer quelles pourraient être les utilisations idéales de la fouille de textes. Les participants ont émis beaucoup d’idées qui rentraient globalement dans quatre catégories : Des interfaces homme-Machine évoluées,… Lire plus

Compte rendu de l’atelier : Transférer et valoriser les développements issus de la recherche en TDM vers une plateforme de services

Publié lecalendar

Objectif Réfléchir et suggérer des idées, identifier les freins et les modes opératoires pour activer la valorisation et faciliter le transfert des produits de la recherche en fouille de textes grâce à une e-infrastructure dédiée. Modalité « World café » La salle comporte trois tables, chacune est dédiée à un… Lire plus

Compte rendu de l’atelier : quels acteurs autour de la plateforme pour mettre en œuvre et exploiter un service à base de TDM ?

Publié lecalendar

L’atelier “Acteurs” a rassemblé 9 personnes, mêlant professionnels IST (Information Scientifique et Technique), cadres de la recherche, chercheurs/ingénieurs (en Traitement Automatique des Langues et non Traitement Automatique des Langues) et enseignants-chercheurs.  L’objectif était de cartographier les acteurs à mobiliser dans le cadre de la mise en place d’un service ou… Lire plus

Les ateliers de Visa TM Day

Publié lecalendar

Les ateliers prospectifs autour de “quelle infrastructure de service de fouille de textes pour demain” ont permis de faire émerger une analyse partagée sur ce sujet à travers 4 thématiques : Quels acteurs autour de la plateforme pour mettre en œuvre et exploiter un service de fouille de textes intégré dans… Lire plus

Diffusion des supports de Visa TM Day

Publié lecalendar

Les présentations et restitutions de la journée Visa TM Day sont mis à votre disposition en téléchargement ci-dessous. Des applications scientifiques d’extraction de l’information  “Fouille de texte sur les réseaux sociaux pour la pharmacovigilance”  par Cyril Grouin, LIMSI (CNRS), France Présentation de Cyril Grouin licence CC-BY-NC-SA… Lire plus

Galaxy server for complex TDM analysis : part 5

Publié lecalendar

Machine Learning in Galaxy TDM is mostly based on statistical, machine Learning and artificial intelligence methods, algorithms and technologies. Several projects provide these tools in open access. LAPPS Grid https://www.lappsgrid.org/ https://static.sched.com/hosted_files/gcc2019/90/S-6-Out-3LAPPS%20GCC%202019%20-%20Alex.pdf Vassar College, Poughkeepsie, NY USA Johns Hopkins University, Baltimore, MD, USA LAPPS Grid – An open, interoperable… Lire plus

Galaxy server for complex TDM analysis : part 4

Publié lecalendar

Galaxy on HPC Knowing that more and more often the data analysis request a lot of computational power, one of the challenges today is to be able to execute Galaxy on High Performance Computing clusters (HPC); several projects in different countries are running to solve this problem and to provide… Lire plus

Mutualisation des efforts dans la mise en oeuvre de portails de ressources sémantiques

Publié lecalendar

Les principes de FAIR ont établi l’importance d’utiliser des vocabulaires ou des ontologies standard pour décrire les données FAIR et faciliter l’interopérabilité et la réutilisation. Cependant, au cours des dernières années, nous avons assisté à une explosion du nombre de ressources sémantiques de sorte qu’il devient obligatoire d’offrir des portails… Lire plus

Visa TM day vendredi 15 novembre : découvrez le programme

Publié lecalendar

Rendez-vous le 15 novembre 2019 à Paris pour discuter des perspectives concrètes d’une solution de services en fouille de textes. Les inscriptions sont ouvertes jusqu’au 2 novembre. Cette rencontre promet un programme riche et diversifié. Sylvie Rousset, Directrice de la DIST CNRS ouvrira la journée. La matinée… Lire plus

Le text mining pour la recherche en microbiologie – un exemple

Publié lecalendar

Alexandra, la biologiste et Marie, la bioinformaticienne utilisent le text mining pour trouver des informations dans l’abondante masse de publications en microbiologie. Alexandra cherche si une bactérie déjà étudiée pourrait être utilisée pour un nouveau produit fermenté, de yaourt et de concombre. La réponse en vidéo et en trois clics. Lire plus

Galaxy server for complex TDM analysis : part 3

Publié lecalendar

Galaxy Cloud Cloud technologies are often needed in the case of large datasets or computationally intense applications. Cloud services are able to optimize resources between large numbers of users. Several projects are running to facilitate the execution of Galaxy on clouds. GalaxyCloudRunner https://galaxycloudrunner.readthedocs.io/​ University of Melbourne, Melbourne, VIC, AUS… Lire plus

Galaxy server for complex TDM analysis : Part 2

Publié lecalendar

Galaxy for TDM, latest achievements For several years Galaxy project has been constantly growing and evolving. Having an active community, the new projects are running and new features are continuing to be developed. The dedicated series of blog posts will provide a short overview of the latest and most interesting… Lire plus

Galaxy server for complex TDM analysis – Part 1

Publié lecalendar

General overview Galaxy is an open source, web-based platform for data-intensive analysis. Founded for biomedical research, today galaxy can also be applied in other fields. In Visa-TM, we are looking to implement it in Text and Data Mining (TDM) area. There are several online Galaxy platforms available for free (UseGalaxy.eu… Lire plus

Visa TM Day

Publié lecalendar

Le projet Visa TM et le Comité pour la Science Ouverte sont heureux de vous convier à Visa TM Day : Vers une infrastructure de services avancés en text-mining le vendredi 15 novembre de 9h à 17h au Ministère de l’Enseignement supérieur, de la Recherche et de L’innovation. En… Lire plus

Lancement du projet ANR D2KAB

Publié lecalendar

En juin 2019, deux des acteurs de Visa TM (le LIRMM et MaIAGE) ont respectivement organisé et participé au lancement du projet ANR D2KAB (Des Données aux Connaissances en Agronomie et Biodiversité).  D2KAB ambitionne de mettre en place les processus permettant de transformer les données d’agronomie et de biodiversité… Lire plus

Critères de sélection d’outils de fouille de textes

Publié lecalendar

Le travail sur les critères de sélection doit permettre de caractériser les outils de fouille de textes et de données afin de mieux cibler et sélectionner ceux qui sont les plus adaptés pour VisaTM. Il consiste à définir une liste de propriétés pertinentes lorsqu'on collecte des informations sur les outils lors d'une campagne de sélection et d'intégration d'outils. Les critères sont établis à partir de critères déjà utilisés dans OMTD ayant été sélectionnés lors d'un appel à proposition d'outils. Ils sont aussi établis sur la base des expériences sur le processus d'intégration et d'utilisation des outils de la plateforme OpenMinTeD. Les critères retenus s'attachent à différents types d'aspects (stratégique, méthodologique, technique, fonctionnel, opérationnel, prévisionnel). Ils s'accompagnent d'exemples de questions permettant de les renseigner. Le document contenant la liste des critères est joint. Voici quelques exemples : Lire plus

Recensement d’outils de fouille de textes [Mise à jour]

Publié lecalendar

Dans le cadre du volet Étude du projet VisaTM, nous avons réalisé un recensement d'outils de fouille de textes. Le premier objectif de ce travail est de faire le point sur les moyens logiciels issus de l'Intelligence artificielle, du Traitement automatique du langage naturel et des Statistiques disponibles pour la découverte de connaissances à partir du traitement informatique de corpus textuels. Le second objectif est de disposer d'un référentiel d'outils pour l'enrichissement de la plateforme de fouille de textes dont le projet VisaTM évalue la faisabilité. Lire plus

Une suite à OpenMinTeD ?

Publié lecalendar

Les équipes de l'Inist-CNRS et de  l'INRA-MaIAGE se réunissent à nouveau autour de ARC (Athena Research and Innovation Centre) pour répondre à l'appel à proposition intitulé "INFRAEOSC-02-2019: Prototyping new innovative services" dans le cadre du programme européen pour la recherche et l’innovation « HORIZON 2020 ». Lire plus

Enquête VisaTM : la fouille de textes aujourd’hui… et demain?

Publié lecalendar

Afin de qualifier au mieux, dans le cadre du projet VisaTM, les pratiques actuelles autour de la fouille de textes et à identifier les verrous et les moyens de les lever pour sa mise en œuvre au service des chercheurs, nous avons élaboré un questionnaire destiné à l'ensemble des acteurs de l'enseignement supérieur et de la recherche. Lire plus

Évaluation de la clusterisation avec Neurodoc du corpus Géosciences

Publié lecalendar

L'application pilote développée à l’Inist dans le cadre de Visa TM est intitulée "Fouille et exploration de données pour la constitution d’un corpus documenté". Elle sera déployée sous forme de service en ligne sur OpenMinTeD. Elle permettra l’exploration d’un corpus d’articles scientifiques en texte intégral issu du réservoir ISTEX. Cette exploration inclut, entre autres, une cartographie des domaines scientifiques représentés dans le corpus, obtenue par une méthode de clusterisation (classification automatique non supervisée). Plusieurs méthodes de clusterisation seront étudiées dans cette étude. Cet article porte sur l'évaluation d'une clusterisation réalisée avec l'outil Neurodoc sur le corpus "géosciences" (voir Sélection du corpus "géosciences" dans ISTEX). Lire plus

VisaTM dans le cadre de Istex Tour

Publié lecalendar

Depuis septembre, le projet VisaTM s'est joint au Istex tour, un tour de France en 20 dates, pour promouvoir  l'utilisation du text mining. Ces rencontres aux quatre coins de la France ont été l'occasion pour l'équipe VisaTM non seulement, d'expliquer les concepts, de sensibiliser le public aux enjeux du TDM et de présenter les grandes lignes du projet, mais aussi  d'échanger avec de futurs utilisateurs de services de text mining. Lire plus

L’architecture de services OMTD

Publié lecalendar

L’architecture logicielle de la plateforme de TDM (Text and Data Mining) OpenMinTeD (OMTD) s’articule autour de trois services principaux. Le service Registry (catalogue) prend en charge le stockage, la navigation, le téléchargement, la recherche et la gestion de ressources comme les publications scientifiques, les composants de traitement (par exemple un étiqueteur morpho-syntaxique) et les ressources de la langue (lexiques, thesauri). Ces ressources sont téléchargées, puis enregistrées dans OpenMinTeD à travers un certain nombre de protocoles tels que Maven ou docker. Elles sont rigoureusement documentées grâce à un système riche de descriptions de métadonnées pour être réutilisables. Le service d’édition de Workflow assiste l’utilisateur à la création de workflows interopérables à base de composants TDM. Ces composants sont exécutés par le service de Workflows dans une infrastructure Cloud (ou sur une machine locale). Au travers du service d’édition d’annotation, l’utilisateur a la possibilité de créer des ensembles de données en annotant des textes, données qui peuvent ensuite  être utilisées dans des workflows, dans un but d'évaluation par exemple. Lire plus

AgroPortal, source de ressources sémantiques pour OpenMinTeD

Publié lecalendar

Les ontologies, thésaurus, terminologies et vocabulaires sont des types de ressources sémantiques indispensables dans les processus de fouille de texte et de données. AgroPortal est un portail de ressources sémantiques pour l’agronomie/l’agriculture, l’alimentation, les sciences des plantes et la biodiversité. Il est basé sur la technologie BioPortal développée… Lire plus

En poursuivant votre navigation, sans modifier vos paramètres, vous acceptez l'utilisation et le dépôt de cookies destinés à mesurer la fréquentation du site grâce au logiciel Matomo.
OK
Modifier les paramètres