countryDetect - Détection du pays d’une affiliation

Malgré les contrôles qualité que nous effectuons avant de mettre nos web services en production, les outils d'IA peuvent commettre des erreurs. Nous vous recommandons de vérifier les informations importantes.

Niveau d'utilisation :  Débutant
Niveau de validation :  Validé
Objectif

Ce web service détecte le pays d’origine d’une affiliation-adresse, qu’il soit présent ou absent dans celle-ci, quelle que soit la langue de l’adresse, à condition qu’elle soit dans un alphabet latin. Le nom du pays retourné est en anglais.

 

Méthode

A partir de l’adresse d’une affiliation, le service renvoie le nom du pays détecté, en anglais, ainsi que son code ISO sur 2 lettres.
Par exemple “France, FR ” ou “Germany, DE”.
Dans le cas où le programme ne parvient pas à déterminer le pays, il renvoie une chaine vide “, ”

La première étape consiste à extraire le pays s’il est présent dans l’adresse.

S’il est absent, le programme va s’appuyer sur des informations comme :

  • la rue,
  • la ville,
  • le code postal,
  • le nom de l’organisme.

Ces informations sont utilisées pour localiser l’adresse, à l’aide du service de géocodage Nominatim, et en déduire le pays.

Métriques

Le programme a été testé avec une  précision  de 97%.

Précautions :
La qualité du résultat dépend fortement des informations présentes dans l’affiliation : un nom de laboratoire seul donnera soit aucun résultat soit un résultat peu fiable.

Ce modèle a été testé sur le corpus d’évaluation “evaluation_countryDetect”, disponible à l’adresse suivante :
https://www.ortolang.fr/market/corpora/dataset-countrydetect/

Références
Absent de TDM Factory
Présent sur Lodex

Utilisation dans Lodex

Sélectionnez le web service dans le catalogue :

Précalcul : le web service traite le corpus dans sa globalité. Le résultat obtenu pour chaque document dépend des autres. Exemple pour la génération de clusters. On parlera de web service asynchrone

Saisir cette URL https://address-kit.services.istex.fr/v1/affiliationcountry/affilcountry et sélectionner la colonne dédiée à l’adresse.
Sauvegarder et lancer le traitement
Pour récupérer la valeur souhaitée : GET et le nom du champ dont vous voulez extraire la donnée

  • country pour le pays
  • code pour le code pays sur 2 caractères

 

 

Traitement
1. université sciences et technologies bordeaux 1 institut national de physique nucléaire et de physique des particules du cnrs in2p3 UMR5797 ==> country: France, code: FR
4. auf der morgenstelle 8, 72076 tuebingen ==> country: Germany, code: DE
5. z.i. de kermelin,16, rue ampère, 56017 Vannes ==> country: France, code: FR
6. campus de santa apolónia, 5300-253 bragança ==> country: Portugal, code: PR
7. campus romanus de maron ==> country: “”, code: “”

Vos données ne précisent pas explicitement le pays de publication ? Vous souhaitez visualiser les pays avec lesquels votre organisme coopère ?

En lançant countryDetect sur vos données depuis Lodex, logiciel libre de visualisation, vous obtiendrez la liste des pays coopérants et leur code sur 3 caractères pour réaliser des représentations graphiques liées.

Graphes issus des corpus Istex :

Découvrez d’autres corpus scientifiques

En poursuivant votre navigation, sans modifier vos paramètres, vous acceptez l'utilisation et le dépôt de cookies destinés à mesurer la fréquentation du site grâce au logiciel Matomo.
OK
Modifier les paramètres