countryDetect - Détection du pays d’une affiliation
Ce web service détecte le pays d’origine d’une affiliation-adresse, qu’il soit présent ou absent dans celle-ci, quelle que soit la langue de l’adresse, à condition qu’elle soit dans un alphabet latin. Le nom du pays retourné est en anglais.
A partir de l’adresse d’une affiliation, le service renvoie le nom du pays détecté, en anglais, ainsi que son code ISO sur 2 lettres.
Par exemple “France, FR ” ou “Germany, DE”.
Dans le cas où le programme ne parvient pas à déterminer le pays, il renvoie une chaine vide “, ”
La première étape consiste à extraire le pays s’il est présent dans l’adresse.
S’il est absent, le programme va s’appuyer sur des informations comme :
- la rue,
- la ville,
- le code postal,
- le nom de l’organisme.
Ces informations sont utilisées pour localiser l’adresse, à l’aide du service de géocodage Nominatim, et en déduire le pays.
Le programme a été testé avec une précision de 97%.
Précautions :
La qualité du résultat dépend fortement des informations présentes dans l’affiliation : un nom de laboratoire seul donnera soit aucun résultat soit un résultat peu fiable.
Ce modèle a été testé sur le corpus d’évaluation “evaluation_countryDetect”, disponible à l’adresse suivante :
https://www.ortolang.fr/market/corpora/dataset-countrydetect/
- Service de géocodage Nominatim fourni par le projet OpenStreetMap (OSM) (https://nominatim.org/release-docs/develop/api/Overview)
- Corpus de test fourni par : Maisonobe, M. (2024). Affiliations of ISGC participants [Data set]. Zenodo. https://doi.org/10.5281/zenodo.10987372
Utilisation dans Lodex
Sélectionnez le web service dans le catalogue :
Précalcul : le web service traite le corpus dans sa globalité. Le résultat obtenu pour chaque document dépend des autres. Exemple pour la génération de clusters. On parlera de web service asynchrone
Saisir cette URL https://address-kit.services.istex.fr/v1/affiliationcountry/affilcountry et sélectionner la colonne dédiée à l’adresse.
Sauvegarder et lancer le traitement
Pour récupérer la valeur souhaitée : GET et le nom du champ dont vous voulez extraire la donnée
- country pour le pays
- code pour le code pays sur 2 caractères
| 1. université sciences et technologies bordeaux 1 institut national de physique nucléaire et de physique des particules du cnrs in2p3 UMR5797 | ==> | country: France, code: FR |
| 4. auf der morgenstelle 8, 72076 tuebingen | ==> | country: Germany, code: DE |
| 5. z.i. de kermelin,16, rue ampère, 56017 Vannes | ==> | country: France, code: FR |
| 6. campus de santa apolónia, 5300-253 bragança | ==> | country: Portugal, code: PR |
| 7. campus romanus de maron | ==> | country: “”, code: “” |
Vos données ne précisent pas explicitement le pays de publication ? Vous souhaitez visualiser les pays avec lesquels votre organisme coopère ?
En lançant countryDetect sur vos données depuis Lodex, logiciel libre de visualisation, vous obtiendrez la liste des pays coopérants et leur code sur 3 caractères pour réaliser des représentations graphiques liées.
Graphes issus des corpus Istex :
- “Deep Space“. Profitez en pour naviguer dans l’ensemble du corpus
- Machine translation. Profitez en pour naviguer dans l’ensemble du corpus
Découvrez d’autres corpus scientifiques

