TransliTAL - Translittération en caractères latins

Niveau d'utilisation :  Débutant
Niveau de validation :  Validé
Objectif

TransliTAL est un ensemble de web services qui permettent la translittération de caractères non latins en caractères latins.

Il est le fruit d’un projet de recherche conjoint entre la Bibliothèque universitaire des langues et civilisations (BULAC) et l’Institut national des langues et civilisations orientales (INALCO). Ce travail a été rendu possible grâce au financement de l’Agence bibliographique de l’enseignement supérieur (ABES).

Le premier web service concerne le cyrillique.

Méthode

Ce premier outil de translittération s’appuie sur les techniques de traitement automatisé de la langue (TAL). Plusieurs corpus linguistiques ont été sélectionnés pour établir le pilote : russe, ukrainien, biélorusse, serbe, bulgare, langues d’Asie centrale et de Mongolie pour les écritures cyrilliques.
Une table de correspondance a été établie entre les caractères cyrilliques et leur transcription en alphabet latin. Cette table se fonde sur la norme ISO 9:1995 de translittération du cyrillique qu’utilise l’Agence bibliographique de l’enseignement supérieur.

Extrait du tableau de la norme ISO 9:1995, Information et documentation — Translittération des caractères cyrilliques en caractères latins — Langues slaves et non slaves

Métriques

L’évaluation de ce premier web service de translittération concernant le cyrillique a été effectuée sur un corpus de 2657 titres d’articles scientifiques issus d’ISTEX.
Lien vers ISTEX : les résultats de la requête

Exact match accuracy 99.62%
Average character accuracy 99.63%
Average Levenshtein distance 0.38
Average BLEU score 0.996

 

  • Le taux de correspondance exacte du modèle dépasse les 99,6%.
  • Lorsque l’on regarde plus finement, caractère par caractère, le modèle reste très précis, avec une précision moyenne de 99,63 %
  • La distance de Levenshtein a été calculée entre la romanisation prédite et la romanisation de référence. Un score égal à 0 signifie que les chaînes sont identiques, tandis qu’un score élevé indique une faible similarité.
Variantes

D’autres translittérations seront disponibles ultérieurement.

Références

Le projet TransliTAL :
https://www.bulac.fr/translital

« TransliTAL #1 : les technologies de la langue au service de la qualité des notices en écriture cyrillique de la BULAC », par Emmett Strickland (publié le 20 décembre 2024)
https://bulac.hypotheses.org/57621

Emmett Strickland, Ilaine Wang, Damien Nouvel, Bénédicte Parvaz-Ahmad, 2025, « Systèmes d’écriture et qualité des données : l’affinage de modèles de translittération dans un contexte de faibles ressources », Actes de la 32ème Conférence sur le Traitement Automatique des Langues Naturelles, Marseille, France.
https://aclanthology.org/2025.jeptalnrecital-taln.44/

 

Ces web services qui peuvent vous intéresser

Détection de la langue d'un texte

Absent de TDM Factory
Traitement

“долгого ХVIII века” ⇒ dolgogo XVIII veka

“Хороводные и игровые песни Сибири” ⇒ Horovodnye i igrovye pesni Sibiri

“Взаимодействие фонематической и просодической сфер в истории звуковых изменений славянских языков” ⇒ Vzaimodejstvie fonematičeskoj i prosodičeskoj sfer v istorii zvukovyh izmenenij slavânskih âzykov

En poursuivant votre navigation, sans modifier vos paramètres, vous acceptez l'utilisation et le dépôt de cookies destinés à mesurer la fréquentation du site grâce au logiciel Matomo.
OK
Modifier les paramètres