Bulletin ArchAsie

Dossiers par Pays

Dossiers par Pays Chercheurs

Traductions











148154 visites
(dont 5 aujourd'hui)

Accueil > Les Dossiers > Dossiers par Pays Chercheurs > ASEAN

Méthodes pour informatiser des langues et des groupes de langues « peu dotés »
(23/03/2005 - Lu 184 fois)

Thèse présentée et soutenue publiquement le 18 mai 2004 par Vincent BERMENT pour obtenir le titre de Docteur de l'Université de Joseph FOURIER.



SITUATION ET MOTIVATIONS

Ce mémoire s’inscrit dans un large mouvement international qui vise à ce que chaque peuple puisse disposer de tous les moyens pour communiquer dans sa langue. Dans les siècles précédents, affirmer ou défendre une langue passait par d’autres moyens : fixer une orthographe, construire des dictionnaires monolingues ou bilingues, recueillir des traditions orales ou encore élaborer des polices d’imprimeur.
Aujourd’hui, le développement des ordinateurs personnels et celui des réseaux font de l’informatique un instrument pour écrire et communiquer au même titre que le papier l’est depuis Cai Lun et l’imprimerie depuis Gütenberg. Traitements de texte et courriers électroniques sont devenus des outils de langue largement répandus. En dépit du caractère manifestement politique de ce mouvement d’affirmation des langues — si l’on s’accorde, avec Hannah Arendt ([Arendt 1995]), pour dire que « la politique repose sur un fait : la pluralité humaine » — l’idée s’impose alors qu’aux moyens traditionnels doivent s’ajouter les outils informatiques appropriés sans lesquels les buts visés ne peuvent plus être atteints. L’informatisation occupe ainsi une place essentielle dans cette vaste mobilisation culturelle et linguistique.

PROBLÉMATIQUE ET INTÉRÊT DE NOTRE TRAVAIL

Mais les langues ne sont pas égales devant le processus d’informatisation et les populations parlant des langues mal dotées ont un accès limité à ces nouveaux moyens, limitation pouvant aller d’une simple gêne à une incapacité totale. Les Nations Unies, élément central dans le mouvement de protection de la diversité linguistique, ont progressivement pris en compte dans leur démarche la dimension
informatique et, parallèlement, de nombreuses initiatives souvent artisanales furent organisées pour informatiser des langues « peu dotées », en particulier par des groupes de développement travaillant en réseau.
Nous avons développé, avant cette thèse, plusieurs traitements de texte grand public pour le laotien, langue peu dotée informatiquement et s’écrivant avec un système d’écriture spécifique. S’appuyant sur cette expérience, la présente thèse propose une réflexion plus approfondie sur les stratégies et méthodes d’informatisation tout en se plaçant dans la perspective plus générale de l’informatisation des langues, dans le but de dégager une méthodologie multidisciplinaire pouvant s’appliquer à d’autres
langues que le laotien ainsi qu’à des groupes de langues. Cette réflexion vise donc l’optimisation de l’effort d’informatisation. En effet, l’informatisation des langues peu dotées n’est pas tant une difficulté sur le plan informatique qu’une question de moyens humains et financiers pour permettre à ces populations de se munir des moyens adaptés à leurs écritures et à leurs langues.

MÉTHODOLOGIE

Le titre de cette étude évoque l’informatisation en général des langues en général. Un tel thème aurait, de loin, dépassé le cadre d’une thèse de doctorat et risqué de l’éloigner de sa matière — l’informatique — s’il avait dû être traité dans sa totalité. De nombreux compromis ont dû être consentis pour faire tenir l’étude dans son cadre. Pour résoudre cette difficulté, la diversité et la généralité du sujet ont été
abordées à travers une réflexion sur les méthodologies et les techniques à mettre en oeuvre pour diminuer les coûts de développement. Nous avons alors appliqué ces principes — quand cela était possible — à une « langue test » : la langue laotienne. La méthodologie proposée pour l’informatisation d’un groupe de langues a été, quant-à elle, déduite des taux de réutilisation constatés lors de plusieurs développements dérivant de logiciels existants.

ORGANISATION DE LA THÈSE

Ce mémoire est constitué de trois parties et de quatorze annexes. Dans la première partie, nous présentons les contextes linguistique, politique et technique de l’informatisation des langues peu dotées. En particulier, nous situons la question par rapport au mouvement des Nations Unies pour la protection des minorités et du patrimoine linguistique de l’humanité ainsi que par rapport à celui de l’internationalisation croissante et de plus en plus performante des systèmes d’exploitation (Windows, Linux...). Ce paysage général est complété par un panorama des acteurs et projets de l’informatisation des langues peu dotées. Il présente, en particulier, les intervenants mettant en oeuvre cette informatisation et comment ils le font. Nous présentons six méthodes ou stratégies techniques adaptées
aux difficultés des langues peu dotées et destinées à en aider l’informatisation. Enfin, nous présentons comment plusieurs de ces méthodes ont été mises en oeuvre et évaluées sur la langue laotienne.

La deuxième partie est consacrée à la description technique des développements réalisés sur la languelaotienne. Ils mettent en oeuvre plusieurs des principes exposés dans la première partie. Les développements réalisés couvrent essentiellement des services de traitement du texte, de dictionnaire électronique et d’aide à la traduction humaine. En conclusion de cette deuxième partie, nous présentons les dynamiques développées en parallèle de nos travaux sur le laotien, en particulier les expériences participatives menées et les groupes formés autour des concepts Pak Lao, PaoUniKey et LaoLex.

Nous revenons dans la troisième partie à un point de vue plus général, en tentant de dégager une méthodologie pour l’informatisation d’un groupe de langues. Nous l’appliquons alors au groupe des langues à écritures non segmentées d’Asie du Sud-Est, créant pour cela les outils permettant de segmenter leurs textes et les expérimentant sur les écritures birmane, khmère, laotienne et siamoise (thaïe). Nous concluons cette troisième partie avec une « étude de cas » offrant une vision concrète de ce que pourrait être un grand projet d’informatisation.

Quatorze annexes sont proposées.
L’annexe 1 propose des éléments classés sur des techniques d’informatisation des langues.
L’annexe 2 présente le tableau ISO 639 des codes de langues.
L’annexe 3 présente le tableau ISO 15924 des codes de systèmes d’écriture.
L’annexe 4 présente un tableau langue - systèmes d’écriture.
L’annexe 5 présente les principales familles de langues.
L’annexe 6 présente un tableau langues – familles – nombre de locuteurs – codes Ethnologue.
L’annexe 7 présente les parties du discours utilisées dans LaoDict (niveau catégorie).
L’annexe 8 présente les parties du discours, avec exemples, du laotien (niveau sous-catégorie).
L’annexe 9 présente le schéma XML Papillon pour le laotien.
L’annexe 10 présente les exemples d’articles (lexies) de LaoDict.
L’annexe 11 présente la grammaire des grammaires syllabiques.
L’annexe 12 présente l’article « Ambiguïtés irréductibles dans les monoïdes de mots ».
L’annexe 13 présente une licence GPL type.
L’annexe 14 présente un programme Prolog de génération des syllabes laotiennes.

Elles sont de natures diverses et réunissent dans un même document de nombreuses informations souvent éparses.

Vincent BERMENT


Télécharger le fichier au format PDF pour lire la suite.

Retour