RECHERCHES SUR LA NORMALISATION INTERNATIONALE DU CODAGE DES CARACTERES CODES SUR PLUSIEURS OCTETS

Champollion 2000, un dictionnaire électronique des écritures
Un exemple : l'entrée Vietnam

Sylvie Baste

Novembre 1997



INTRODUCTION

On ne peut que constater aujourd'hui, l'insuffisance du standard de codage des caractères qu'est l'ASCII ( American Standard for Information Interchange). Ce système binaire qui fonctionne sur 8 bits, ne permet que 128 positions de codage. Or on recense 1 million de doléances en matière de codage de caractères dans le monde actuellement. De nombreuses extensions ont vu le jour pour palier quelques déficiences mais il fallait plus que des compromis pour satisfaire les demandes croissantes des langues industrielles non anglo-saxonnes et pour permettre à d'autres langues comme le vietnamien et son système complexe de ponctuation, d'apparaître sur un écran informatique.

Est né Unicode, standard de codage des caractères sur 2 octets. Les instances de normalisation n'ont pas ignoré le problème mais le consortium de constructeurs de matériel informatique, à l'origine du standard, a voulu répondre à des besoins précis et pressants. D'ailleurs le standard Unicode est un sous-ensemble d'une norme imposante par sa taille, la norme internationale ISO/IEC 10646 (jeu universel de codage des caractères sur plusieurs octets).qui propose une architecture à 4 dimensions (correspondant à 4 octets) où chaque caractère a une position définie. Tout ceci suppose un changement technologique essentiel qu'il est primordial de penser puisqu'il semble inévitable qu'Unicode et la norme ISO/IEC 10646 remplacent l'ASCII.

Le cadre théorique présenté dans la norme est clairement défini. Mais ce n'est qu'un cadre. Comment utiliser ses énormes potentialités ? A priori, on peut être dérouté par les 4,3 milliards de positions de codage qui sont proposées. On peut se demander si cette ressource sera réellement utilisée. Ces 2 questions sont à l'origine d'une problématique de recherche qui a pour but de faire aboutir des projets concrets basés sur l'opportunité offerte par ce nouveau système de codage.

Il faut savoir que toutes les positions de codage n'ont pas encore été attribuées. Unicode et la norme sont en devenir. Ils sont ouverts à de nouveaux besoins, qu'il s'agit de détecter. C'est un travail qui s'inscrit dans une véritable démarche normative. Nous verrons que nous pouvons adopter 2 orientations différentes.

En somme, il est essentiel de planifier l'utilisation future du système. Unicode tout d'abord, qui correspond à 16 plans à attribuer à ceux qui le revendiquent, le reste de la norme ISO/IEC 10646 ensuite.

L'écueil à éviter pour rendre compte de l'importance de la norme 10646, est de la sous-estimer en s'arrêtant au simple codage des caractères alors qu'elle peut servir à d'autres applications allant du simple codage des signes mathématiques, au codage d'éléments plus complexes comme les codes de commande multimédias ou même des structures comme celles des molécules chimiques.

La réalisation de ces projets passe en théorie par la norme 10646. Mais leurs conceptions posent des problèmes ayant différents niveaux de complexité. On ne fera pas appel aux mêmes compétences pour répondre à ces besoins. Des projets auront leur place dans Unicode, d'autre dans les 16 premiers plans, d'autres encore peuvent être envisagés dans le codage sur 2 octets avec une validation possible sur 4 octets.

La mise en úuvre de tels projets est du domaine de l'information scientifique et technique puisque grâce à la norme, on peut espérer offrir un accès universel à l'information, à la communication et au savoir. Pour éviter de creuser davantage le fossé entre le nord et le Sud ( on peut espérer que les progrès informatiques aboliront les barrières naturelles entre les peuples), mais aussi pour éviter de créer un clivage Est-Ouest. En effet, en Extrême Orient, on maîtrise depuis 20 ans le codage sur plus d'un octet.1 Les langues occidentales ne sont pas considérées comme un obstacle. Pour informatiser l'écriture nippone, le Japon a dû mettre en úuvre un système complexe qui lui assure la maîtrise du traitement des langues et lui permet de manipuler diverses représentations du sens.

La mobilisation sur le sujet est faible, en France, elle est quasiment inexistante. Or il est urgent de prévoir et de se concerter sur le changement d'un standard à la base de l'informatique. Comment le nouveau système va-t-il intégrer les cultures ? Aboutira-t-on réellement à une communication interlinguistique ?

L'étude de la réalisation des applications liées à la norme 10646 est un vaste sujet pluridisciplinaire.qui collectera des compétences dans divers domaines autour du codage universel des caractères sur plusieurs octets. Aucun secteur de recherche ne peut fonctionner en système fermé. L'interdisciplinarité paraît inévitable de nos jours car les relations entre disciplines ne sont pas toujours clairement définies.

Nous proposons une encyclopédie électronique multilingue sur les écritures du monde (Champollion 2000), pour mieux cerner les interrogations posées par l'utilisation de la norme ISO/IEC 10646, qui est la solution la mieux appropriée. Ce projet complexe encouragera et organisera des collaborations entre spécialistes de divers horizons, capables ensemble, de surmonter bien des difficultés. Il posera les bases pour résoudre les premiers problèmes d'utilisation de la norme et aborder d'autres aspects à d'autres niveaux de réflexion.

L'entrée Vietnam est un exemple de choix pour ouvrir les pages de Champollion.

* En effet, l'écriture du vietnamien pose un grand nombre de problèmes, liés à l'informatisation des langues (au Vietnam, coexistent 2 systèmes d'écriture : alphabétique et idéographique).

* Les Vietnamiens peuvent légitimement souhaiter voir apparaître à court terme, des pages multilingues sur le web car le multilinguisme (quôc ngu, français, anglais) est de mise aujourd'hui au Vietnam.

Les solutions adoptées à l'heure actuelle pour écrire le vietnamien ne font pas l'objet de consensus à l'intérieur du pays et encore moins avec la diaspora vietnamienne. Pourtant Unicode serait capable de réaliser l'informatisation mondialement normalisée du vietnamien et d'autres langues ainsi que les échanges entre elles grâce à leur présence sur les réseaux (pour écrire un texte en français sur un clavier vietnamien, il faut faire appel à des polices de caractères).

Nous proposons une application électronique précise :le dictionnaire, et les caractères typographiques qu'il suppose, pour aboutir à des savoir-faire universels sur les systèmes informatiques et réseaux électroniques. Ceci est d'autant plus important dans les domaines scientifiques où la plupart des communications sont en anglais à l'heure actuelle. Or on doit pouvoir établir des correspondances de termes spécifiques avec des termes dans d'autres langues que l'anglais. Les américains eux-mêmes ( à l'origine, rappelons le , du consortium Unicode), ne pensent plus que l'ASCII est suffisant.

Un dictionnaire électronique multilingue est un outil indispensable pour mettre en oeuvre ce translinguisme. Restent à définir le contexte dans lequel on doit l'élaborer (fonction des utilisations pressenties) et comment le documenter, en plus des problèmes techniques à surmonter.

Sommaire


De l'ASCII à la NORME ISO/IEC 10646

L'évolution du codage des caractères a suivi celle des possibilités des microprocesseurs qui sont conçus aujourd'hui pour fonctionner sur 32 bits. Les premiers systèmes se sont attachés au codage de l'alphabet latin, puis la tendance s'est engagée vers la communication multilingue.


Sommaire

Historique

L'ordinateur, pour manipuler des textes, doit faire une correspondance entre les opérations sur les nombres qu'il manipule et les caractères. Chaque impulsion électronique est traduite par un nombre fixe (0 ou 1) à l'image du premier système de codage moderne apparu au milieu du XIXe siècle, le télégraphe de Samuel Morse.

Le codage des caractères effectué jusqu'à présent par le standard ASCII est basé sur une représentation binaire utilisant 8 bits et n'autorise que 128 positions de codage (95, en caractères et le reste en codes de commande), le premier bit étant un bit de contrôle. C'est le seul standard universel, pour l'instant, ayant imposé sa marque à tous les composants matériels et logiciels (clavier, écran, imprimante, système d'exploitation, messagerie électronique). Mais l'ASCII n'exploite que l'alphabet latin, or d'autres alphabets tels que ceux, de l'hébreu, de l'arabe (etc...) méritent tout autant d'être représentés. Les codes utilisés pour le traitement électronique des caractères (MARTI P.)2, se sont succédés, sans que l'on parvienne à un véritable consensus international. Le premier code de caractères à usage électronique est le code télex. Il s'agit d'un codage à 5 bits additionné à un système d'échappement permettant de coder 60 caractères.

En 1963, le premier code normalisé (par l'ISO) est mis en place. Il fonctionne sur 7 bits. Il en résulte 128 significations (95 caractères et 33 fonctions de commande).

C'est le point de départ de versions internationales. L'IRV est la Version Internationale de Référence où 26 caractères latins (majuscules, minuscules) sont codés ainsi que les chiffres, les signes de ponctuation, et des caractères spéciaux. L'ASCII correspond à l'IRV, au dollars près.

A côté de l'ASCII, on trouve la norme ISO 646 qui est une table de base avec des cases vides réservées aux options nationales. C'est la première reconnaissance officielle des nécessités de localisation des applications mais elle a été confrontée à une incompatibilité entre nations. Ce qui est à l''origine de tentatives de codage multilingue dont la première est l'úuvre du comité technique TC 46 de l'ISO.(entre 1972 et 1980) qui propose des normes pour les alphabets latin, grec et cyrillique fondées sur une capacité d'échappement. Deux tables fonctionnent simultanément : une table primaire correspondant à un alphabet de base et une table secondaire composée de symboles complémentaires (les signes diacritiques en particulier, ce qui est une innovation).

A partir de là, sont nées 3 types de développements normatifs :

* les normes utilisant les techniques d'extension avec utilisation simultanée de 4 jeux de caractères (il y a là une diversification des techniques d'appel, pour passer d'un jeu à un autre on utilise un code entrée et un code sortie). Un caractère accentué requiert 5 octets de codes pour être affiché.

* les normes comme l'ISO 2022, qui propose un seul code pour chercher un caractère unique dans un jeu accessoire (les jeux de caractères différents sont reconnus). Un caractère accentué requiert 4 octets de codes pour apparaître sur l'écran.

* le codage à 8 éléments, où on peut faire la distinction entre deux jeux. Un caractère requiert alors 3 octets pour être affiché.

Les extensions de l' ASCII et les dizaines de normes nationales et internationales, sont autant de compromis pour tenter de combler un manque.

Sous Dos ou Windows, l'affichage d'autres alphabets que l'alphabet latin passe par la conception de polices adaptées au périphérique envisagé, en attribuant à chaque code ASCII, un nouveau caractère.La norme privée EBCDIC (Extended Binary Coded Decimal Interchange Code) d'IBM, est en même temps une norme d'échange et une norme de saisie ou de fontes. Mais ce type de démarche présente un inconvénient : aucun standard ne permet d'interpréter précisément les codes sur 8 bits ayant recours soit à la page de codes soit à la page de police du traitement de texte. Il existe plusieurs code pages dans le monde. La difficulté, c'est que lorsque l'on passe d'une page de codes à une autre (celle du français, par exemple, à celle de l'allemand), on a du mal à visualiser ou imprimer les textes3.

Au milieu des années 80, l'ISO (International Standard Organisation) et un certain nombre de constructeurs informatiques, inaugurent l'idée d'un système universel où chaque caratère est codé sur 1, 2, 3, ou 4 octets, ce qui aboutit à l'élaboration de deux systèmes différents. L'un de l'ISO, et l'autre d'un consortium de vendeurs : Unicode. Finalement, un consensus s'est établi entre les deux parties. La norme ISO/IEC 10646 parue en mai 1993, propose un jeu universel de caractères codés sur 4 octets, sous la forme d'une table multilingue à 4 dimensions.

Unicode a fait l'objet d'un ouvrage paru en 1991, The Unicode Standard Wordwide Character Encoding, Version 1.0, chez Addison Wesley. La version 2.0,est parue en 1996.


Sommaire

Etat actuel de la normalisation du codage des caractères

Le premier octet de la norme ISO/IEC 10646 correspond au codage ISO 8859-1, ce qui assure une compatibilité avec l'ASCII. En effet, le codage ISO/IEC 8859-n est une extension à 8 bits (256 caractères) de l'ASCII. C'est la norme la plus importante pour les langues européennes qui y sont regroupées par affinités. Ainsi, l'ISOLatin I (ISO 8859-1) correspond à l'Europe occidentale, l'Amérique Latine, l'ISOLatin-4, à l'Europe Orientale. Des discussions sont ouvertes à l`heure actuelle sur la mise en place d'autres normes ISO 8859-n. Il existe des séquences d'échappement pour passer d'un versus de la norme à un autre4.

Premier plan de la norme ISO/IEC 10646 :UNICODE

Figure 1 : état actuel de la normalisation du codage des caractères

L'attribution des 3 premiers plans de la norme ISO/IEC 10646 fait également l'objet de discussions ainsi que celle des positions de codage restantes du premier plan de la norme.

A l'Afnor, on peut consulter deux groupes de documents, l'un de normalisation européenne (Comité Européen de Normalisation), l'autre de normalisation internationale (International Standard Organisation et International Electronic Committee).

Voici quelques types de documents analysés :

n " Drafts " (avant-projets),

n Textes d'auteurs (N 646 par exemple),

n Notes informatives,

n Contributions d'expert,

n Propositions de travail,

n Textes de la commission européenne,

n Procès verbaux,

n Version française de la norme ISO/IEC 10646 (version non définitive). Il existe une version canadienne de la norme,

n Comptes-rendus de réunion de normalisation ...

A l'issue de l'étude de ces textes, on se sent conforté dans l'idée que la communauté scientifique a un rôle à jouer dans ces réflexions de normalisation. Les normes sont le résultat d'ajustements successifs. Des groupes de travail, étudient point par point les textes d'auteurs au cours de réunions de normalisations. Ces mêmes groupes approuvent ou pas les textes. La conclusion de la réunion de normalisation fait foi pour la validation d'un document. (des experts de disciplines différentes peuvent apporter leur contribution).

La normalisation européenne fait de gros efforts pour créer des répertoires de caractères pour les langues européennes. La participation française à ce travail semble faible. Le multilinguisme est un concept en plein essor .

Jean-Michel Borde (ingénieur à l'Afnor de la normalisation MPEG-JPEG-Image et son, service technologies de l'information) constate que la normalisation intra-communautaire est un souci permanent des instances de normalisation européennes. Il serait souhaitable que la normalisation européenne soit davantage conçue pour des enjeux internationaux. On ne trouve pas de documents relatifs à des domaines d'applications susceptibles d'utiliser la norme, mais plutôt à l'échelle internationale, des réponses à des revendications nationales sur un ou plusieurs caractères. Il s'agit maintenant de faire des propositions précises et détaillées (il existe un comité technique TC 23/SC 19/WG 3, qui travaille sur l'identification automatique des animaux).

Le passage de l'ASCII à Unicode et à l'ISO/IEC 10646 suppose un changement technologique qui est possible aujourd'hui. Il correspond à des besoins ressentis par les instances de normalisation et l'industrie informatique. Même s'il y a encore peu de réalisations à partir du codage multioctet, il paraît inéluctable. Mais le travail de normalisation n'est pas achevé. La recherche en matière de codage des caractères est en chantier. Il semble primordial de s'y intéresser..


Sommaire

La normalisation du codage des caractères vietnamiens

Il existe au Vietnam, un comité technique de normalisation (TCVN 5712) qui a mis en place en 1993, un système national de codage des caractères comportant 3 volets. Le VN1 utilise des zones de contrôle de l'ASCII (telle que C0), pour coder les 134 caractères vietnamiens. L'inconvénient réside dans l'incompatibilité de cette norme avec les systèmes informatiques internationaux. VN3, ne touche pas aux zones de contrôle mais met en jeu 2 polices de caractères (une pour les minuscules, une pour les majuscules). C'est la solution la plus usitée actuellement. Pourtant, on s'oriente vers la combinaison de voyelles avec des accents de tonalité comme le propose VN2 où le codage se fait sur 16 bits. D'ailleurs, VN2 conduit certains informaticiens5 à élaborer un codage par mots (au Vietnam, ils sont monosyllabiques).

En somme, la normalisation dans ce domaine pose encore de nombreux problèmes. On peut craindre que les solutions adoptées ne soientt fonctionnelles qu'en interne. Unicode semble être la meilleure solution pour éviter cet écueil mais il ne remporte pas tous les suffrages actuellement..


Sommaire

Structure de la norme ISO/IEC 10646

128 groupes tridimensionnels sont décomposables en 256 plans (bidimensionnels) chacun, eux-mêmes décomposables en 256 rangées décompasables en 256 cellules (figure 2).

DETAIL DE LA TABLE MULTILINGUE

128 groupes 256 plans par groupe 256 rangées de 256 cellules

Figure 2

A chaque caractère, on peut ainsi attribuer 4 octets (G pour groupe, P pour plan, l pour ligne, et C pour cellule). Un octet fait l'objet d'une notation alphanumérique hexadécimale, allant de 00 à FF.Dans ce système, le plan basique multilingue est le plan auquel on attribue G = 00 et P = 00. Ici, les caractères sont donc codés sur 2 octets (figure 3).

CODES ATTRIBUES AUX CARACTERES

+significatif -significatif

Figure 3

Ce plan contient 4 zones (figure 4) .

LE PLAN BASIQUE MULTILINGUE

A                               alphabets, symboles, partie       0000 à 4DFF      19903 POSITIONS                                
                                phonétique pour le CJK,                                                                           
                                hangul...                                                                                         
I                               idéogrammes unifiés (CJK)         4E00 à 9EFF      20992 POSITIONS                                

OR                              réservé à une utilisation         A000 à           16384 POSITIONS8190 POSITIONS                  
                                futureutilisation privée, zone    DFFFE000 à FFFD                                                 
                                de compatibilité, formes                                                                          
                                spéciales arabes=zone                                                                             
                                d'utilisation restreinte                                                                          
Figure 4

La zone I, par exemple, code pour les idéogrammes chinois, japonais, coréens. Le plan basique multilingue (annexe I) coïncide avec Unicode qui est un sous ensemble de la norme où les caractères sont codés sur 2 octets (UCS-2) associés (16 bits) au lieu d'un ce qui offre 2[16 ]possibilités, ce qui est suffisant pour coder la plupart (mais pas tous) des langages écrits dans le monde, symboles... S'impose l'idée que le codage sur 16 bits, est le codage idéal. C'est un standard qui tente de préserver l'acquis tout en ouvrant des possibilités de codage à 32 bits. La traduction d'un système à un autre n'exigera que l'ajout d'un octet aux codes ASCII, pour les transformer en Unicode.

Unicode, permet l'utilisation de signes flottants pour le thaï, l'hébreu, l'arabe, les alphabets indiens, de caractères composites pour les alphabets latins, grecs et cyrilliques.

La table multilingue, permet aussi le codage dans un contexte bidirectionnel. Les parenthèses seront ouvertes et fermées selon le sens de l'écriture, par exemple. Pour les besoins de l'arabe et de l'hébreu, on trouve des caractères de composition qui contrôlent la présentation. Sont également disponibles, le codage de caractères non imprimés (" espace ", par exemple), le codage de combinaisons de caractères (nécessaire à certaines langues), des positions de code réservées à un usage personnel et aux standardisations futures (Ces zones n'ont pas d'appellation définies pour l'instant, un consensus devrait naître à l'intérieur de chacun des 128 groupes qui correspondent à des espaces d'écriture). La norme prévoit pour chaque élément codé, une séquence de 4 octets représentée par une notation Hexadécimale. A chaque caractère sont attribués un nom unique et une position unique (2 mêmes formes graphiques, n'auront pas le même nom). La norme présente des tables de codes indiquant ces noms et positions et le caractère graphique (annexe II). Le symbole graphique choisi dans la norme est la représentation typique visuelle du caractère. La norme 10646 n'a pas la prétention de donner une représentation idéale de la forme du caractère. Elle n'attribue pas non plus une signification à un caractère

Il existe des caractères de compatibilité pour rendre possible la conversion entre jeux de caractères différents.

Il existe des blocs de noms qui définissent des sous-groupes.

La norme prévoit des possibilités de combinaisons de caractères. Les caractères dits combinés sont des caractères que l'on n'utilise pas seuls mais toujours associés à des caractères de base. Il n'y a pas de restriction sur le nombre de caractères accompagnants. Mais, il est indiqué comment les caractères sont positionnés les uns par rapport aux autres : le graphique résultant est déterminé par l'ordre des représentaions codées des caractères combinés. Il faut choisir un niveau d'implémentation correspondant au type de caractère. Un niveau 1 correspond à une impossibilité de signes de combinaison, un niveau 2 correspond à une possibilité d'avoir des signes de combinaison ou des caractères precomposés.

L'architecture de la norme ISO/IEC 10646 est présentée ici dans sa version canonique (non limitante), pour un codage sur 4 octets (UCS-4). Elle offre une base théorique qu'il faudra exploiter sur plusieurs niveaux. Le premier est celui du codage des caractères..


Sommaire

Ouverture de la norme

L'informatisation de certaines langues pose plus que des problèmes de mise à disposition des caractères. La compréhension qu'ont la plupart des gens du problème, c'est que le standard Unicode (utilisant 2 octets) s'appliquant au codage de tous les caractères du monde, devrait suffire. Or nous savons que la norme ISO/IEC 10646 (utilisant 4 octets) a bien d'autres potentialités. De plus, la notion de " caractères du monde entier " qui se dégage au premier abord attire l'attention car ce terme fait l'impasse sur un certain nombre de langues anciennes. Pourtant un tiers des personnes fréquentant la Bibliothèque Nationale sont des paléographes.

La norme n'a pas été prévue en vain, si elle a tant de place, c'est qu'elle représente un potentiel énorme de codifications univoques..


Sommaire

Codage des caractères

Unicode c'est déjà 65000 possibilités de codage, la norme entière représente 4,3 milliards de possibilités ! On peut donc coder tous les langages écrits, les symboles mathématiques, les signes diacritiques.

L'informatisation de l'écriture de langues non anglo-saxonnes pose classiquement 10 problèmes :

- Les caractères et leurs formes,

- La place des signes diacritiques,

- Le centrage des signes diacritiques selon la largeur du caractère,

- Les possibilités d'écrire dans plusieurs directions,

- La saisie des données,

- Le stockage des données,

- le tri alphabétique,

- La recherche de caractères,

- Les espaces entre les caractères.

Grâce à Unicode on entrevoit un certain nombre de solutions. Prenons l'exemple de l'écriture cambodgienne. Lorsque 2 consonnes se suivent, la première est située juste en dessous de la seconde pour cette raison elle est dite souscrite. Le problème c'est qu'il existe une consonne non placée sous mais devant la consonne qui est prononcée avant elle. Ce qui interdit une transcription phonétique. De plus, il existe des caractères dits hauts parce qu'ils sont situés au dessus d'un caractère qui les précède, si ce caractère est de taille ordinaire, il se place à hauteur usuelle. Si le caractère est de taille plus haute, il faudra placer les caractères " hauts " à une hauteur supérieure. Les solutions à ces deux problèmes résident dans un programme informatique, rendu plus aisé par la mise à disposition par la norme, de nombreux caractères directement manipulables..


Sommaire

Langues minoritaires et anciennes

Unicode balisera les langues qui ont un usage commercial. Le standard prévoit aussi des zones de codage mises à la disposition de ceux qui en ont besoin. Le consortium de vendeurs à l'origine du standard a eu pour objectif de rendre disponibles les langues industrielles sur ordinateur, mais a senti aussi qu'il fallait amorcer le mouvement, vers une norme à 4 octets offrant d'énormes opportunités. C'est pour cette raison, qu'il existe à l'intérieur d'Unicode, des zones réservées à un usage privé et qui sont en fait des zones d'expérimentation. Il paraît intelligent de faire des tests sur 2 octets (dans les 16 premiers plans de la norme) puis de les insérer dans la norme 10646 à 4 octets : voici la procédure que nous proposons à travers l'exemple de langues anciennes ou enclavées. On reste ici dans le domaine du codage des caractères qui demeure d'un niveau sémantique faible mais qui s'avère être primordial aux ethnologues, aux biologistes, aux archéologues, à ceux qui veulent mettre en avant des langues enclavées comme celle des Touaregs, le tamacheq (utilisant l'alphabet tifinar), ce qui peut représenter un enjeu arabophone et francophone. On doit proposer des dictionnaires ayant comme langue de base, le français ou simplement des dictionnaires bilingues dont une partie des termes est en français parce qu'il n'en existe pas de très bons et parce qu'on peut ainsi éviter de perdre des patrimoines. Il est dommage que des chercheurs d'origine francophone travaillant sur des langues océaniennes sous zones d'influence française ne produisent que très peu de publications alors que des chercheurs anglo-saxons travaillant sur cette zone mais numérisant systématiquement leurs travaux et les mettant sur réseau, arrivent à produire 80 % des publications scientifiques. Nous choisissons, l'espace francophone comme zone privilégiée, parce qu'il a été constaté que la zone extrême-orientale, a de fortes chances d'être favorisée, car elle code du caractère et du lexique multilingue (en japonais, chinois, coréen). L'intérêt de l'AUPELF et de l'Académie Francophone des Ingénieurs pour nos travaux, montre combien ces organismes tiennent à ce que le Français ne soit pas dépassé par les progrès en ingénierie linguistique.

.


Sommaire Contrebalancer, en Europe et en Francophonie, les chances culturelles et industrielles de l'Extrême-Orient idéographique

En Extrême-Orient, l'informatisation de langues comme le japonais, a posé de tels problèmes que le codage sur 2 octets n'est pas une nouveauté. Ainsi, existe-t-il déjà dans ces zones d'écriture des lexiques très élaborés où l'utilisation d'idéogrammes conduit à manipuler des concepts plutôt que des caractères. Le système d'écriture japonais est un système mixte d'idéogrammes et de syllabes. On peut le définir comme un syncrétisme issu de l'empilement de logiques d'écritures.

Nadine Lucas, chercheur linguiste spécialiste du Japon au CNRS-LIMSI, nous a renseigné sur cette évolution:

* l'adaptation du chinois à la langue nippone (IVe siècle),

* la naissance au VIIe siècle, l'écriture syllabaire avec deux séries graphiques parallèles, les hiragana (graphie arrondie inventée par les femmes de la cour pour noter phonétiquement le japonais) et les katakana (graphie angulaire inventée par les moines),

* le développement de la graphie mixte kanji-kana. où les kanji (sens et son ) sont utilisés pour noter les concepts et les kana pour noter les formes variables des verbes, les particules grammaticales, certains adverbes,

* l'élaboration d'une norme informatique de codage des caractères sur 2 octets, le JIS (Japan Industrial Standard), définissant un jeu 6349 caractères (la saisie est effectuée en transcription phonétique) et qui est le fruit d'un véritable choix culturel (conserver une graphie traditionnelle au lieu d'adopter une transcription alphabétique),

* l'adoption d'un fonds commun de glyphes7 regroupant 6000 mots basiques par la Chine, le Japon, et la Corée, le CJK qui est codé dans le plan basique multilingue.

Il en résulte des grandes capacités d'échange entre les trois pays qui ne renient pas leur originalité culturelle et peuvent revendiquer une place dans les 16 premiers plans.

Dans l'espace anglophone, il existe déjà des commissions dans lesquelles on essaie de faire quelque chose. Pour éviter de se trouver en marge d'un développement informatique, il faut espérer rassembler une communauté francophone. Il nous semble essentiel de faire naître une prise de conscience nationale et francophone des enjeux de la normalisation du codage de caractères sur plusieurs octets. Il y a un risque de prise en compte minimale face à la complexité des questions que l'on se pose. De plus, il faut promouvoir l'utilisation de la langue française sur les inforoutes (à quoi sert le courrier électronique, si on ne peut pas envoyer un gros corpus de textes en français ?)..


Sommaire

Langue des signes

En abordant la langue des signes, nous sommes frappés par la nécessité de définir exactement ce qui doit être codé. Pour pouvoir coder, il est indispensable d'établir des listes fermées (répertoires dédiés) . En amont de ce travail, certaines questions essentielles devront être abordées (qu'est-ce qu'une langue, par exemple ?) .La langue des signes peut être représentée de deux façons. Il existe une écriture des signes et il existe une dizaine de systèmes de signes avec les mains dans le monde (on peut néanmoins définir des règles universelles). Tout ce qui est gestuel est codé (mimique faciale, position relative, mouvements du corps...). Les glyphes (formes des caractères) ne sont pas déterminés. Le problème dépasse largement celui de la simple dactylographie (transcription en signes alphabétiques conventionnel). Les structures linguistiques de la langue des signes montrent les enjeux de cette langue iconique et spatiale. Il est important de mettre cette langue à disposition sur les écrans, comme outil pédagogique et ouvrir ainsi un espace culturel à la communauté des sourds tout en leur offrant un moyen de communication internationale. Des travaux comme la saisie numérique des gestes de la langue des signes, pourraient déboucher, à long terme, sur l'étude d'un système numérique de notation iconique et dynamique qui pourrait être candidat à occuper une place sur les futures extensions d'un plan multilinguiste étendu. Ceci est un exemple concret de projet qu'il faut faire aboutir car sa réalisation n'est pas évidente. Les sourds écrivent, l'inconvénient c'est qu'il y a trop peu de locuteurs pour que cela soit facile. L'idéal serait de performer des gestes reconnaissables avec un minimum de capteurs (pour les ordinateurs). La performance gestuelle est plus rapide. Puis il faudrait que cette " chorégraphie compréhensible " soit retranscrite en schématique signée qui serait une écriture à partir du gestuel. L'écriture à partir du son représente, pour les sourds, bien évidemment un obstacle.

Grâce à la norme ISO/IEC 10646, on ne codera pas que des caractères ou des symboles, d'autant plus que la saisie peut avoir plusieurs modalités. Logiquement, on pense à la possibilité de code des termes entiers. L'intérêt est évident pour le codage de catalogues commerciaux, de brevets, de formules chimiques, de données physiques, utiles en industrie, donc sources de gros enjeux industriels, scientifiques, économiques. Les codes de commande ont également leur places dans cette norme, ce qui facilitera bien des programmations. Mais des exemples d'applications comme celui de la langue des signes, ouvre une étape supplémentaire de codage, le codage de structures.

4) Dictionnaires électroniques, syntaxes et logiques

Il serait intéressant, d'établir une convention unique sur les dictionnaires électroniques multilingues de spécialités8 pour traduire des correspondances entre les termes. Il faudrait trouver un codage de fonctions suffisamment compact pour utiliser facilement la vingtaine de relations sémantiques lexicales de correspondance entre mots. On pourrait ainsi distinguer par exemple, deux niveaux sémantiques : les relations clairement déterminées (" partie de ", inclusion, appartenance) qui sont des relations ensemblistes et des relations contextuelles volontairement ambiguës (relations d'association ou de coparticipation, des relations existant non pas entre les mots mais entre mots et structures de textes).

Ces fonctions peuvent être enseignées comme une grammaire partagée par une large communauté (plutôt qu'une syntaxe spécifique ou spécialisée) et permettre ainsi une avancée vers un savoir-faire sur les dictionnaires électroniques. En disposant d'un certain nombre de codes de base, on pourra partager une organisation grammaticale relativement compliquée et aboutir à un consensus syntaxique général. L'enjeu c'est de faire passer dans la culture une syntaxe généralisable, comme cela a été le cas pour SGML où on a normalisé une métanorme de l'organisation du livre, compréhensible par tous. On pourra fabriquer des logiques. Par exemple ne plus raisonner en objets mais en classes et sous-classes d'objets, en équivalence de classes et non pas en équivalence de mots.

On peut longtemps rêver sur l'énorme potentiel de la norme ISO/IEC 10646. Pour en faire une bonne utilisation, il paraît essentiel de spécifier un cahier des charges d'attribution des plans. Nous devons chercher tout ce qui fait l'objet de codage (écritures, symboles...) en répertoriant

* les signes vivants,

* ceux qui font l'objet d'une transcription graphique,

* ceux qui sont dans un système de normalisation internationale.

Pour une langue donnée, par exemple, on choisira un jeu de caractères, et un système de tri (il faut savoir que si les alphabets diffèrent , les classements le peuvent aussi et c'est un réel problème pour les bibliothécaires qui contournent l'écueil en ignorant les signes diacritiques).

En abordant la langue des signes nous sommes frappés par la nécessité de définir ce qui doit être codé. Pour pouvoir coder, il est indispensable d'établir des listes fermées. En amont de ce travail, certaines questions essentielles doivent être abordées. L'exemple concret du dictionnaire électronique comme application de la norme contient déjà des niveaux différents de réflexion. D'une part, la construction de dictionnaires et thesaurus multilingues pose des problèmes de syntaxe (pour structurer le dictionnaire lui-même, pour structurer les relations entre mots) qui pourront être résolus si on peut coder des fonctions logiques, des fonctions informatiques (y compris des codes de commande multimédia , champs prévus par la norme 10646). D'autre part, le multilinguisme sera possible grâce au grandes capacités de codage des caractères de la norme..


Sommaire

Démarche normative : les deux tendances

La démarche normative naît d'un besoin basique de consensus autour d'une pratique existante (une réalisation technique, par exemple). De cette base pratique résultent des documents constituant des données de référence issues d'un choix collectif national ou international. Ceci suppose un état d'esprit de la normalisation : il faut entretenir des interlocuteurs (" tout entendre ") en considérant des personnes avec des relations un pour un afin d'assurer une coordination économique et un partage de l'information.

Il peut y avoir une coupure entre la norme et l'esprit d'une norme justement parce que les contributions sont nombreuses (avant l'apparition d'une norme, plusieurs drafts sont rédigés). En outre, l'interaction entre plusieurs domaines entre en jeu dans la construction d'une norme. Le secteur recherche et développement est influencé par le secteur industriel qui est influencé par le secteur marketing, le secteur politico-économique (intra-communautaire surtout).

Les experts de différentes disciplines ont un rôle à jouer dans la démarche normative qui concerne la norme 10646. En effet, c'est un dossier ouvert et vivant. Dans le BMP (Basic Multilingual Plane) qui est le seul plan défini pour ISO/IEC 10646, la zone O comptent 16384 positions qui sont réservées pour des extensions normatives futures et la zone R avec 8190 positions contient des extensions utilisateurs. Le séminaire : enjeux actuels et perspectives du codage des caractères sur plusieurs octets (animé par Henri Hudrisier), peut ainsi s'apparenter à des réunions de normalisation où chacun apporte sa compétence. Notre démarche ne semble pas vaine car nous entretenons des interlocuteurs en France (on a besoin d'activer des réflexions sur le sujet). Plus largement, nous avons un rôle à jouer en Europe (dans le consortium Unicode, l'Europe n'est pas représentée). Henri Hudrisier propose, pour répondre à cette attente, que le séminaire s'attache à révéler et développer des points d'organisation, plus que des points de savoir, de la norme ISO/IEC 10646 en terme de champs de normalisation. Personnellement, je situerai mon travail dans une approche recherche et développement en amont d'applications de la norme.

A l'heure actuelle, il n'y a pas de plans, de projets réels. On sait que les revendications sont nombreuses. Mais ces réclamations n'ont pas fait l'objet d'un tri, d'une étude pour répertorier ce qui existe, ce qui est possible et faisable. Or il faudrait mettre en place un dispositif pour repérer de vraies propositions de caractères : un nom, une glyphe, pour une position unique. nous devons jouer ce rôle et mettre le doigt, sur des propositions concrètes pour pondérer et valider les hypothèses de travail à l'origine de la conception de la norme ISO/IEC 10646.

En se plaçant en amont de la norme , une alternative s'impose :

* Considérer le passage du codage des caractères de 8 bits à 16 bits comme l'enjeu sur lequel il faut focaliser les discussions. En somme, typer les 16 premiers plans de la norme car il serait peut-être prématuré de définir maintenant ce que sera le codage sur 32 bits. Tout au moins peut-on en dessiner le chemin en développant celui à 16 bits.

* Ou penser d'ores et déjà, l'utilisation de la norme 10646 dans sa version canonique car c'est un système universel de codage des caractères. Un codage universel suppose un consensus pour un codage unique où l'on sait dans quel état on se trouve (arménien, chinois, etc...). Même si on ne peut pas ignorer l'existence des séquences d'échappement qui peuvent servir à des protocoles industriels pour aller vers le codage multioctet, ne gagnerait-on pas beaucoup en investissement en mettant en place la compatibilité des systèmes informatiques avec la norme 10646 même si on ne l'utilise que sur deux octets (compatibles avec l'ASCII) pour une application donnée ?Jean-Michel Borde propose au de spécifier un cahier des charges (une sorte de macrodraft) d'utilisation des plans en faisant circuler un document 01, dans le cadre d'une prénormalisation..


Sommaire

L'encyclopédie électronique, Champollion 2000

Champollion 2000 est un projet de dictionnaire électronique d'écritures9 évolutif devant être disponible sur Internet et pour partie sur cédérom.

De ce projet doit résulter une maîtrise universelle des écritures rendue possible par les NITC (Nouvelles Technologies de l'Information et de la Communication).

Pour réaliser un tel outil, il faudra encourager des collaborations entre experts de différentes disciplines : ingénieurs en linguistique, historiens, géographes, ingénieurs en informatique, chercheurs en communication... Mais il faudra au préalable dépasser les problèmes liés à l'informatisation de langues non industrielles.

On entrevoit aujourd'hui les solutions à ces problèmes grâce à la norme internationale qui devrait remplacer l'actuel standard de codage des caractères (l'ASCII), la norme ISO-IEC 10646. Seule une telle norme, offrant dans sa version simplifiée (Unicode), 65635 possibilités de codifications de caractères, est à même de représenter toute la diversité de l'écrit dans le monde.

Grâce à un dictionnaire informatique des écritures, on pourra circuler de façon encyclopédique et technico-typographique dans toutes les instances linguistiques du monde. Il s'agit d'obtenir la circulation multilingue d'informations.

Dans le cadre de la Francophonie on peut espérer profiter d'une solidarité susceptible de réunir une communauté de chercheurs autour de ce projet, communauté désireuse de faire circuler sur réseaux, ses compétences, son savoir et ses expertises. La Francophonie doit tenir compte de la diversité linguistique qui cohabite avec le français. Cela implique que l'on ait la volonté et que l'on ne refuse pas un état comparé et contradictoire des langues notamment dans leurs dimensions techniques, industrielles, cognitives, économiques, pédagogiques... Une bibliothèque de langue, par exemple, doit pouvoir mettre en place ou utiliser un système informatique fiable, lui donnant la possibilité de manipuler des langues très différentes. Elle risque autrement de ne pas être réellement fonctionnelle.

Le réseau Champollion 2000, veut être l'instigateur de tels projets, dans le vaste espace de la Francophonie parce qu'il est contient tous les ingrédients nécessaires à la réalisation de projets de portée universelle..


Sommaire

Les entrées de Champollion 2000

Elles sont encore à définir selon les doléances répertoriées en matière de codage des caractères d'une part, puis selon une liste de projets qui ont un niveau de complexité différent d'autre part, jusqu'au codage de termes entiers..


Sommaire

Liste des entrées

C'est un constat, les propositions pour remplir les plans de la norme au delà du plan Unicode, sont attendues. Si le Plan Basique Multilingue s'attache au codages des langues, ce n'est pas un hasard. De nombreuses écritures peuvent revendiquer des positions de codage et même si le CJK est codé, les besoins culturels des Chinois, Japonais et Coréens peuvent les encourager à revendiquer des positions de codage. Mais le codage des caractères, nous l'avons admis, n'est pas le seul champ d'application de la norme. La suite logique de cette démarche, c'est de chercher à coder ce qui est déjà discrétisé. Les systèmes existant doivent être codé en premier lieu. Il y aura d'autre étapes vers des systèmes plus complexes dont il faudra concevoir la codification.

Il faudra établir des listes d'entrées selon les hypothèses de travail énoncées ci-dessus. Pour chaque projet, je poserai 3 questions :

* en quoi ce projet peut-il revendiquer une position de codage ?

* quelles difficultés cela pose ?

* quelles compétences rassembler pour répondre à ce besoin ?

L'élaboration d'un dictionnaire électronique d'écritures est basée sur l'augmentation des possibilités de codage permise aujourd'hui par la norme ISO/IEC 10646.Ce travail s'inscrit donc dans une démarche normative, qui fonde sa logique sur des attentes concrètes de codifications, qui permettront d'établir un consensus sur la façon dont le dictionnaire sera construit.

En amont de ce travail, il nous paraît nécessaire de mettre en oeuvre une recherche sur les écritures du monde, en répertoriant :

* les écritures vivantes,

* celles qui font l'objet d'une transcription graphique

* celles qui font l'objet d'une normalisation internationale.

Pour une langue donnée, il faudra choisir,

* un jeu de caractères,

* un système de tri.

Voici une liste d'entrées correspondant à des propositions de codage parmi lesquelles certaines écritures sont discrétisées :

* les langues de minorités,

* les écritures anciennes,

* les jeux de caractères à usage bibliographique,

* les formules chimiques, symboles mathématiques,

D'autres, sont à discrétiser et ont une ampleur culturelle :

* le langage des sourds-muets

Cette liste est, bien entendu, ouverte, le réseau Champollion 2000 a également pour vocation de définir tous les usages du dictionnaire électronique d'écriture. Ce réseau, pour être fiable et performant, devra tenir compte de certains aspects comme la protection des droits d'auteurs qui fait partie de contraintes économiques et juridiques incontournables. D'ailleurs pourquoi ne pas envisager la possibilité de coder des patronymes à l'aide de la norme ISO/IEC 10646 .

Il faudra aussi déterminer si un projet entre dans le cadre d'un codage dans le BMP, d'un codage sur 2 octets (correspondant aux 16 premiers plans) ou d'un codage sur 4 octets (avec éventuellement des zones d'échappement vers 2 octets).

Chaque projet sera étudié séparément pour dégager des problématiques plus générales..


Sommaire

Les particularités de l'entrée Vietnam

Les événements historiques connus par le Vietnam, ont abouti à une diversité culturelle que les écritures, présentes sur ce territoire, peuvent illustrer. Les caractères idéographiques Han du sino-vietnamien ou chinois prononcé à la vietnamienne ont d'abord été utilisés. Est né ensuite le Nôm, écriture idéographique du vietnamien, puis au XXème siècle, le quôc ngu, élaboré par Alexandre de Rhodes, à partir de l'alphabet latin. Grâce à un système de ponctuation complexe, on a réussi à traduire la subtilité tonale du vietnamien. Toutes ses écritures sont quasiment présentent dans la vie quotidienne des Vietnamiens, en plus des écritures de minorités telles que l'alphabet thaï ou le sanscrit.

A travers une iconographie importante le document web sur " les écritures au Vietnam ", suivant ce schéma historique, espère illustrer l'idée que plus un pays est multilingue, plus il devrait pouvoir disposer d'outils à même de l'aider à maîtriser et à comparer les différentes facettes historiques, linguistiques ou scripturales de sa (ou ses) littérature(s), en comparer et en échanger les divers corpus, enfin pouvoir les mettre en relation avec la littérature française dans l'espace francophone élargi..


Sommaire

CONCLUSION

La norme ISO/IEC 10646 est le seul système de codification apte à la réalisation d'une véritable base de données multilingue.

Le remplacement de l'ASCII par Unicode et ISO/IEC 10646 en tant que codage universel des caractères, ne fait pas de doute. Mais, au préalable, un travail de conception des applications est nécessaire. C'est une étape de normalisation fondamentale dans l'implantation de systèmes d'information sur réseau dans le monde qui s'ouvrira probablement sur les possibilités de codage à 32 bits autorisant le codage de termes entiers et de fonctions de commande logiques, informatiques, mathématiques. En se plaçant dans le cadre de la normalisation on travaille rationnellement par une meilleure connaissance des problèmes. Démarche d'autant plus importante qu'elle ne propose pas un système fermé mais qu'elle augmente les chances d'échanger en minimisant les limites dictées par le langage, et de mettre des moyens extraordinaires à la disposition de l'Education. Des problèmes comme la constitution de l'adéquation des séquences alphabétiques des langues, pourraient, par exemple, être largement résolus pour les bibliothécaires que l'on doit encourager à utiliser la norme ISO/IEC 10646 au lieu d'utiliser leurs propres jeux de caractères. Ceci est un exemple d'application à l'information et à la documentation. Bien d'autres champs d'application peuvent être envisagés. L'exemple qui semble le plus représentatif des potentialités de la norme, est celui de la langue des sourds. C'est une langue dont l'écriture ne fait pas encore l'objet d'un véritable consensus. Il est donc nécessaire de rassembler des linguistes spécialistes de cette langue autour de la question . Il se pose également un problème de saisie qui est intéressant car le résoudre pourrait changer certaines habitudes et ouvrir bien d'autres possibilités (mise en place d'un transcripteur gestuel puisqu'il s'agirait de coder la position du geste). L'enjeu est important, car en permettant l'accès au matériel informatique à des sourds muets, on offre un outil pour l'éducation et la culture.

L'encyclopédie électronique sur les écritures du monde, Champollion 2000 devrait être à l'origine de la mise en place effective de tels projets puisqu'ils en seront le contenu.

La démarche d'élaboration de ce dictionnaire encyclopédique, basée sur la normalisation du codage des caractères est une démarche prospective. Avec un tel sujet, on ne peut pas se fixer sur la réalisation d'un seul projet, pour valider les hypothèses de travail car la norme n'est pas encore stabilisée. Il paraît donc primordial, de répertorier les besoins afin de donner des clés pour résoudre des problématiques.

Il semble essentiel de tout mettre en oeuvre pour une coopération étroite internationale et multilingue autour de ces travaux, d'où la nécessité d'impliquer la Francophonie et les organisations et les systèmes d'information qui ont la volonté de concrétiser ces projets. On peut ainsi souhaiter rendre possible l'accession à des logiques différentes des logiques que nous connaissons en Europe.

* Dans un premier temps, il faudra constituer un comité de rédaction. L'interdisciplinarité ici, grâce aux technologies des sciences de l'information et à une connaissance précise de domaines sera un ressort essentiel,

* formaliser une maquette sur plusieurs écritures (plusieurs entrées),

* définir les structures et les formats du dictionnaire électronique selon la diversité de ses entrées.

L'importance du dictionnaire n'est pas à démontrer. C'est le premier outil de connaissance, de formation ou même de vérification. Il ordonne et stocke les savoirs. Enrichi des potentialités du multimédia et de l'hypertexte, il offre d'autres niveaux d'utilisation qui sont autant de chances d'une recherche intelligente d'informations. D'ailleurs, il sera essentiel de définir quelles relations entre les termes devront apparaître dans ce dictionnaire (renvoi vers des synonymes, des termes génériques...). Ces relations entre mots ne sont-elles pas elles-mêmes codifiables ?

Le sujet de ma thèse est une proposition d'un dictionnaire de spécialité, un dictionnaire électronique multilingue biomédical. Les besoins en la matière existent, notamment dans des pays en voie de développement comme le Vietnam qui peut être intéressé par l'aspect évolutif d'un tel dictionnaire régulièrement mis à jour. Au Vietnam, il existe aussi une médecine traditionnelle cohabitant avec la médecine moderne10. D'autres régions pourraient tirer profit de cette particularité pour compenser le manque de médicaments trop chers, par des plantes médicinales plus accessibles. La médecine moderne elle-même pourrait y gagner.

Un séminaire (animé par Henri Hudrisier) : enjeux actuels et perspectives du codage des caractères sur plusieurs octets, se tiendra régulièrement pour la deuxième année en 1997/98, afin de tenter de formuler un certain nombre de recommandations concernant l'application de la norme dans le but de répondre aux diverses attentes formulées par le réseau Champollion 2000. Tous les participants sont d'accord sur la nécessité d'alerter les concepteurs et utilisateurs de systèmes d'information en France. Il existe déjà une normalisation privée, L'EDIFACT qui est un échange de données pour l'administration, le commerce, et le transport. Il reconnaît des spécifications (dates, montants, mesures, transports...). Le langage normalisé de l'EDIFACT comporte un vocabulaire, une grammaire, des messages à l'exemple de la communication humaine. Mais Unicode et la norme qui lui est associée, sont de portée universelle et constituent une véritable innovation en matière de traitement de l'information puisqu'il donne l'accès à des textes que l'on ne peut pas voir jusqu'à maintenant sur un écran. Notamment des textes qui font apparaître plusieurs langues. Même s'il est encore difficile de trouver des applications de ce nouveau standard, et même s'il n'est pas évident de remplacer l'ASCII, il fait l'unanimité de ceux qui le connaissent.

Passer à côte du multilinguisme et de l'amélioration des possibilités de codage, c'est risquer de se mettre en marge d'avancements techniques, économiques et sociaux, il faut élaborer une stratégie solide en assurant des contacts internationaux correspondant à l'idéalité de ma thèse, à savoir mettre à disposition un savoir scientifique réellement utilisable..


Sommaire

ANNEXES


1 Hudrisier H.. Lucas N., Des idéogrammes dopés par les ordinateurs, Manière de voir numéro 12 " Allemagne, Japon, les deux titans ", supplément du Monde diplomatique, Mai 1991, p 44 à 46

2 Marti B., Pour la prise en compte du multilinguisme, Lexiprat 90, La profession informatique face au multilinguisme, Paris, 28 novembre 1990.

3 PC EXPERT ; Unicode le successeur de l'ASCII, Janvier 1994, p249 à 253.

4André J., Gossens M. ; Codage des caractères et multi-linguisme, de l' ASCII à Unicode et la norme ISO/IEC 10646, Cahiers GUTenberg, Mai 1995, numéro 20.

5 Nguyen Chi Cong travaille actuellement sur ce sujet et sur la reconnaissance optique de caractères, à l'Institut de Recherche et d'Application technologique de Hanoi.

6 Bauhahn, M. ;Unesco survey on khmer font coding, Cambodia, july 1993.

7 Le glyphe est une forme géométrique représentant un caractère qui lui est une unité d'information, une notion abstraite.

8 Violaine Prince (professeur des universités, Paris VIII), travaille actuellement sur ce sujet.

9 La maquette du projet a été conçue par Henri Hudrisier, Christiane Rageau, et Michel Bottin (Henri Hudrisier, Champollion 2000, une encyclopédie et une base de ressources typographiques normalisée sur les écritures du monde, in les Cahiers de la Francophonie, Haut Conseil de la Francophonie, novembre 1997, numéro 5).

10 Le docteur Nguyen Nhu Oanh, utilisent les deux médecines pour le diagnostique et le traitement et travaille à l'élaboration d'un dictionnaire de médecine traditionnelle multilingue (vietnamien-chinois-français-anglais)