| sommaire | littérature et informatique | Jean Clément | Cours du 14/10/98 |

Texte et ordinateur


La numérisation d'un texte
Schéma de la numérisation des textes
Le mode image restitue fidèlement tous les éléments nécessaires à l'interprétation d'un texte, mais toute génération est rendue impossible dans ce mode. Les grands organismes[1] comme le CNRS, la Bibliothèque Nationale de France et des structures bénévoles numérisent de grandes quantités de textes. On se dirige vers une numérisation généralisée de la littérature mondiale, ce qui cause des problème de droits d'auteurs.
Le CNRS a entrepris depuis 10 ans de numériser en mode texte la littérature en langue française de la fin du moyen âge jusqu' à nos jours.
Par opposition à ce choix la BNF numérise en mode image. Pour ses 100 000 ouvrages, c'est une solution plus économique et rapide; autre avantage, pour les manuscrits par exemple, ce mode conserve la mise en page d'origine. La BNF met à la disposition des chercheurs sur 2000 postes de travail des logiciels de reconnaissance de caractères (OCR en anglais).
top

La norme SGML
Une solution qui reconstituerait dans le mode texte les caractéristique du mode image : la norme SGML (Standard Generalized Markup Language).
C'est une norme universelle de marquage ( balisage ) qui consiste à introduire dans un texte numérisé en mode texte des balises qui vont indiquer la fonction du mot. Le balisage logique ne renseigne pas sur l'aspect physique du document mais il renseigne la machine sur la fonction des portions de texte qu'il entoure. Un titre va être restitué dans le balisage SGML par un balisage qui indiquera"ceci est un titre de premier niveau". C'est la mise en évidence de la structure logique du texte.
Texte d'Apollinaire balisé en SGML
En plus du texte s'ajoutent des caractères qui vont être interprétés par le traitement de texte : RTF ( Rich Text Format ). Cette norme s'est imposée et permet à n'importe quel traitement de texte de faire une mise en page identique à l'original quelle que soit la plateforme.
Texte d'Apollinaire balisé au format RTF
SGML est, lui, un balisage logique pour renseigner l'ordinateur sur "ceci est un titre, un poème, un vers; il est possible de traduire un balisage SGML en balisage physique (titre, telle police, nom de l'auteur en bas à droite ), il pourra être interprété dans plusieurs années.
Les normes ISO (AFNOR en français) sont respectées par les constructeurs mais les normes des constructeurs ne font pas l'objet d'un consensus international. Les éditeurs français ont adopté la norme SGML pour constituer un fond de textes numérisés déclinables dans des éditions différentes (poche ou Pléiade). Les faibles coûts du stockage, de la maintenance et de la saisie les ont convaincus. SGML présente aussi un intérêt en documentation technique: l'armée américaine l'a imposée à tous ses fournisseurs, le gouvernement danois à son administration et EDF en France aux rédacteurs de notices techniques, afin de faciliter la maintenance des centrales nucléaires. SGML permet de constituer une documentation par la liste des titres, une lecture hypertextuelle par l'accès direct aux résumés dans chaque document.
top

SGML dans le domaine littéraire
Dans le domaine littéraire, SGML définit un jeu de balises et une syntaxe. Les chercheurs en sciences humaines se sont mis d'accord sur une appellation de ces balises, la norme TEI (Text Encoding Initiating). Pour interpréter les balises, SGML utilise une métagrammaire; chaque norme SGML fait l'objet d'une DTD (Document Type Definition), il y a une DTD pour les sciences humaines et un plus précise pour le théâtre, pour la poésie ...etc. Pour lire les balises SGML il faut un interpréteur (ou navigateur) TEI. Il en existe peu, ils sont chers et concurrencés par d'autres normes.
top

Le balisage logique
HTML à l'origine ne se souciait pas de donner une apparence physique aux documents, cela s'est fait sous la pression des éditeurs.
Ex.: <EM> emphasis (mise en évidence) est une balise logique pouvant être interprétée par "mettre en gras", "mettre en italique" ou autre. On peut résumer le balisage logique par "trust your client", laissez le client choisir comment il va traduire physiquement la balise emphasis. Aujourd'hui le balisage physique l'a emporté sur le balisage logique. Il est important d'avoir un mode image qui restitue fidèlement le logo, la typographie définissant une société. Les feuilles de style permettent de retrouver un balisage logique.
top

Comment s'écrit une DTD.
HTML est un sous ensemble de SGML. Un document SGML est constitué de deux éléments, la DTD et le jeu de balises à utiliser. Dans le cas du HTML, les navigateurs intègrent la DTD et il suffit d'y faire allusion dans le document codé en HTML pour que le navigateur interprète les balises. Quand le DD3 publie la nouvelle DTD du HTML, pour connaître les nouvelles balises, il faut savoir déchiffrer une DTD. Les balises traduisent une structure de l'arborescence SGML.
Une DTD décrit trois niveaux de cette arborescence :
Structure logique d'une anthologie poétique

Les éléments :
Anthologie, poème, strophe, acte, scène, personnage, indications scéniques, sont des éléments hiérarchisés.
Les attributs :
sont des spécification de ces éléments, ex. vers avec une rime masculine ou féminine. Un élément peut avoir plusieurs attributs et l'attribut fait partie de l'élément.
L'entité :
est une chaîne de caractère qui est interprétée et remplacée. &.....; est une entité on peut par exemple remplacer "u" par "û" pour du français du 18ème siècle. En ASCII les caractères sont codés sur 7 bits. Les caractères accentués ne peuvent pas circuler sur le réseau, l'ordinateur interprète les attributs grâce aux entités.
top

DTD d'une anthologie poétique.
DTD d'une anthologie poétique et explication des symboles

top

Notes


[1]Un corpus : ensemble de documents (un corpus de texte).
Retour texte