| sommaire | littérature et informatique | Jean Clément | Cours du 21/10/98 |

Recherches
sur une chaîne de caractères


Que peut faire un ordinateur avec une chaîne de caractères : il peut identifier ou comparer. Rechercher les occurrences, compter le nombre d'occurrences (combien de fois tel mot revient dans le texte), effectuer des opération de statistiques, comparer les fréquences ou autres données quantitatives, sur un texte ou un corpus de textes.
Une idée sous-tend ces opérations : à partit de données quantitatives on peut inférer des hypothèses qualitatives. Les travaux dans ce domaine sont nombreux et apportent une base objective à quantité d'interprétations.
Une machine peut quantifier n'importe quel élément d'un texte :

Recherche sur les lettres
Rechercher les lettres les plus fréquentes peut être intéressant du point de vue de la langue mais apporte peut d'informations sur l'auteur, sauf peut-être l'étude des sonorités en poésie. Il n'y a pas en français correspondance entre phonèmes et lettres. Par exemple le phonème [o] s'écrit [o], [au], [aux], [eau], [eaux]. Il est possible de phonémiser un texte, il existe des programmes de lecture à haute voix de textes, un alphabet phonétique international.
On peut rechercher et étudier les syllabes, majuscules, la ponctuation ...
top

Recherche sur les mots
Le nombre de caractères d'une langue, 26 caractères en français, n'est pas révélateur du style d'un auteur, sauf exception comme "La disparition" de Georges Perec. Le réservoir de mots est beaucoup plus vaste et a une signification. Le vocabulaire d'un auteur lui est propre et la façon dont il utilise le patrimoine commun de la langue fait partie de son style. Cette étude du lexique d'un auteur s'appelle la lexicométrie ou statistique lexicale. C'est une branche d'une sciences plus large : la statistique linguistique.
- Problèmes liés à l'étude des mots
Pour un ordinateur un mot est une suite de caractères délimitée par un séparateur (espace, point, point-virgule ...). Ce procédé mécanique ne permet pas de résoudre certaines difficultés.

ex1 :
"pomme de terre" sera interprété comme trois mots. Si l'on veut que ce soit une unité lexicale, il faut soit mettre des tirets lors de la saisie du texte, soit avoir un dictionnaire qui répertorie l'ensemble de ces exceptions lexicales, que l'ordinateur va utiliser.
ex2 :
"un clin d'oeil", le mot clin n'existe pas en tant que tel.
ex3 :
"un coup d'oeil", le mot coup n'est pas signifiant en tant que tel.
Pour être précis et pouvoir comparer il faut adopter une norme, définir comment rattacher un mot à un autre, prendre garde aux phénomène de polysémie[1] et d'homographie[2].
Dans " Les fleurs du mal" de Baudelaire le mot "vers" peut être une préposition, un substantif qui désigne le vers poétique ou encore la vermine. Le contexte permet de deviner le sens du mot. Le mots "canard" a deux acceptions: oiseau et journal.
Lemmatisation : dérivé de "lemme" (le mot souche). Les lemmes sont les entrées du dictionnaire.
ex1 :
L'infinitif d'un verbe, un lemme, peut avoir de nombreuses formes différentes, 64 pour le verbe être (suis, est, fussions, ...).
ex2 :
la différenciation des formes d'un lemme peut se faire par l'examen du contexte gauche.
"il lit", "le lit", "il le lit".
En une dizaine d'années les algorithmes ont été mis au point pour lemmatiser tous les types de textes. "Vieux", "vieille", "vieilles", "vieil"; si l'on ne lemmatise pas on divise le nombre d'occurrences. Certains chercheurs disent que la lemmatisation fait perdre de l'information, car il peut être intéressant de distinguer par exemple "le peuple" de "les peuples" dans l'étude des discours politiques. Le laboratoire du CNRS de l'école normale de Saint-Cloud (étude des discours politiques) est partisan de la non-lemmatisation.
top

Le mot unité de vocabulaire
Dans ce texte il y a 1 500 mots, le mot "coeur" apparaît 10 fois. Au niveau de la langue on considère le texte comme lexique et le mot comme lexème. Au niveau du discours on considère le texte comme vocabulaire et le mot comme vocable. Une machine n'a pas à faire à la langue mais au discours, en cas d'étude statistique il faut un référent pour comparer. Il est impossible de savoir combien de mots existent dans la langue française. La langue est une chose abstraite qui se réalise dans le discours, à ce niveau on parle de lexique dont l'unité est le lexème. Il n'y a pas deux dictionnaires qui ont le même nombre de mots, ça n'est qu'une photographie de l'état de la langue à un moment donné. "Trésor de la langue française" 20 volumes.
Sur le plan du discours on parle de vocabulaire, on peut dire quel est le vocabulaire d'une oeuvre; un vocable c'est le mot au sens du vocabulaire. Le terme "mot" est réservé au contexte du texte. La fréquence est le rapport entre un nombre de vocables et un nombre de mots. On peut comparer la richesse de vocabulaire entre deux auteurs. Si le rapport vocable/mots est de 1/1, l'auteur ne se répète jamais. La courbe nombre de vocables/nombre de mots va augmenter automatiquement. Certains auteurs remplacent "mots" par "formes". En étudiant le vocabulaire des écrivains classiques on a pu constater que Racine a écrit toutes ses tragédies avec seulement 3 000 vocables.
Occurrences des vocables dans "Les fleurs du mal"
La liste est classée par ordre décroissant (index hiérarchique et non alphabétique )
ponctuation : 2 629 occurrences, viennent ensuite les mots les plus courts ou "grammaticaux" (préposition, articles, pronoms ...) nommés ainsi par opposition aux mots "pleins" (noms, verbes, adverbes, adjectifs ...) ou mots "signifiants" qui ne sont pas de simples outils (syntagmatiques) mais des mots signifiants ( paradigmatiques ).
Les mots outils ne sont pas représentatifs d'un auteur particulier, ils forment la moitié des vocables d'un texte mais ne livrent rien du sens de ce texte. Viennent ensuite les mots "thèmes", une centaine de vocables qui constituent la thématique d'un corpus. Ici coeur, yeux, ciel, vers, sommeil, amour, vieux, soie, ange, noir ... .
L'outil Hyperbase, logiciel développé sous Hypercard, ne lemmatise pas.
top

Liste par critères de fréquence
Les vocables sont classés par fréquence relative (et non par fréquence absolue). L'ordinateur compare le corpus étudié à un corpus de référence, ici FRANTEXT.
Excédent et déficit des vocables des "Fleurs du mal"; pour comparer des fréquences on compare des proportions, on parle en % exprimés de manière lisible (écart à la moyenne et non en valeur absolue)
ô est en excédent (apostrophe poétique), ton, tes aussi (dans les romans c'est la troisième personne qui en général est en excédent, au théâtre ce sera plutôt la deuxième personne), ! est en excédent (signe du lyrisme), ange, noir, parfum, poète, coeur ... sont aussi en excédent (vocabulaire macabre), comme est en excédent (nombreuses comparaisons, texte poétique donc très imagé)
Vocabulaire macabre : ont peut pondérer la liste des mots "thèmes" par des mots "clés", ici les cent premiers vocables sont des mots "clés".
On peut faire apparaître avec la machine des spécificités pour chaque partie du recueil.
"Coeur" et "amour" sont déficitaires dans la première partie, alors que dans les Tableaux Parisiens, seconde partie du recueil, ces mots sont excédentaires, puis déficitaires dans la troisième partie Le Vin.
top

Notes



[1]polysémie : Un mot a plusieurs significations
Retour texte

[2]homographie : Deux mots différents s'écrivent de la même manière
Retour texte