| sommaire | littérature et informatique | Jean Clément | Cours du 4/11/98 |

La lexicométrie



La lexicométrie; exemples

L'évolution du vocabulaire
Utilisation du logiciel THIEF en lexicométrie. Il se sert d'Hyperbase et du corpus Frantext, soit en mode local soit en ligne.
Exemples de recherches menées avec ce logiciel:
Evolution du vocabulaire; chien et chat n'apparaissent en littérature qu'au XIXème siècle, gloire est excédentaire à l'époque classique.
Le chien et le chat à travers les âges
Le vocabulaire de l'âge classique
On peut aussi le faire travailler sur des listes de mots, par exemple une liste de noms d'animaux; on se rend compte quechouette est en excédent dans les années 60. Cela s'explique par le fait que THIEF ne lemmatise pas; chouette apparaît donc non seulement comme substantif désignant un oiseau nocturne mais aussi (et surtout) comme interjection (chouette!) et adjectif (tout était chouette à l'époque). Même phénomène pour souris qui désigne souvent métaphoriquement une femme.
Le bestiaire de la tranche 1960 du TLF
top


Le vocabulaire d'un auteur
On peut aussi faire des recherches sur un auteur ou une oeuvre précis, par exemple "La Comédie humaine" de Balzac (cycle de romans où les personnages réapparaissent).
On peut, avec une liste des personnages, savoir si dans tel roman tel personnage est présent. Possibilité également de faire des recherches thématiques.
On peut comparer les lexiques d'auteurs différents à partir de listes; par exemple Colette utilise le plus le mot chat dans une tranche d'écrivains donnée. Cela permet d'avoir une idée de l'univers et de l'imaginaire propres à ces écrivains.
top

L'analyse factorielle
C'est une façon de représenter, en 2 dimensions, les rapports de proximité et d'éloignement entre des mots et des oeuvres.
top

Les limites de la lexicométrie
La lexicométrie ne travaille que sur les mots tels qu'ils apparaissent dans les textes. Si l'on veut par exemple étudier le vocabulaire de la guerre, il faudra établir un champ lexical de la guerre. Cela pose le problème de la manière de cartographier des documents à partir de leurs thèmes (voir le cours d'Alain Lelu). Il s'agit de faire émerger des proximités entre des documents, fondées non pas sur le vocabulaire mais sur la méthode des N-grammes. Elle donne la possibilité de choisir comme unité d'analyse un nombre n de grammes. Par exemple si n=10 la machine va examiner toutes les occurrences d'une chaîne de 10 caractères (blancs y compris) donnée. A chaque fois qu'elle rencontre la même séquence, elle la mémorise et permet donc de connaître le nombre d'occurences dans un texte ou un ensemble de textes de cette séquence. Cette méthode présente un intérêt supplémentaire du fait qu'elle n'est pas liée à la langue. Elle fonctionne mieux sur un nombre élevé de textes courts (catalogues, notices).
top


Vers d'autres méthodes
Il est nécessaire d'ouvrir la lexicométrie vers d'autres méthodes, afin d'étudier plus précisément l'aspect thématique des textes.
Utilisation à cet effet des champs lexicaux.
Champ lexical: ensemble des vocables (= des mots) se rapportant à un thème. La constitution d'un champ est fortement subjective.
Champ sémantique: ensemble des différentes acceptions que peut prendre un vocable. Concept proche de celui de valeur, qui désigne le sens d'un mot en tant que celui-ci est saisi dans son réseau de relations avec les termes voisins, de sens analogue.
top

La stylostatistique
Elle étudie les caractéristiques d'un style à partir de relevés quantitatifs.
La notion d'écart: tout fait de style peut être assimilé comme un écart par rapport à une norme. Le style sera donc l'usage que fait un écrivain de la langue; il sera considéré comme déviant dans la mesure où il se démarque d'un usage que l'on déclare standard. Cette notion est très contestée. On a critiqué la référence à une norme langagière. En effet, on peut contester l'existence d'un usage moyen et standardisé de la langue; à la limite, l'absence de style est elle-même un style ("écriture blanche"). En réalité, il s'agit plus de constater des écarts par rapport à des usages attestés dans des corpus que de mesurer des écarts par rapport à une norme absolue qui d'ailleurs n'existe pas.
Exemple de Flaubert, qui attachait une importance extrême au style. On prend comme corpus de référence ses oeuvres complètes, et on mesure les écarts qu'y font chaque opus particulier. On constate une évolution du style entre Madame Bovary et Bouvard et Pécuchet.
La tentation de Saint-Antoine a été réécrite à 2 reprises par Flaubert, on peut donc mesurer les écarts qui existent entre les 3 versions.
On peut vérifier par exemple l'hypothèse émise par Albert Thibaudet, célèbre flaubertien: le style de Flaubert serait influencé par l'art oratoire.
Notons que Flaubert disait tous ses textes dans son "gueuloir" (une petite pièce destinée exclusivement à cet usage) pour vérifier s'ils "sonnaient" bien.
La stylostatistique permet de vérifier des hypothèses de lecture.
L'informatique ne joue ici que le rôle d'un outil.
top

L'utilisation de l'ordinateur comme outil auxiliaire en littérature

Vérification des travaux de Saussure sur les anagrammes
On peut soumettre à l'ordinateur la vérification d'une hypothèse formulée par le linguiste suisse Ferdinand de Saussure. Ce savant, à côté de son oeuvre principale, a mené secrètement un travail de recherche sur les poètes saturniens (poètes latins). Saussure a pensé avoir découvert chez eux un usage significatif de l'anagramme. Un anagramme est un mot obtenu par transposition des lettres dun autre mot. Par exemple MARIE est l'anagramme d'AIMER. Le palindrome est une variété particulière de l'anagramme; c'est un mot qui peut se lire dans les 2 sens. ROMA/AMOR et REGATE/ETAGER sont des palindromes. Georges Perec a écrit un palindrome d'une page et demie!
Saussure a pensé que les poètes saturniens cachaient sous des anagrammes les noms de divinités, de dédicataires (rois, personnes aimées, mécènes...).
Pour lui, l'anagramme, en disséminant dans le texte lettres ou sons, fait lire des mots sous les mots et permet la pratique de lectures souterraines, hypogrammatiques.
Certains voient dans la conception anagrammatique de l'écriture une voie d'accès à l'inconscient du travail poétique.Le texte dit quelque chose qui n'est pas écrit.
On a toujours cherché à mettre en évidence dans les textes anciens des procédés formels de chiffrement/cryptage.
top