| sommaire | littérature et informatique | Jean Clément | Cours du 28/10/98 |

Vocabulaire,
comparaisons de fréquences


Rappel du cours précédent, polysémie et homographie :
Derrière des formes identiques l'ordinateur peut distinguer deux mots différents. On parle d'homographie quand l'orthographe de deux mots est la même alors qu'ils sont différents, le "lit", il "lit". La polysémie désigne le fait qu'un même mot peut avoir plusieurs significations.

Fréquence relative, l'écart réduit
Pour comparer les excédents ou les déficits d'une forme on utilise l'écart réduit.
L'écart réduit obéit à une formule statistique:
écart réduit = fréquence d'un vocable - fréquence théorique sur racine carrée de fréquence théorique.
C'est une valeur soit positive, soit négative avec une échelle plus facile à interpréter.

Si l'on applique des règles statistiques à une population de mots, l'une des choses qui apparaît en premier c'est la structure du vocabulaire, les 15 premiers sont plus nombreux que les 16, qui sont plus nombreux que les 18 ... etc. Plus une classe de mots a une fréquence élevée moins elle est nombreuse. Au début des fréquences il existe des trous, seulement à partir d'un certain moment cela se rapproche jusqu'à ce qu'on arrive aux classes 40, 51 ... à la fin de la série les mots qui n'apparaissent qu'une fois : c'est la classe la plus fréquente, presque la moitié du texte en fréquence 1. Le mot de la fréquence 1 s'appelle HAPAX. Si un hapax apparaît dans les textes d'Homère, pour le traduire on devra connaître le vocabulaire de la Grèce ancienne (un CD-Rom regroupe tous ces textes). Comment interpréter un mot qui n'apparaît qu'un fois dans une langue ancienne qui n'est plus parlée ?
Plus un auteur a un vocabulaire riche plus il utilise d'hapax, certaines formes comme les subjonctifs peuvent apparaître comme des hapax. C'est un signe de richesse du texte, même pour un verbe non lemmatisé. Tout est relatif à la longueur du texte jugé.
top

Elaboration d'un corpus de référence
Le corpus de référence "Trésor de la langue française", issu d'un long travail du CNRS, est une somme de tous les mots apparus dans la langue française.
Pour constituer ce corpus, il fallait fournir aux rédacteurs le mot et des exemples de son utilisation, et ceci avant les logiciel de reconnaissance de caractères. Il a fallu collationner l'ensemble des textes qui à servi aux rédacteurs du TLF ( environ 3 000 ouvrages ). Ce corpus a servi à alimenter les rédacteurs du dictionnaire, mais constitue de plus une formidable basse de données : FRANTEXT. Ces ouvrages numérisés sont accessibles grâce à un logiciel: STELLA qui permet la consultation, soit sur cd-rom soit en ligne, de la base de données.
Si l'on consulte le dictionnaire au mot "droit" on voit qu'il est utilisé 40 000 fois dans la totalité du corpus. Comment a été constitué ce corpus et comment a-t-il été partitionné pour en faire une basse de données ? Dans le TLF le mot "droit" est illustré par 70 exemples, dans FRANTEXT par 40 000 exemples, quels ont étés les critères de distinction? 70 exemples ont été choisis comme les plus représentatifs par les lexicologues.
top

Utilisation du "Trésor de la langue française"
Il couvre une période allant de 1300 à 1960 et de 1960 à 1985, à l'époque on a essayé de respecter un équilibre dans la répartition dans le temps, avoir 5 millions de mots par décennie pour avoir des tranches de dix ans homogènes et varier les genres représentés dans la base, la tranche de 1789-1960 comprend 404 romans, 190 pièces de théâtre, mémoires, récits de voyages ... c'est un mélange de genres littéraires.
Dès le départ, au moment de la saisie, on a introduit des codes propriétaires STELLA, la norme SGML n'existant pas. Ces codes en sont très proches : division en chapitres, titres, contenu, éditeur, date de parution, paratexte, indications scéniques, mots en langues étrangères ... et permettent de retrouver les caractéristiques de la mise en page d'origine.
Ce code permet de délimiter un corpus, par genre, par auteur, ...
top

Recherche sur un texte numérisé
Système de textes en ligne et en libre accès, il est nécessaire de travailler sur un corpus défini. Par exemple toutes les oeuvres de Jules Verne parues chez Hetzel ou le lexique commun à Chevrier et à Baudelaire. Il faut une référence pour une étude comparée.
On peut lancer des recherches, retrouver un mot, une chaîne de caractères (une expression), préciser si ces mots doivent apparaître en début de phrase, ou avant tel mot, rechercher des occurrences; exemple : trouver tous les passages du théâtre d'Anouilh où le mot "bonheur" est utilisé avant tel mot.
top

La fréquence du vocabulaire

La notion de fréquence est apparue pour les besoins de la sténographie. Constitution de dictionnaires de fréquences. La disponibilité permet de pondérer la notion de fréquence absolue. Notion de lexique de situation. Voir: Vocabulaire fondamental du français, de Georges Guggenheim
On dispose aussi de dictionnaires de fréquences de vocables et de formes; par exemple les Listes orthographiques de base de Nina Catach.
top

Lexicométrie dans le discours politique

On peut, par une étude minutieuse et scientifique du vocabulaire, déterminer l'idéologie sous-jacente aux mots.
Voir la revue Mots, publiée par le laboratoire de lexicométrie de l'ENS Saint-Cloud.
top

Stylistique et lexicométrie

La lexicométrie peut être utilisée pour déceler des faux; recherches en paternité littéraire, dans le cas des oeuvres écrites en collaboration aussi. Elle donne, en effet, l'image du vocabulaire d'un auteur. On peut comparer des corpus.
top