Fréquence relative, l'écart réduit
Pour comparer les excédents ou les déficits d'une forme on utilise l'écart réduit.
L'écart réduit obéit à une formule statistique:
écart réduit = fréquence d'un vocable - fréquence théorique sur racine carrée de fréquence
théorique.
C'est une valeur soit positive, soit négative avec une échelle plus facile à interpréter.
Si l'on applique des règles statistiques à une population de mots, l'une des choses qui
apparaît en premier c'est la structure du vocabulaire, les 15 premiers sont plus nombreux que les
16, qui sont plus nombreux que les 18 ... etc. Plus une classe de mots a une fréquence
élevée moins elle est nombreuse. Au début des fréquences il existe des trous, seulement
à partir d'un certain moment cela se rapproche jusqu'à ce qu'on arrive aux classes
40, 51 ... à la fin de la série les mots qui n'apparaissent qu'une fois : c'est la
classe la plus fréquente, presque la moitié du texte en fréquence 1. Le mot de la fréquence
1 s'appelle HAPAX. Si un hapax apparaît dans les textes d'Homère, pour le traduire
on devra connaître le vocabulaire de la Grèce ancienne (un CD-Rom regroupe tous ces
textes). Comment interpréter un mot qui n'apparaît qu'un fois dans une langue ancienne qui
n'est plus parlée ?
Plus un auteur a un vocabulaire riche plus il utilise d'hapax, certaines formes comme
les subjonctifs peuvent apparaître comme des hapax. C'est un signe de richesse du
texte, même pour un verbe non lemmatisé. Tout est relatif à la longueur du texte
jugé.
top
Elaboration d'un corpus de référence
Le corpus de référence "Trésor de la langue française", issu d'un long travail du
CNRS, est une somme de tous les mots apparus dans la langue française.
Pour constituer ce corpus, il fallait fournir aux rédacteurs le mot et des exemples
de son utilisation, et ceci avant les logiciel de reconnaissance de caractères. Il
a fallu collationner l'ensemble des textes qui à servi aux rédacteurs du TLF ( environ
3 000 ouvrages ). Ce corpus a servi à alimenter les rédacteurs du dictionnaire, mais constitue
de plus une formidable basse de données : FRANTEXT. Ces ouvrages numérisés sont
accessibles grâce à un logiciel: STELLA qui permet la consultation, soit sur cd-rom soit en ligne, de la base de données.
Si l'on consulte le dictionnaire au mot "droit" on voit qu'il est utilisé 40 000 fois
dans la totalité du corpus. Comment a été constitué ce corpus et comment a-t-il été
partitionné pour en faire une basse de données ? Dans le TLF le mot "droit" est illustré par 70 exemples, dans FRANTEXT par 40 000 exemples, quels ont étés les critères
de distinction? 70 exemples ont été choisis comme les plus représentatifs par les
lexicologues.
top
Utilisation du "Trésor de la langue française"
Il couvre une période allant de 1300 à 1960 et de 1960 à 1985, à l'époque on a essayé de
respecter un équilibre dans la répartition dans le temps, avoir 5 millions de mots
par décennie pour avoir des tranches de dix ans homogènes et varier les genres représentés
dans la base, la tranche de 1789-1960 comprend 404 romans, 190 pièces de théâtre,
mémoires, récits de voyages ... c'est un mélange de genres littéraires.
Dès le départ, au moment de la saisie, on a introduit des codes propriétaires STELLA,
la norme SGML n'existant pas. Ces codes en sont très proches : division en chapitres,
titres, contenu, éditeur, date de parution, paratexte, indications scéniques, mots
en langues étrangères ... et permettent de retrouver les caractéristiques de la mise
en page d'origine.
Ce code permet de délimiter un corpus, par genre, par auteur, ...
top
Recherche sur un texte numérisé
Système de textes en ligne et en libre accès, il est nécessaire de travailler sur un
corpus défini. Par exemple toutes les oeuvres de Jules Verne parues chez Hetzel ou
le lexique commun à Chevrier et à Baudelaire. Il faut une référence pour une étude
comparée.
On peut lancer des recherches, retrouver un mot, une chaîne de caractères (une expression),
préciser si ces mots doivent apparaître en début de phrase, ou avant tel mot, rechercher
des occurrences; exemple : trouver tous les passages du théâtre d'Anouilh où le mot "bonheur" est utilisé avant tel mot.
top
La notion de fréquence est apparue pour les besoins de la sténographie. Constitution de dictionnaires de fréquences.
La disponibilité permet de pondérer la notion de fréquence absolue. Notion de lexique de situation.
Voir: Vocabulaire fondamental du français, de Georges Guggenheim
On dispose aussi de dictionnaires de fréquences de vocables et de formes; par exemple les Listes
orthographiques de base de Nina Catach.
top
Lexicométrie dans le discours politique
On peut, par une étude minutieuse et scientifique du vocabulaire, déterminer l'idéologie
sous-jacente aux mots.
Voir la revue Mots, publiée par le laboratoire de lexicométrie de l'ENS Saint-Cloud.
top
La lexicométrie peut être utilisée pour déceler des faux; recherches en paternité littéraire, dans le cas
des oeuvres écrites en collaboration aussi.
Elle donne, en effet, l'image du vocabulaire d'un auteur. On peut comparer des corpus.
top