| sommaire | littérature et informatique | Jean Clément | Cours du 6/1/99 |

Techniques utilisées en génération: exemples d'un générateur de fables et du logiciel Roman


On étudie dans ce cours les différents procédés utilisés en génération automatique.

La technique du moule

L'aphorisme s'y prête bien car il énonce, de façon brève, des vérités d'ordre général. La contrainte du référent est donc faible. Il n'y a pas de cohérence forte avec le monde physique, moral ou psychologique.
Pour remplir les évidements, on peut constituer une base de données en sélectionnant sur des critères d'homophonie ou bien encore de composition (antonymes, synonymes...).
La difficulté réside dans la détermination du système que l'on va mettre en oeuvre pour indiquer à la machine dans quelle partie du lexique qu'on lui a fourni elle doit chercher. Pour cela, on va marquer (caractériser) les mots et les évidements. Les mots qui s'insèreront devront correspondre au marquages des évidements qu'ils viennent remplir.
On va essayer de produire des textes de plus grandes dimensions.
top

Générateur de fables

Puisqu'il s'agit de textes relativement longs, les mots qui remplissent les évidements vont devoir constituer un réseau sémantique.
On part d'un texte déjà existant de Florian: Le paon, les deux oiseaux et le plongeon
(A l'attention des lecteurs novices: notez que le plongeon est une sorte de palmipède.)
Il va falloir gérer la cohérence sémantique d'un univers animal et de son biotope. On a donc besoin de contraintes sémantiques fortes.
On veut obtenir un pastiche de Florian; pour cela il faut opérer des sélections dans une base de données structurée. Le résultat que l'on souhaite obtenir est très éloigné de ceux obtenus, également sur des fables, par le jeu dit S+7 (cf Jeux oulipiens).
Ecriture d'un petit programme interactif: l'ordinateur demande à l'utilisateur de choisir oiseau ou insecte, ce qui lui permet d'aller ensuite chercher dans la partie de la base de données qui correspond. Mentionner l'article permet de même à la machine de savoir si elle doit prendre des adjectifs masculins ou féminins. Les mots sont reliés entre eux par un réseau sémantique. Le choix de l'animal conditionne le remplissage des moules.
top

Niveau inférentiel de la génération automatique

On fait appel à des techniques de l'intelligence artificielle.

Le générateur Roman
Il a été réalisé par Jean-Pierre Balpe. Commercialisé il y a quelques années, on ne le trouve plus aujourd'hui. C'est un logiciel de proposition d'écriture qui génère des paragraphes. On s'en remet, pour une part, au lecteur dans la construction de l'univers de la fiction. L'ordinateur doit faire des propositions telles que le lecteur puisse y imaginer un contexte, une cohérence. Idée que c'est le lecteur qui construit le sens et le contexte.
top

Le centon
C'est un jeu littéraire très ancien, qui consiste à écrire un texte avec les mots pris dans un autre.
La poétesse latine Falconia Proba a par exemple réécrit la vie de Jésus avec les mots de l'Enéide de Virgile.
top

Le tireur à la ligne
C'est un jeu inventé par Jacques Duchâteau. Il consiste à prendre 2 phrases A et B dans 2 romans différents. Le premier joueur doit écrire une phrase C telle que A et B en soient rendues plus cohérentes. Le jeu continue sur le même principe et l'on constitue ainsi un texte complet. Les 2 phrases de départ sont la matrice d'un univers.
Le centon et le tireur à la ligne fournissent la base du logiciel Roman. La base de données est constituée par des phrases (environ 1000) empruntées à divers auteurs.
Roman utilise un algorithme de sélection qui utilise les vecteurs.
top

Vecteur descripteur
Le descripteur se présente sous la forme d'un vecteur (suite ordonnée de valeurs numériques). Chaque position du vecteur représente un attribut. Chaque phrase est accompagnée d'un descripteur. Son rôle est de renseigner la machine sur les propriétés sémantiques de la phrase. Chaque attribut décrit une propriété sémantique.
Exemple
A La pluie avait cessé
B Il ouvrit son parapluie
C Il sortit
D Il referma son parapluie
L'attribut météo peut prendre 3 valeurs: 0 = neutre, 1 = soleil, 2 = pluie.
Si l'on veut éviter la suite A-B, on met 2 comme valeur dans l'attribut météo.
Un petit nombre d'attributs suffit à créer un micro-univers. Par contre, trop d'attributs créent une situation difficile à gérer.
top

Excursus: jeux oulipiens

L'OULIPO (OUvroir de LIttérature POtentielle) est un mouvement regroupant des écrivains, des poètes et des mathématiciens (Georges Perec, Jacques Roubaud, Italo Calvino...) qui ont beaucoup travaillé sur la contrainte en littérature.
Ils ont inventé et pratiqué de nombreux jeux littéraires, par exemple le S+7, un jeu qui consiste à remplacer tous les substantifs d'un texte par les substantifs situés à la 7ème place derrière eux dans le dictionnaire. Sur une célèbre fable de La Fontaine, cela donne:
A consulter:

top