Le support du développement d'une ontologie de la production audiovisuelle
BUI THI Minh Phung
Résumé
La taxonomie est l'organisation des connaissances des domaines spécifiques tels que les sciences naturelles (la biologie), la médecine, les techniques (les automobiles), etc. Les connaissances y sont structurées, analysées et représentées pour pouvoir être intégrées, modifiées et manipulées. Notre travail consister à organiser les connaissances de la production audiovisuelle en exprimant les règles des connaissances de ce domaine dans le cadre d'une représentation structurée et des principes d'organisation ontologique.
Introduction
Notre recherche est menée dans le contexte des progrès sensibles en termes de technologies de l'information et de normes associées à la vidéo. Elle se concrétise dans le cadre du suivi de l'élaboration de la norme MPEG-7 par l'équipe de l'Indexation des Multimédias de LIP6 (Laboratoire d'Informatique de Paris6).
Mpeg-7 est une norme permettant la description et la recherche des contenus des documents audiovisuels. Lobjectif principal de Mpeg-7 est de fournir un formalisme pour supporter les spécifications des différentes classes de descriptions, c'est à dire des différents aspects sur lesquels une description du contenu audiovisuel peut porter. En confrontant les propriétés de ces fonctionnalités de Mpeg-7, nous avons proposé un ensemble d'outils complémentaires en argumentant tant sur le plan du savoir-faire technologique actuel que sur celui des usages de la production. Ces informations sont intégrées dans la description des contenus audiovisuels au niveau du plan des images filmiques - le PSDS (Production Shot Description Scheme) - orientée par l'approche sémiotique et selon les points de vue des professionnels du domaine visé : il s'agit d'accéder à la sémantique d'un document en exploitant des connaissances sur la production de ces documents. La description du PSDS implique d'analyser, structurer et modéliser les informations des contenus qui sont considérées comme des concepts de base du domaine à l'étude : structurer pour identifier et extraire les informations significatives ; analyser pour définir les différents types d'informations et les propriétés des informations ; modéliser pour élaborer des modèles de contenus où différents types d'information s'imbriquent suivant un raisonnement des professionnels de la production. La tâche de définition et dorganisation taxonomique des concepts nous fournit une ontologie du domaine. Autrement dit, une ontologie est une base de connaissances contenant des informations sur des concepts existants dans le domaine à l'étude, leurs propriétés, et les relations entre eux.
La description des contenus orientée par l'approche sémiotique [BUI 01a,b] vise d'une part à fournir des index permettant l'accès aux contenus ; d'autre part, elle contribue à pallier au manque de sémantique dans la recherche des documents audiovisuels et à faire la mise en correspondance des caractéristiques sensorielles de bas niveaux avec les concepts que l'homme a pu appréhender de façon naturelle. En effet, les technologies sont actuellement utilisées de façon efficace dans de nombreuses applications basées sur les caractéristiques de bas niveau mais elles ne permettent pas de générer des métadonnées à la sémantique expressive. Le défi actuel des travaux de recherche est de pallier l'absence de lien entre informations et sens. Un des moyens de relever ce défi est de mettre en place la description orientée connaissances.
Cet article est composé de trois parties :
- La troisième partie porte sur l'organisation et la représentation des connaissances associées aux contenus des documents audiovisuels selon l'approche sémiotique : la définition des hiérarchies et des relations taxonomiques des connaissances, la définition des types de concept, l'instanciation des descriptions de nouvelles constructions audiovisuelles, la représentation des concepts par le formalisme du XML Schema et le DDL de la norme Mpeg-7.
Cette première partie résume la manière dont nous identifions le domaine à traiter (sa nature, les problèmes issus de ses spécificités, la portée et les objectifs de l'ontologie à l'étude.
1.1. Portée de l'ontologie
Afin doptimiser lexploitation des connaissances de la production, la description consiste à définir les concepts majeurs de la production audiovisuelle tels que les costumes, l'éclairage, le décor, les personnages, les mouvements de la caméra. Les informations à retenir et à organiser sont dispersées sur plusieurs média dans la vidéo : images, sons, graphiques, animations, manuscrits, textes. Elles sont liées à la description du domaine, de sa terminologie et de ses éléments, et à la description de lorganisation du domaine proposée par les cogniticiens et les experts (les professionnels de la production).
1.2. Dimensions prises en compte dans la description
La description est caractérisée par des dimensions (i) documentaire, (ii) de production pédagogique et (iii) d'objet de création :
- Dimension documentaire : la description vise à fournir sur les documents audiovisuels des informations destinées à résoudre les problèmes d'interopérabilité entre les organismes d'archives de vidéo, de la pertinence de la recherche et de la diffusion la plus large possible des données aux professionnels et au grand public. La numérisation des documents audiovisuels dans les années à venir sera une occasion pour introduire lindexation par le contenu dans les bases existantes. Les informations sur les différentes étapes de la production audiovisuelle (les scripts de la pré-production, les annotations pendant le tournage et la liste de montage durant la post-production) seront des informations très utiles pour la recherche des documents audiovisuels dans les bases darchives.
- Dimension de production pédagogique (apprentissage à la création de nouveaux documents audiovisuels),
- Dimension d'objet de création (ouverture vers de nouvelles expressions)
1.3. Profils des utilisateurs potentiels du système descriptif de la production
Lors de la spécification des métadonnées, très souvent les concepteurs des logiciels et des applications ignorent les utilisateurs finaux, qui sont dans notre cas des créateurs de la production et les archivistes. Cependant, rendre la recherche plus efficace n'est pas seulement une question de technologies, mais cela demande à priori une appréhension explicite des usages visés. Nos utilisateurs ciblés sont des professionnels en audiovisuel (analyste de film, réalisateur, producteur, distributeur, monteur, archiviste, publiciste et graphiste, journaliste, étudiant en cinéma). Leurs besoins documentaires dictent de nouveaux modes de traitement du document audiovisuel. Cependant, léventail des besoins dinformations est ouvert, il va du besoin le plus pointu jusquau général : aussi aborderons-nous les profils du grand public qui recherchent souvent des informations de nature générale. La définition dun profil dutilisateur peut se construire sur les critères suivants: identité, métier, besoin dinformation, but de la recherche, comportement, attente. Le profil dun utilisateur se traduit souvent à travers ses choix des aspects d'une information dans le cadre de la recherche documentaire audiovisuelle. Cela implique de construire les taxonomies du domaine en gardant en permanence à l'esprit qui sont les utilisateurs potentiels de l'application
Notre but est de construire un réseau sémantique de la production où les utilisateurs peuvent naviguer à la recherche des contenus à multiples points de vue. Pour cette fin, les connaissances de ce domaine doivent être modélisées, structurées, et mises en relation de façon appropriée afin de pouvoir supporter leur intégration et leur présentation personnalisée en fonction des préférences des utilisateurs potentiels de l'application.
1.5. Problématique
La problématique générale de cette recherche mettra tout dabord en évidence les problèmes qui se posent autour de la consultation des multimédias : l'accès aux contenus, le sens et la restitution du sens des contenus de la vidéo, la représentation formelle des connaissances associées, lappréhension des descriptions par les utilisateurs. Cela nous amène à créer des métadonnées à la sémantique expressive qui doivent permettre les accès au contenu représentés par des concepts en langage naturel appréhendés facilement par les utilisateurs.
Cependant, les spécificités des documents audiovisuels, telles que le sens multiple de l'image, la temporalité et ses implications (différents types de relations entre les unités significatives des contenus), les imbrications entre images et sons, la co-existence de différents média (images, sons, texte, graphiques, etc) caractérisent profondément la description des contenus de la vidéo et posent des problèmes dans les processus de la description. La tâche de description de la production soulève deux problèmes majeurs: la diversité de connaissances du domaine et la normalisation de ces connaissances. Elle nous a amené à (i) définir une théorie de base générique et simple permettant un mécanisme d'interprétation rigoureux et concis des multiples niveaux sémantiques des contenus, ainsi qu'un mécanisme de génération des descriptions, (ii) choisir un langage de représentation approprié à la nature du domaine (capable de décrire et représenter des relations et des types de données spécifiques aux documents audiovisuels), (iii) identifier les technologies adéquates pour permettre l'implémentation des descripteurs du signal numérique qui assume l'extraction des valeurs de descripteurs (couleur, forme, texture).
La diversité de connaissances du domaine : la production intègre des entités principales telles que le décor, le costume, léclairage, les personnages, la caméra, etc. Puis chaque entité comprend des sous entités qui représentent
divers métiers et de corps de métiers de la production. De plus, chaque entité et ses sous entités constituent un domaine spécifique avec leurs propres lois et règles. Par conséquent, il y aura plusieurs sous-terminologies dans la terminologie de la production de l'audiovisuel. Chaque métier présente ses propres problèmes et suppose l'utilisation des contraintes (ou inférences) appropriées aux relations entre ses éléments. Ainsi, nous ne pouvons pas construire un Schéma de Description commun pour toutes les entités de la production. Les descripteurs et les schémas de description sont élaborés en fonction de la richesse de chaque entité de la production et cherchent à exploiter ce qui est générique dans chaque entité. Ce sont des schémas atomiques qui constituent chacun un bloc de fonction complète, non modifiable pour permettre leur réutilisation uniforme par les producteurs de l'audiovisuel. Ce qui est commun à tous les concepts de la production de l'audiovisuel, c'est le mode de raisonnement classificatoire selon les points de vue des professionnels de laudiovisuel basés sur lapproche sémiotique. Ce raisonnement commun intégré dans la description du métasigne se présente comme un modèle de description pour notre travail.La normalisation des connaissances de la production: la signification des termes doit être fixée pour qu'ils deviennent objectifs et partagés par tout le monde quand ils sont inférés par la machine. Cette tâche relève de la normalisation des connaissances du domaine qui consiste à mettre un accord commun sur les notions de ces connaissances et sur leur utilisation. Autrement dit, c'est l'élaboration d'une ontologie des entités de la production pour fournir les métadonnées qui rendront
possible l'interaction entre les utilisateurs et le contenu. Nous avons introduit la notion de concepts pour représenter les objets des contenus de la vidéo et leurs attributs. Cette notion permet de mettre en oeuvre avec aisance la structuration sémantique de ces objets, de catégoriser et de fixer la sémantique des concepts dans le contexte conventionnel du domaine visé.
2. Démarches méthodologiques de la description de la production
Nous essayons de présenter la démarche conceptuelle de la description des concepts de la production en soulignant les problèmes fondamentaux de la représentation des connaissances tels que les taxonomies, les propriétés et les relations. Autrement dit, c'est la manière dont nous procédons pour représenter les connaissances de la production.
2.1. Sources de connaissances disponibles
Un des problèmes de la description des contenus de la vidéo selon les points de vue de la production est la nécessité dun vocabulaire commun des connaissances de ce domaine. Dans l'état actuel de l'art de la description des contenus de la vidéo, plusieurs aspects des contenus de la vidéo sont déjà exploités. Cependant le domaine de la production nest pas encore vraiment exploré. La norme Mpeg-7 a construit des DSs pour spécifier les informations de la production, mais elle aborde les aspects non cinématographiques du domaine plutôt que les informations purement cinématographiques ou mixtes (à la fois non cinématographiques et cinématographiques).
Pour pouvoir mettre en uvre notre description qui nécessite un vocabulaire plus étendu sur les métiers de la production, la première tâche que nous devons effectuer est de définir lensemble des termes utilisés et de fixer leur signification pour construire une base terminologique fondamentale pour les entités de la production. Les termes de la production existent et se multiplient depuis longtemps avec l'évolution de la profession sous forme des vocabulaires contrôlés (des lexiques et des dictionnaires) ou vocabulaires formels des normes (SMPTE, SMEF). Nous essayons de récupérer ces vocabulaires contrôlés ou formels existants tels que des lexiques des dictionnaires professionnels de laudiovisuel [LE MOAL 95] [PESSIS 97], le dictionnaire des métadonnées de SMPTE, le langage de description des images de synthèse VRML (Virtual Reality Modeling Language), le format dédition avancé AAF (Advanced Authoring Format), les descriptions de la norme Mpeg-7 [MDS - Mpeg-7 00].
2.2. Approche sémiotique
Les concepteurs des systèmes d'informations (SI) partagent le même avis selon lequel plusieurs facteurs autres que les technologies déterminent le succès ou l'échec d'un système. Un de ces facteurs consiste à choisir une théorie générique faisant office de base pour l'organisation du système et permettant un raisonnement simple et logique pour la génération des descriptions des informations.
Pour mettre en uvre la description, les processus de reconnaissance et d'identification des informations (signes) et le processus d'interprétation des signes sont conduits par l'approche sémiotique selon la définition du signe de Pierce. Le schéma de description des données de la production audiovisuelle (PSDS) prend le plan de montage comme unité de description et de manipulation. Le plan peut être analysé de deux façons: soit comme une suite de photogrammes, soit comme une action ou une suite d'actions constituant une scène. Nous constatons que les contenus audio-visuels ont une triple dimension sémantique la sémantique technique, la sémantique du monde narratif et la sémiotique et chaque niveau a sa propre description ontologique. La sémiotique complète la sémantique technique et thématique du contenu de la vidéo en expliquant pour quelles raisons les structures dynamiques du texte filmique peuvent produire ces interprétations sémantiques.
Mobilisant tant des techniques d'analyse automatiques des média que des modèles existants, des terminologies, des théories et des discours du monde du cinéma, cette approche peut offrir une traduction naturelle et simple entre les différents niveaux sémantiques. La sémiologie en cinéma en fournissant des méthodes d'analyse des films, constitue certainement un outil d'analyse et d'interprétation efficace des contenus. Les principes de la sémiotique traditionnelle sont actuellement exploités par les systèmes d'informations audiovisuelles dans un nouveau contexte technologique, par exemple les travaux de recherche en images de [BENITEZ 00] [LINDLEY 00] [NACK 96][TONOMURA 94][GONZALES 97] et ceux en audio de [BLOOM 85].
Le premier principe est la décomposition de la sémiotique en trois domaines: syntaxe, sémantique, pragmatique. La dimension syntaxique définit les relations formelles entre les signes particuliers et la manière dont ils peuvent être combinés pour devenir un signe complexe. La dimension sémantique définit la signification des signes eux-mêmes à travers la relation entre chaque signe et son référent. La pragmatique est l'attribution de la signification provenant des acquis de l'utilisateur, elle définit la relation entre les signes et les utilisateurs. Elle est basée sur l'origine, l'utilisation et les effets des signes. La sémiotique est ainsi utilisée comme un outil d'analyse des contenus de la vidéo à plusieurs dimensions.
Le deuxième principe est la multi-résolution qui vient de la modélisation d'une unité d'intelligence en trois processus cognitifs appliqués de manière répétitive : la concentration de l'attention, la recherche basée sur les combinaisons, et le regroupement (ou généralisation). L'approche multi-résolution est aussi appliqué dans le traitement des données par l'ordinateur [STARKS 97]. Elle permet de décomposer l'image originale en "sous-images" correspondant aux différentes échelles de détails : large, moyenne, etc. Au lieu de stocker l'image entière, on stocke et traite les sous-images. Autrement dit, les informations sélectionnées dans les modèles des contenus sont considérées comme des signes dans un système sémiotique (mots ou symboles). Un signe peut être décomposé en sous-signes. Une image considérée comme signe peut être décrite en une hiérarchie de détails. Cela amène à définir les composantes d'un signe de façon appropriée. Les différents signes sont interprétés, regroupés et classifiés ensemble en classes et en sous-classes car une approche multi-résolution ne peut fonctionner que si les systèmes que nous analysons sont eux-mêmes hiérarchiques. Selon les démarches du principe de la multi-résolution, l'image peut être considérée comme un signe segmental décomposable en sous signes. Le signe et ses sous signes peut être représenté par un graphe sémiotique.
Le principe de la multi-résolution fonctionne sur la base du raisonnement et de l'analyse de la sémiotique, il permet d'associer le traitement du symbole (sémantique) et celui du sous symbole (pragmatique) à partir d'un objet (syntaxe). C'est à dire que ce principe a pu répondre à l'attente d'un système hybride exploitant les facettes à la fois de la perception et la cognition humaine. Cette association nous fournit une manière pour introduire la notion d'une ontologie symbolique et son intégration dans les caractéristiques du bas niveau [JOYCE 00]. Cela implique de faire le lien entre des classes de caractéristiques de bas niveau des données et des classes de leurs représentations symboliques. De façon plus concrète, la sémiotique appliquée à la recherche des images peut être décrite dans le contexte de trois phases d'interaction [GONZALES 97] : la phase de la perception basée sur la recherche des signes ou des objets, la phase de la manipulation destinée à contrôler les signes, la phase de la consommation permettant aux signes d'effectuer leur fonction. Appliqué à la production du signe, le principe de décomposition en termes de production du signe peut être interprété de la façon suivante : la perception analytique de la donnée - abstraction des combinaisons de la donnée - génération du signe.
2.3. La triple dimension sémantique
L'analyse des contenus implique la segmentation et l'identification des unités significatives : cela suppose le choix des unités et les techniques pour les traiter. Nous proposons des axes d'analyse multiples afin de fournir des critères de base pour définir des modèles de contenu du plan et déterminer les engagements ontologiques de chaque niveau sémantique d'un plan. Ces modèles doivent définir les types d'informations que nous utilisons dans l'ontologie, c'est à dire les informations que l'application vise à fournir dans le cadre des requêtes des utilisateurs.
A partir des types d'informations à intégrer dans le PSDS, nous supposons une triple dimension sémantique du contenu de la vidéo : la sémantique technique, la sémantique du monde narratif, la sémiotique. Dans chaque dimension sémantique, les informations significatives sont extraites de différents média, elles sont stockées dans un index et utilisées dans le processus de recherche. Elles caractérisent les signatures des média. On peut classifier les caractéristiques significatives en deux catégories : les caractéristiques du bas niveau et les caractéristiques du haut niveau. Les caractéristiques significatives du haut niveau comprennent plusieurs degrés de sémantique dans l'image, la vidéo et l'audio. Ils peuvent être divisés en deux catégories dans notre travail : la sémantique du monde narratif et la sémiotique[BUI 03a].
La sémantique narrative décrit les évènements représentés dans les contenus. La sémantique technique fournit des caractéristiques perceptives (texture, couleur, forme, mouvement). La sémiotique complète la sémantique technique et narrative du contenu de la vidéo en expliquant pour quelles raisons structurales les images du film peuvent produire ces interprétations sémantiques. L'étude de la structure de l'information met en évidence l'interdépendance entre des formes structurelles des média (images, sons) et l'objet sémantique (contexte). Autrement dit, la structure de l'information (càd la syntaxe) peut avoir plusieurs formes pour représenter la même sémantique selon les cultures, les philosophies des producteurs.
2.4. Le signe et le méta signe
Le signe
Le schéma de description des données de la production audiovisuell (PSDS) prend le plan de montage comme unité de description. Le plan est une unité fondamentale du film [Mitry 1987] qui comprend plusieurs photogrammes qui sont enregistrés de façon continue et représentent une action sans rupture dans le temps et dans l'espace. Nous avons utiliser le signe pour représenter le plan. Le terme de signe est lié au notion de code au cinéma [Odin 1990], [Metz 1973], [Metz 1986]. Si le " code " indique une entité de la production, le signe peut être considéré comme une représentation de cette entité : si le mouvement de la caméra est un code, le zoom ou le travelling est un signe. Nous pouvons faire un rapprochement avec la description de Mpeg-7 (MDS MPEG-7 - 00) : si le code est un descripteur, le signe est alors une instanciation de celui-ci. Le signe définit ainsi une unité spatiotemporelle de la vidéo qui doit porter une signification et qui est susceptible d'être l'objet de description.
Meta signe: Schéma de description générique du signe
Nous pouvons élaborer, à partir du modèle du signe de Pierce [LISZKA 96], le méta-signe ou le modèle de description générique de l'objet de la production audiovisuelle.
Le signe permet de représenter les trois grandes catégories d'informations sur une structure complexe de la vidéo: les informations syntaxiques sur l'objet visuel et sonore (le référent), les informations sur les types d'objets (la sémantique du type), les informations sur les propriétés de l'objet et celles des types d'objets (interprétations). Pour éviter la surcharge des détails de la conception du réseau sémantique de la description, nous nous appuyons sur le métasigne pour définir ces entités sémantiques principales du signe et les relations de base entre ces entités. Cette méthodologie générale donne lorientation pour la mise en place des entités du PSDS.
Les classes du PSDS sont des objets ou des aspects dobjets. Il est possible de construire des meta classes, cest à dire des classes de classes de classes
. Une classe est appelée méta-classe si son type est un modèle de classes [EHRICH 92]. Les modèles de classe savèrent homogènes même si leurs types ne le sont pas: une méta-classe peut avoir des classes de différents types comme membres. Nous nous basons sur cette définition pour construire le méta-signe de notre description. Nous établissons une classe qui est le modèle abstrait et uniforme de toutes les classes représentant les entités de la production sans pour autant généraliser les modèles de ces classes.Ces métasignes peuvent être considérés comme des représentations génériques des unités sémantiques du contenu de la vidéo. Nous cherchons ici à rapprocher les métasignes de la notion de codes du langage cinématographique. Les codes spécifiques du cinéma sont des unités conceptuelles du contenu, ils peuvent être un mouvement de caméra, une couleur, un cadrage, une échelle de plan, une figure de montage ou les syntagmes (de Metz). Le métasigne constitue en quelque sorte un modèle conceptuel des constructions codifiées du langage du cinéma.
2.5. Modèles du contenu
A partir de la triple dimension sémantique et les informations sélectionnées de chaque dimension, nous pouvons élaborer des modèles des contenus. Le tableau (1) suivant nous donne l'exemple d'un modèle de description de la sémantique technique comprenant les caractéristiques perceptives des contenus.

Tableau 1: modèle de description de la sémantique technique et syntaxique des contenus
2.6. Notion de concept
Nous avons introduit la notion de concept comme unité de base de la représentation des objets des contenus de la vidéo et leurs attributs. La notion de concept [Marino 91] permet de mettre en oeuvre avec aisance la structuration sémantique de ces objets, de catégoriser et de fixer la sémantique des concepts dans le contexte conventionnel du domaine visé. Elle facilite la catégorisation et la classification des entités de la production (cette notion de concept existe déjà dans MPEG-7 pour la définition du schéma de description sémantique plus précisément, de graphes conceptuels). Chaque concept est une classe dans la hiérarchie des objets décrits des contenus de la vidéo. Autrement dit, le concept peut être développé comme une classe et où les propriétés de chaque concept décrivent les différents attributs de la classe et les contraintes des facettes.
Les concepts mis en évidence dans la description sont étroitement liés aux objets du domaine et fixés dans lorganisation taxonomique, ils peuvent être utilisés dans lindexation pour permettre aux utilisateurs d'identifier rapidement les objets et les structures des images. Chaque concept utilisé dans la description doit être par conséquent défini clairement et précisément selon l'exploitation faite de cette description et selon les points de vue des utilisateurs. Afin de pouvoir générer plusieurs manières de décrire les concepts, nous prenons en compte différents types d'utilisation des concepts : définition, facteur, méta concept, description. En particulier, la notion de méta concept nous permet de restreindre ou étendre le champ d'application d'un autre concept. Elle nous amène à utiliser le méta-signe que nous pouvons restreindre ou étendre pour l'adapter à la description du contenu des signes dont la composition n'est pas toujours similaire.
La description des connaissances basée sur le concept permet aussi d'utiliser le même terme dans la description de différents concepts sans générer de problèmes de noms entre les schémas de description dans la base des DS : deux concepts différents peuvent utiliser un même nom dattribut et le système les traite comme deux attributs différents. Cette réduction de la portée des noms au concept permet la modification dun concept de la base de façon relativement indépendante des autres concepts. Le concept devient lespace de noms des éléments tels que les attributs, les classes et les instances. La portée du nom dun attribut est le concept. Les concepts de la production sont ainsi disjoints et décrivent des ensembles distincts d'objets. Cependant, ils ne sont pas complètement indépendants.
Le concept est aussi lespace de recherche des mécanismes dinférence. A savoir que les mécanismes de classification, filtrage, analogie, etc., ne sont vraiment utiles que lorsque lon a restreint lespace de recherche à lensemble dobjets concernés par ce raisonnement. Ainsi, par exemple, avant de classer un nouvel objet dans la base de connaissances de la production, il faut, au moins, savoir sil sagit dun budget financier d'un film, d'un personnage ou dun décor.
Les points de vue d'un concept
Un concept représentant une entité de la production peut être regardé sous différents points de vue. Le regard sélectif permet de ne voir que les attributs du concept qui sont pertinents pour le point de vue en question et de structurer les instances du concept dans une hiérarchie de classes significatives pour ce point de vue. Autrement dit, un point de vue peut déterminer une taxonomie de catégories à partir d'un concept. Un point de vue est la perception qu'un utilisateur a des images qu'il visionne en fonction du travail qui le motive. Les points de vue constituent des visions partielles mais complémentaires du domaine, toutes les composantes de la production doivent être décrites comme un ensemble d'éléments liés entre eux. Les points de vue sont intégrés dans les schémas de description en tant qu'attributs ou éléments de description.
2.7. Description orientée-objet
Tout est intentionnel dans un film durant le travail de création du cinéaste. Chaque élément (image, son, graphique, etc) vise une fonction dans l'évolution narrative ou cherche à assurer la logique de la mise en scène, du montage. Nous avons choisi la description orientée-objet [CHANG 98] pour mettre en évidence dans l'arbre hiérarchique les objets qui représentent les unités significatives et leurs caractéristiques. L'exemple dans la figure 1 montre la description objet-orientée de la scène "la coccinelle".


Figure 1: la description objet-orientée de la scène "la coccinelle"
La description orientée-objet à multiples points de vue des contenus implique de mettre en évidence dans l'arbre ontologique les unités significatives du domaine et leurs caractéristiques. Ces unités constituent les informations fondamentales pour l'appréhension du sens du récit. Elles sont représentées par des concepts. L'ensemble des concepts issus de la description constitue un réseau sémantique où les utilisateurs peuvent naviguer à la recherche des données liées aux contenus. Chaque concept est un nud du réseau.
2.8. Formes sémiotiques des concepts
La description des documents vidéos vise à les segmenter et en extraire des objets audiovisuels portant le plus de sens. Ces objets sont représentés par des concepts qui seront utilisés comme des accès aux documents par lutilisateur lors de linterrogation au niveau de linterface. Ces concepts peuvent être représentés ensuite par différentes formes sémiotiques présentables aux utilisateurs pendant la consultation. Ils peuvent être soit des mots en langage nature, soit des résumés tels que les keyframes des plans, a mosaïque, les highlights, le skimming (résumé condensé de la vidéo avec des mots clé, les photogrammes et les séquences vidéo ou audio). Nous pouvons y ajouter les signatures des images ou des audio, ce sont des valeurs représentatives de ces média qui permettent de retrouver par similarité les images ou le son souhaités. La représentation par le média du concept "crinoline" (fig.2) peut être une région d'une image qui contient l'objet crinoline et la valeur du contour de la forme de cette région. Les concepts peuvent être représentés par les valeurs des caractéristiques perceptives sans utiliser les média comme représentation. Par exemple, la valeur des caractéristiques de la forme du contour de l'image peut être la moyenne des valeurs de la forme du contour d'un ensemble d'images de crinolines. Dans ce cas, la moyenne des valeurs des paramètres du contour représente des images ayant la même signature, c'est à dire qu'elles ont des valeurs de forme similaires. Ainsi, le concept crinoline peut avoir comme représentations: le mot "crinoline", l'image de la crinoline avec les caractéristiques de la forme de la crinoline, la définition en texte libre de la crinoline.

Figure 2: les formes sémiotiques d'un concept
Les ontologies sont des accords sur les conceptualisations partagées [GRUBER 94]. Si l'ontologie traite la nature et l'organisation d'une réalité, "la conceptualisation est une structure sémantique intentionnelle qui encode les règles implicites posant des contraintes sur la structure d'une pièce de la réalité" [BATEMAN 93]. Il peut y avoir différentes manières d'organiser les unités significatives au sein d'un plan de la vidéo ou d'une suite de plans et chaque organisation est considérée comme une conceptualisation différente du plan ou de la scène selon les règles spécifiques de la composition cinématographique. L'ontologie de la production audiovisuelle est la description formelle des concepts de ce domaine. L'ontologie consiste à définir les classes de ce domaine et à les organiser en hiérarchie taxonomique.
Ce que nous nous efforçons de montrer est qu'il est possible d'organiser les concepts de la production audiovisuelle en une taxonomie, que les règles des connaissances de ce domaine (les règles de la production) peuvent être exprimées dans le cadre d'une représentation structurée et des principes d'organisation ontologique. La taxonomie est la manière d'organiser les connaissances d'un domaine dans des structures d'ordre appelées classifications. Le besoin dune taxonomie du domaine étudié nous amène à élaborer une documentation de laudiovisuel dont la particularité est de construire les objets de ce domaine de façon intuitive et personnelle. Elle utilise les termes spécialisés du domaine et dépend fortement des points de vue des professionnels, de leur manière d'organiser les connaissances qu'ils ont à manipuler et dont ils font usage dans leur métier. La motivation de l'élaboration d'une base de connaissances taxonomiques est le modèle du domaine qu'elle représente et l'explicitation de la terminologie nécessaire à la définition des concepts du domaine. La terminologie une fois définie nous fournira un support pour la consultation de la vidéo contenant des modes d'accès à son contenu. En effet, nous pouvons établir à partir de la terminologie une table des matières et deux index. Le premier contient les concepts du domaine. Le deuxième contient les profils des professionnels de l'audiovisuel. La description des utilisateurs concerne alors leur identité et exploite leur feedback.
La modélisation d'une ontologie est liée à la construction des systèmes d'information orientés par les connaissances. L'exploitation formelle de la représentation des connaissances doit être conforme à sa signification dans le domaine. Cela pose deux problèmes. D'une part, le but de la représentation des connaissances est de concevoir un système représentationnel formel pour représenter les aspects cognitifs de la connaissance; d'autre part, le problème de l'acquisition des connaissances est de contraindre les connaissances afin qu'elles puissent être intégrées et exploitées dans le système représentationnel formel. Pour cette fin, la normalisation des connaissances est une phase nécessaire pendant laquelle l'ontologie du domaine doit être construite. La normalisation des connaissances consiste à établir un accord commun sur les notions de ces connaissances et sur leur utilisation, c'est à dire fixer la signification des termes pour qu'ils deviennent objectifs et partagés par tout le monde quand ils sont inférés par la machine. Par conséquent, l'utilisation des termes ne repose plus sur la puissance de l'interprétation sémantique, mais sur la manipulation de leurs descriptions explicites
3.1. L'arbre ontologique
L'élaboration de l'arbre ontologique d'un domaine doit respecter deux conditions : la systématicité et la complétude adéquate de la terminologie. Il existe différentes façons de définir les classes, cependant la meilleure approche dépend étroitement de la perception personnelle du concepteur de lontologie du domaine. La façon de définir les classes reflète les points de vue personnels et les expériences professionnelles. Noy dans [NOY 01] a souligné quil ny a pas une méthode correcte unique pour modéliser un domaine. Une bonne organisation dinformations du domaine dépend fondamentalement des finalités de lapplication et des profils des utilisateurs à qui elle vise de fournir des services. Le concepteur de la terminologie du domaine sélectionne des termes qui décrivent les objets ayant une existence indépendante plutôt que des termes décrivant ces objets. Ces termes indiquent les catégories sémantiques des concepts et constituent les classes de la taxonomie hiérarchique.

Fig.3: l'arbre ontologique de l'entité"costume"
3.2. Les types de concepts
Les types sont les catégories sémantiques. Définir les types de concepts signifie créer des concepts symboliques du domaine. Le type représente ce qui est générique et coupé de tout contexte de production à la différence de ce qui est particulier (par exemple linstance du type). Le concept attribue au type une signification à priori et il na pas de sens. En dautres termes, son sens est coupé de son contexte, le concept est générique et ne demande pas de construction de sens. Chaque type regroupe les objets similaires. Par exemple, nous avons créé quatre types des costumes (Nu, bizarre, moderne, périodes) et quatre types de l'éclairage (réaliste, dramatique, artistique et contre-jour) [BUI 03b]. Les types de l'éclairage se distinguent lun de lautre par les valeurs des paramètres qui les caractérisent. Ces paramètres sont des conditions nécessaires qui permettent à une instance d'appartenir à un type. Les paramètres caractéristiques et essentiels de léclairage peuvent être la mesure des valeurs de l'histogramme ou celle du contraste de l'image. Chaque type est défini par un vecteur de valeurs de contraste ou d'histogramme. Cependant, ces quatre types ont le même schéma de description contenant les connaissances du domaine qui constituent les conditions suffisantes pour compléter la condition nécessaire d'être le membre d'un type.
3.3. Les relations entre les classes
La classification est le mécanisme de raisonnement des représentations par objets. L'organisation des connaissances permet dadopter un raisonnement classificatoire. Raisonner par la classification consiste à trouver la catégorie la plus spécialisée à laquelle appartient un individu (un film particulier, une image, une séquence, un objet sonore, etc), puis récupérer les connaissances liées à cette catégorisation. Nous cherchons à classifier les connaissances du domaine de la production audiovisuelle suivant le raisonnement des professionnels de laudiovisuel et à représenter les connaissances supportant ce raisonnement. Autrement dit, pour introduire un concept dans la taxonomie du domaine à l'étude, il faut un mécanisme de raisonnement qui permet de générer de nouvelles descriptions. Ce raisonnement est basé sur la relation de généralisation/spécialisation, notée £ dans le modèle de graphes conceptuels. Elle permet de déterminer si les connaissances représentées par un graphe sont la conséquence logique de celles représentées par un autre. La relation de généralisation est aussi appelée subsomption. [WOODS 91]. Nous essayons d'utiliser cette relation dans le but de créer un mécanisme formel pour intégrer les images dans des catégories sémantiques dont elles satisfont les contraintes.
Dans la taxonomie des concepts, le lien organisateur est le lien générique/spécifique <est-un>. Le lien d'appartenance indique que l'instance a des attributs décrits par le schéma de la classe et que la valeur que l'instance a pour chacun de ces attributs satisfait les contraintes imposées par les facettes de l'attribut de la classe. L'instance doit avoir les conditions nécessaires et suffisantes d'appartenance à une classe. La relation entre l'appartenance d'une instance à une classe et la satisfaction des contraintes de la classe par les valeurs des attributs de l'instance peut être interprétée de façon suivante:
La relation de subsomption entre les concepts de la production est étendue de façon suivante :

Fig.4: schéma représentant les classes du signe et les relations entre les classes
3.4. Les primitives logiques et les primitives non-logiques
Lontologie définit les primitives non-logiques dun langage formel de représentation et de manipulation des connaissances. Cette tâche implique de choisir les primitives et de définir une sémantique pour chacune delles. Il existe en effet deux catégories de primitives: les primitives non-logiques et les primitives logiques.
Par exemple, la description de léclairage peut avoir les primitives non-logiques suivantes :
Valeur du contraste (c) <est-un> Paramètres <état-de> Image (a)
Image (a) <a-QualitéDe> Eclairage artistique
- image (a), éclairage artistique (b), valeur du contraste (c), valeur dhistogramme (d) sont des primitives non-logiques.
- "est-un", "état-de", "a-QualitéDe" sont des primitives-logiques.
Lensemble des primitives logiques et des primitives non-logiques constitue le langage formel dans une ontologie.
Il existe par conséquent deux types dontologie:
- Lontologie informelle est définie par un catalogue de types qui sont soit indéfinis, soit définis uniquement par des phrases écrites en langage naturel.
- Une ontologie formelle est définie par une collection de noms de concepts et de relations organisés en type/sous-types. Les ontologies formelles peuvent traiter la relation type/sous-type de différentes manières : une ontologie fondée sur les prototypes distingue les sous-types par les comparaisons avec un membre typique de chaque type appelé prototype, une ontologie axiomatique distingue les sous types par des axiomes et des définitions écrites dans un langage formel (logique). Nous utilisons des axiomes, c'est à dire un raisonnement logique pour décrire les contenus de la vidéo exploitant les connaissances qui se trouvent dans les différents media dans la vidéo.
3.5. L'instanciation
L'ontologie constitue le pivot de base du domaine et peut permettre l'instanciation des structures d'images, structures de son ou structures audiovisuelles. Lontologie et lensemble des instances des concepts constituent une base de connaissances de la production qui nous servira dans lindexation et la recherche, ainsi que dans dautres applications telles que laide à la création ou à lanalyse du film. L'instanciation des classes consiste à générer la description des objets particuliers qui sont des scènes, des plans, des images dans les films. La création des instances permet d'avoir de nouveaux objets, elle implique de les intégrer dans les classes dont ils satisfont les contraintes des attributs. Autrement dit, c'est la classification des instances dans le graphe des classes de la production.

Fig.5: schéma représentant l'instanciation du concept costume de périodes
3.6. Intégration des connaissances dans les schémas de description
Les efforts que nous avons faits en vue de la construction d'une ontologie de la production visent à organiser la sémantique des documents audiovisuels (modèles des contenus), à les segmenter afin d'obtenir des unités d'informations significatives (signes) et à les représenter par des concepts classifiés en une hiérarchie (ontologie de chaque entité). Ces tâches nous permettent de construire un réseau sémantique du domaine visé. Les concepts du réseau représentent les connaissances de la production. Ils constituent les nuds et les liens entre les nuds dans l'arbre ontologique des domaines de la production. L'introduction des connaissances dans les types des nuds, des liens du réseau et l'organisation de ces types en hiérarchies d'héritage assurent au réseau une sémantique riche et une structuration rigoureuse. Un tel réseau sémantique offre aux utilisateurs un modèle expressif du domaine. Les connaissances intégrées servent dune part aux utilisateurs d'aide théorique en cinéma. Elles sont également explicitées pour être manipulées par le système. Cependant, l'exploitation automatique des connaissances dépend de leur degré de formalisation.
3.6.1. Formalisme de représentation
Pour représenter les métadonnées issues de la description des contenus de la vidéo, il existe plusieurs normes de représentation des données multimédia. Parmi celles-ci, nous pouvons citer XML (Extended Markup Language), SMIL (Synchronized Multimedia Integration Language), METS (Metadata Encoding and Transmission Standard), DCMI (Dublin Core Metadata Initiative), MPEG-7, etc.
Les techniques de représentation permettent d'entrer, modifier et compléter des connaissances dans le réseau sémantique. Dans notre travail, pour décrire les différentes dimensions sémantiques du contenu de la vidéo et les représenter par les règles d'un langage approprié, nous avons utilisé le formalisme XML Schema [XML SCHEMA part 0,1,2] et le DDL (Definition Description Language) [Mpeg-7-System-Group 00] de la norme Mpeg-7. Chaque nud (concepts et concepts relationnels) du réseau sémantique du domaine est structuré selon le Schema XML et le DDL de Mpeg-7 pour décrire les unités significatives des contenus de la vidéo et les connaissances liées. Le DDL basé sur le XML Schema est pleinement défini au sein de la norme MPEG-7, il permet de définir des nouveaux Schémas de Description (DS) et de Descripteurs (D), ainsi que l'extension et la modification des DS existants. Il est capable d'exprimer les relations spatiales, temporelles, structurelles et conceptuelles ente les éléments d'un DS et entre les DS. Autrement dit, il fournit des moyens pour poser des contraintes (les facettes de contrainte, de domaine) et pour décrire des caractéristiques spatiales, temporelles et spatio-temporelles dans les images audio-visuelles.
Le développement des nuds en XML Schema permet de déterminer le niveau de détails du réseau sémantique ainsi que les structures générales qui sont nécessaires à la bonne expression d'une connaissance. Une sémantique formelle bien définie est basée sur la logique et la relation de subsomption. Le sens donné aux liens dépend de l'application et est reconnu par le système.
Les schémas obtenus sont des modèles utiles pour la classification des instances de la production, la description des classes fournit un moyen déclaratif de spécifier les critères d'appartenance à une classe, et la structure taxonomique des classes facilite la classification graduelle. Les schémas sont utiles pour modéliser les domaines où les objets sont complexes et riches. Le regroupement de toutes les informations d'un objet dans une unité fournit une représentation structurelle concise et facilement exploitable. La structuration de la connaissance en unités et les liens entre ces unités facilite la manipulation des connaissances. Les DS constituent des modèles de description structurés et génériques des entités de la production, ils permettent de générer des instances qui sont des descriptions des films, scènes, images particulières. L'ensemble des concepts structurés par un langage fournit la sémantique documentaire du domaine. Les connaissances sont décrites dans des fichiers texte, dans des formats lisibles par l'homme.
3.6.2. L'implémentation des descripteurs numériques
Les DS ont besoin parfois des descripteurs du signal numérique qui sont issus de procédures de traitement et stockés dans la base de données des descripteurs comme par exemple l'extraction des valeurs des descripteurs tels que la couleur, la texture ou le mouvement de l'objet dans les images visées. Ces informations nécessitent des codes procéduraux, c'est à dire des outils de traitement du signal numérique qui sont basés sur des algorithmes construits à partir de l'analyse mathématique du flux des images.
Il est ainsi nécessaire d'utiliser un mécanisme pour faire référence et faire appel aux procédures pour générer des descriptions. Ce mécanisme doit être opérationnel pour les Schémas de Description ainsi que les Descripteurs. Pour pouvoir utiliser des codes procéduraux vérifiant les contraintes des D et des DS, la conception de ces outils peut tout simplement reposer sur un modèle objet et une interface standard. Ce modèle et cette interface de programmation faciliteront de façon significative le développement des applications et outils de la norme Mpeg-7. Les codes procéduraux peuvent être distribués sous forme de bibliothèques logicielles ou téléchargés à la demande par des applications clientes. A cette fin, il convient de fournir des liens permettant l'accès aux codes procéduraux.
3.6.3. Un exemple de description en XML Schema
L'exemple de description des types de qualité d'éclairage de la scène x nous fournit des annotations explicitant les techniques de réalisation de la scène x en termes d'éclairage. La lumière d'une scène peut varier d'un contraste dur à un contraste doux. On peut par conséquent avoir plusieurs types de rendu de la lumière : dramatique, artistique, contrejour, réaliste. L'appartenance d'une scène au type artistique varie entre un vecteur de valeurs de contraste de 60 à 100. La description analytique de la création de l'éclairage de cette scène peut être structurée de façon suivante :
|
<AnalyticLightingProcess> <AnalyticAestheticType> <ContrastMeasure> <MinRangeValue=60 MaxRangeValue=100 / > </ContrastMeasure> <HistogramMeasure>
</HistogramMeasure> </AnalyticAestheticType> </AnalyticLightingProcess> |
<ProdLightingProcess> <ProdAestheticType> <Light1> <Nature> Artificial</Nature> <Direction>Sidelight </Direction> <Source> FillLight </Source> </Light1> </ProdAestheticType> </ProdLightingProcess> |
3.7. Utilisation de l'ontologie de la production audiovisuelle
Représentées ainsi selon le formalisme Mpeg-7 et XML Schema, les connaissances intégrées dans les schémas de description du plan de la vidéo peuvent servir de base à la construction d'environnements interactifs d'édition des images. La vidéo y devient un flux informationnel dont les données peuvent être balisées, annotées, analysées et éditées. Les métadonnées de la production, analysées dans notre travail, comprenant des informations relevant de trois étapes différentes (pré-production, production et post-production) doivent permettre aux applications de gérer et manipuler les objets de la vidéo, ainsi que les représentations de leur sémantique, afin de les réutiliser dans plusieurs offres d'accès telles que l'indexation du contenu, la recherche, le filtrage, l'analyse et l'appréhension des images du film.
4. Conclusion
Ainsi, en cherchant à créer un addendum de la norme Mpeg-7 pour ajouter l'expressivité à cette norme, nous avons proposé un support pour le développement d'une ontologie de la production selon l'approche sémiotique. Notre travail a cherché à souligner le rôle de l'ontologie dans l'indexation à travers le développement d'une étude qui relève à la fois du monde informatique et de celui de la sociologie de la communication. Cette étude souligne aussi l'importance des aspects théoriques d'une ontologie : une organisation de connaissances fondée sur une théorie solide telle que la sémiotique fournit une architecture d'informations compacte et concise. Elle décrit la manière dont une ontologie ayant des buts théoriques peut devenir une ontologie pratique où s'intègrent le développement des axiomes et l'utilisation des inférences.
En perspective, nous visons à mettre en uvre l'évaluation de l'ontologie de la production qui peut être effectuée en trois phases distinctes : les préférences des utilisateurs, les hiérarchies de l'ontologie, les technologies utilisées dans l'ontologie en vue de l'extraction des valeurs de descripteurs des caractéristiques perceptives et de la recherche des contenus par similarité. Notre préoccupation première s'est intéressé aux profils d'utilisateurs et l'appréhension des concepts au cours de la recherche des contenus audiovisuels ainsi que les hiérarchies des concepts de l'arbre ontologique du domaine
Enfin, cette présentation est une occasion pour susciter quelques discussions avec des collègues dans la recherche des médias de Paris8 sur des points forts, ainsi que sur des lacunes dans mes démarches afin de pouvoir les améliorer.
5. Remerciements
Je remercie Philippe Joly pour ses précieux conseils, ainsi que Josette Poinssac et Jean-Pierre Balpe pour leur encouragement pendant tout au long de ma thèse.
6. Bibliographie
[BATEMAN 93] John A. Bateman, "Ontology construction and natural language", Workshop on formal ontology in conceptual analysis and knowlegde representation, Padova, March 1993.
[BENITEZ 00] Ana B. Benitez, John R. Smith, Shih-Fu Chang, "Media net: A multimedia Information Network for Knowledge Representation", in Proceedings of SPIE Vol.4210 (2000).
[BLOOM 85] Bloom, P.J., "High-quality digital audio in the entertainment industry: an overview of achievements and challenges", IEEE Acoust. Speech Signal Process. Mag., 2, 2-25 (1985).
[BUI 01a] M.P Bui Thi and P. Joly, "Describing the video: a semiotic approach", in Proc. of CBMI, Brescia, Italia, October 2001.
[BUI 01b] Minh Phung BUI THI, Philippe JOLY, Pascal FAUDEMAY, "Description des contenus de la vidéo selon les points de vue de la production", Colloque International du Document Electronique (CIDE 01), Octobre 2001, IRIT, Toulouse, France.
[BUI 03a] Minh Phung BUI THI, "La structuration sémantique des contenus de la vidéo", Version 2, RIFV - Conférence Internationale de la Recherche de l'Informatique Francophone Vietnamienne, Institut de l'Informatique de la Francophonie, Hanoï, Vietnam, février 2003.
[BUI 03b] La stucturation sémantique des contenus de la vidéo selon les points de vue de la production, thèse de l'université Paris 8, juin 2003.
[CHANG 98] S-F Chang,William Chen, Horace J.Meng, Hari Sundaram, DiZhong, "A Fully automated content-based Video search engine supporting spatiotemporal querie", IEEE transactions on circuits and systems for video technology, vol.8, n°5, september 1998.
[EHRICH 92] Hans-Dieter Ehrich and Gunter Saake, "Concepts of Objects-Orientation", in Proceedings of the 2nd Workshop "Informations Systemc und KünstlicheIntellegenz: Modellierung, Ulm (Germany). (R. Stunder, ed), SpringerTFB 303, 1992.
[GONZALES 97] Ruben Gonzales, "Hypermedia data modelling, coding, and semiotics", in proceedings of the IEEE, vol.85, n° 7, july 97.
[GRUBER 93] Gruber, "Towards principles for the design of ontologies used for knowledge sharing", Tech.Rep. KLS-93-04, Knowledge Systems Laboratory, Standford University, Aug. 1993.
[JOYCE 00] Dan W. Joyce, Paul H. Lewis, Robert H. Tansley, Mark. R. Dobie, Wendy Hall, "Semiotics and Agents for Integrating and Navigating through Multimedia Representation of Concepts", in Pro. Of SPIE, vol. 3972, Storage and retrieval for Media Databases 2000.
[LE MOAL 95] Pascal Le Moal, "Lexique Cinéma Vidéo", éditions Dujarric, 1995.
[LINDLEY 00] Lindley Craig, "A video annotation methodology for interactive video sequence generation", BCS Computer graphics & Displays Group Conference on Digital Content Creation, Bradford, UK, April 2000.
[LISZKA 96] J.J. Liszka, "A general introduction to the semeiotic of Charles Sanders Peirce", Indiana Univ. Press, 1996.
[MARINO 92] Mariño Drews Olga, "Raisonnement classificatoire dans une représentation à objets multi-points de vue", Thèse préparée au sein du Laboratoire Lifa/Imag, octobre 1992.
[MDS MPEG-7 00] Peter van Beek, Ana B. Benitez, Joerg Heuer, Jose Martinez, Philippe Salembier, John Smith, Toby Walker, "Text of ISO/IEC 15938-5/CD Information Technology - Multimedia Content Description Interface - Part 5 Multimedia Description Scheme", October 2000, La Baule, France.
[Mpeg-7-System-Group 00] Mpeg System group, "Mpeg-7 DDL Working Draft 4.0", ISO/IECJTC1/SC29/WG11MPEG2000/N3575, Beijing, CN, July 2000.
[METZ 73] Christian Metz, "Langage Et cinéma", éd. Albatros, Paris, 1987.
[METZ 86] Christian Metz, "Essais sur la signification au cinéma", tome II, éd. Klincksieck, Paris, 4è tirage, 1986.
[MITRY 87] Jean Mitry, "La sémiologie en question", éd du Cerf, 1987
[NACK 96] Frank Nack, "The application of video Semantics and Theme Representation in Automated Video Editing", Ph. D, Lancaster University, 1996.
[NOY 01] Natalya F. Noy and Deborah L. McGuiness, "Ontology development 101: a guide to creating your first ontology", in Knowledge Systems Laboratory, March, 2001.
[ODIN 90] Roger Odin, "Cinéma et production de sens", éd. Armand Colin, Paris, 1990.
[PESSIS 97] Georges Pessis, Guitta Pessis-Pasternak, "Dictionnaire Cinéma-Audiovisuel-Multimedia-Réseaux", éd. Dixit, 1997.
[STARKS 97] S.A. Strarks, V. Kreinovich, and A. Meystel, "Multi-resolution data processing: It is necessary, it is possible,it is fundamental", Proceedings of the ISA'97 Intelligent Systems and Semiotics: a learning perspective Gaitherburg, MD, USA, September, 1997.
[TONOMURA 94] [TONOMURA 94] Tonomura Y., Akutsu A., Taniguchi Y. & Suzuki G., "Structured Video Computing", IEEE Multimedia magazine, 1994.
[WOODS 91] W.A. Woods, "Understanding subsomption and taxonomy: a framework for progress,
in Principles of Semantics Networks Exploration in the representation of knowledge", J. Sowa (ed), Morgan Kaufman Publishing, chap. 1, page 45-94, 1991
[XML Schema Part 0] Primer, W3Cworking Draft, April 2000, http://www.w3c.org/TR/xmlschema-0/
[XML Schema part 1] Structures, W3C, http://www.w3c.org/TR/xmlschema-2/
[XML Schema part 2] Datatypes, W3C, http://www.w3c.org/TR/xmlschema-1/