Enjeux de l’archivage du web français

A l’instar des livres, des phonogrammes, des films sur support photochimique, des vidéos, des logiciels, des bases de données, de la radio, de la télévision ; le World Wide Web est sur le point d’être conservé en France.

Dernier-né des représentants de la mémoire de notre société, l’envie, la nécessité de le conserver se font sentir partout dans le monde. La France, fière d’avoir été le berceau de l’invention du dépôt légal, s "est donné pour objectif l’extension de celui-ci aux publications électroniques distantes.

Pour comprendre les enjeux d’une telle entreprise, il est important d’en mesurer non pas seulement les implications techniques, mais la manière dont elle s’inscrit dans le cadre plus général de la mémorisation et de la conservation de l’information dans nos sociétés.

Ce travail vise donc plusieurs objectifs réunis ici sous forme de questions :

Pourquoi se souvenir ?

En effet, comprendre les enjeux d’une entreprise d’archivage aussi colossale ne peut se faire qu’en mettant en exergue ce qu’apportent réellement les processus de mémorisation individuelle et collective

Qu’est-ce que le patrimoine national ?

Certains objets sont identifiés et classés comme faisant partie d’un patrimoine national représentatif d’une culture, d’une époque. Ceux du patrimoine français mettent en valeur un savoir-faire, des qualités passées ou présentes ne devant en aucun cas être altérées par le temps. Les générations futures doivent pouvoir en profiter comme d’un héritage. Cependant, comme toute sélection, celle-ci engendre des catégories d’objets dont la valeur patrimoniale ne semble pas évidente aux archivistes du moment.

Ces objets seront soit oubliés soit sauvegardés par des particuliers collectionneurs et passionnés. Il arrive ainsi que certaines collections deviennent alors convaincantes pour les archivistes ouvrant alors un nouveau pan du patrimoine à conserver.

Le web fait-il partie du patrimoine ?

Un certain nombre de personnes pensent que la valeur patrimoniale du Web est indéniable et que la perte du nombre colossale de sites est insupportable. D’autres, qui voient dans le web avant-tout un outil de publications considèrent qu’il faut reconnaître et protéger ses auteurs. Tous ces groupes sont donc d’actifs partisans de la conservation patrimoniale du world wide web et de la création d’un dépôt légal adapté à ce support de création et de publication.

Il semble clair que si le web est effectivement partie intégrante du patrimoine culturel d’un pays, il doit être collecté, archivé et préservé à long terme.

Comment faire ?

Les particularités du web en font un objet qui ne se laisse pas collecter facilement. Des questions théoriques et techniques se posent et font de cette entreprise une des plus complexe jamais posée aux archivistes. Cependant plusieurs approchent existent et certains pays ayant commencé cette tâche montrent le chemin à suivre.

 

    1. Paradoxe d’une société dite de l’information
    2. L’explosion du numérique a permis de créer ce que nous appelons " la société de l’information ". Jamais autant d’information n’aura été créée. Jamais autant d’information n’aura été aussi perdue.

      On estime aujourd’hui à 100 000 le nombres de pages créées chaque jour en France. Statistiquement, la moitié de ces pages disparaîtront en moins d’un mois. Ce calcul prend en compte les disparitions de pages mais élude le nombre de mise à jour des pages.

      Il ne serait pas pertinent de conserver toutes les versions de toutes les pages françaises mais il doit être possible de trouver un compromis en tout et rien.

      Ce paradoxe finit par faire assimiler la notion de société de l’information à celle d’information volatile, de virtuelle.

      Pérenniser les supports de cette information fait partie des enjeux fondamentaux de la capitalisation du savoir. Mais pérenniser ces informations et ces supports, c’est aussi en quelques sorte en altérer l’intégrité. Comment garantir l’intégrité d’un document dont on modifie le support et les caractéristiques ?

       

    3. pourquoi mémoriser ?
    4. " La mémoire d’un individu sert à reproduire les comportements qui se sont révélés favorables à son adaptation et à éviter de reproduire ceux qui ont eu des effets négatifs. Mais aussi à donner du sens au monde qui l'entoure. "

      Cette définition semble fort liée à celle d’intelligence. Il serait donc possible d’inférer que la mémoire augmente ou facilite l’intelligence.

      " Si on définit l'intelligence comme la capacité d'adaptation cognitive à des situations nouvelles, il peut paraître paradoxal de faire dépendre cette capacité de la connaissance de situations anciennes. C'est pourtant le cas, car les situations nouvelles sont toujours interprétées à partir de connaissances et concepts déjà acquis. Les chances de trouver une solution à un problème nouveau dépendent de la richesse et de l'organisation du réseau conceptuel et des connaissances qui y sont stockées ".

      Si la mémoire d’un individu augmente son savoir et son intelligence, on peut, par extension affirmer que la mémoire d’un groupe, d’une société rend ce groupe d’individus plus intelligent.

      " La mémoire du groupe s'appelle la culture. La possibilité de conserver dans des mémoires externes les solutions trouvées par les générations précédentes, les instruments de pensée qu'elles ont inventé (par ex. la numération), rend les générations suivantes mieux outillées pour résoudre des problèmes nouveaux ".

      De ce point de vue, le langage, l'écriture, l'imprimerie, le cinéma, ont été des étapes importantes dans la constitution de cette mémoire externe. Internet ne change pas la nature de cette question et n'en est qu'une étape parmi d'autres. Mais il est vrai que si les connaissances véhiculées par ce médium ne sont pas mémorisées, et donc organisées de façon à pouvoir être récupérées de façon efficace, sa contribution au développement de la mémoire collective sera moindre.

      Contrairement à la mémoire d'un individu, la mémoire d'un groupe n'a pas de support interne. Chaque individu d'un groupe peut en avoir des fragments, mais la mémoire d'un groupe ne peut être stockée que dans des supports externes. Effectuer une sélection volontaire parmi les éléments à mémoriser dans cette mémoire collective, choisir pour les générations futures leur culture pourrait dans certains cas s’apparenter à de la censure historique et laisser ouverte la porte aux révisionnistes et autres dictateurs pour qui le contrôle de l’information présente et passée est la clef de voûte du pouvoir.

       

    5. Le web a-t-il une valeur patrimoniale ?
    6. Au regard des critères qui définissent ce qu’est ou devrait être le patrimoine national, le world wide web, malgré sa nature hétérogène apparaît comme un candidat potentiel à ce classement pour la postérité.

      Plusieurs arguments permettent d’aller dans ce sens.

      Le web est composé de contenus artistiques, documentaires, informatifs uniques. Les œuvres se trouvant sur le web et sur aucun autre support sont par conséquent fragiles et menacées de destruction. Certaines d’entre elles sont par ailleurs vouées à cette destruction ou à cet oubli. Ces œuvres que leurs auteurs ont souhaitées éphémères doivent pouvoir le rester.

      Par son aspect hétérogène, par l’absence de sélection en amont et en aval de la publication, le web est devenu l’un des supports les plus représentatifs de la société, notamment en ce qui concerne les pays industrialisés et démocratiques. Cette image, même déformée, possède non pas une valeur patrimoniale au sens strict du terme mais plutôt une valeur scientifique indéniable.

      Si les civilisations antiques ou même antérieures sont connues aujourd’hui c’est par la découverte, l’analyse et la conservation de leurs " publications ".

      Connaîtrions-nous les hommes préhistoriques sans leurs peintures rupestres ?

      Et les Egyptiens sans leurs hiéroglyphes ?

      D’une manière générale tout ce qui est produit par une société contribue à sa connaissance par les sociétés suivantes. Les écrits, l’artisanat, les bâtiments, l’art, les récits oraux constituent des traces de culture, d’usage et donnent une image fidèle de ce qu’a pu être cette société.

      Plus les traces sont nombreuses, plus l’image reflétée est conforme à la réalité. De la même manière, plus le nombre d’auteur est important plus la culture couverte est large.

      Dans le cas du web, nous sommes en présence d’un objet composite qui reflète une image excessivement complète de notre " culture ". Mélangeant les aspects fonctionnels (boutique, horaire de trains, sites touristique), la création (musée en ligne, site personnel) les perversions (site pornographique, voyeurisme), les idées (sites nazis, écologistes, partis politiques, gouvernementaux…).

      La conservation de ces objets présentant peu de valeur individuellement prend tout son sens dans la globalité et l’exhaustivité.

      Ainsi c’est le web dans sa totalité qui présente un intérêt patrimonial bien supérieur à la somme des intérêts de chaque site pris individuellement.

    7. Pourquoi le web est-il si difficile à archiver ?
    8. Le Web n’est pas un support de publication comme les autres. Ses particularités en font un flux d’information fort difficile à collecter, archiver et préserver.

      Tout d’abord, le web n’est pas fixe, figé ou " terminé ". Le web est un système, c’est à dire un ensemble d’éléments en interactions dynamiques les uns avec les autres. En mouvement perpétuel, évoluant dans le temps de manière continue. Cet aspect des choses le fait considérer par l’INA comme un flux, au même titre que la radio ou la télévision. A l’inverse, les bibliothèques, et plus particulièrement la Bibliothèque Nationale, le considèrent comme un support de publication telle une revue papier.

      La vision de flux semble plus juste lorsqu’on observe le web dans son ensemble mais cette vision des choses rend complexe la manière d’appréhender les données. En effet, un texte, une page, même un site, pris individuellement semblent fixes.

      Pour appréhender un objet composite comme celui ci il serait intéressant de le délimiter pour le définir ; or le web est infini par nature. Les institutions en charge de sa sauvegarde créent donc des règles de délimitations fictives qui leur permettent de cerner l’objet, de le qualifier, et par conséquent d’établir des procédures de collecte et d’archivage.

      Le web est aussi volatil. Il serait extrêmement difficile de dresser la carte d’une ville dont les bâtiments apparaissent et disparaissent sans cesse, dont les rues existent un jour et plus le lendemain ou alors pour mener ailleurs. C’est devant ce type de problème que l’on se trouve lorsqu’on souhaite archiver le web. C’est d’ailleurs pour cela que certains archivistes du web travaillent par " photos instantanées " (snapshot). Un instantané du web est pris et c’est à partir de ce dernier que l’archivage se fait même s’il n’est pas tout à fait conforme à la réalité.

    9. La notion de frontière sur le web
    10. Les principales raisons d'être du dépôt légal sont de constituer une collection complète des publications nationales, d'établir un registre bibliographique national officiel afin d'assurer la préservation des publications et de les rendre aisément accessibles. Ces deux fonctions essentielles ont tout autant lieu d'être dans le milieu de l'édition électronique que dans le cadre traditionnel de l'édition sur papier.

      Le dépôt légal ne peut s’appliquer que sur un domaine restreint et clairement défini tel que la production nationale. Dans l’état actuel de la législation, il est impossible pour un pays comme la France de prétendre déposer une publication étrangère ou dont la provenance n’est pas identifiée.

      La structure hypertextuelle du Web ne permet pas de délimiter clairement un site. Un site web peut être constitué d’éléments provenant simultanément de toute la planète. La notion de frontière est absurde et contre nature lorsque l’on parle du Web. Néanmoins il faut trouver les critères qui permettent de définir et de différencier un site français.

      Il y a cependant peu de chance qu'une seule législation sur le dépôt légal des publications électroniques puisse convenir à tous les pays, mais les législateurs dans ce domaine devraient pouvoir concevoir une législation conforme aux besoins et à la situation de leur propre pays.

      En 1988, le Ministère de la Culture met en chantier une vaste refonte du régime général du dépôt légal qui aboutit à la nouvelle loi du 20 juin 1992, dont le décret d’application du 31 décembre 1993 entre en vigueur dès le 1er janvier 1994.

      Désormais, le dépôt légal est réparti entre quatre organismes :

      la Bibliothèque Nationale pour les documents imprimés, graphiques et photographiques, les progiciels, bases de données et systèmes experts, les phonogrammes, et les vidéogrammes,

      l’Institut National de l’Audiovisuel (INA) pour les documents audiovisuels et sonores provenant de programmes radiodiffusés et télédiffusés.

      Le Centre National de la Cinématographie pour les vidéogrammes sur support photochimique, le ministère de l’Intérieur pour les livres, brochures et autres documents imprimés à l'exception des périodiques.

    11. Les différentes approches
    12. Il s’agit de statuer sur ce que l’on souhaite archiver. Aujourd’hui existent deux approches majeures.

      La première, l’approche exhaustive, a pour objectif d’archiver l’intégralité des documents en ligne. L’argument majeur en faveur de cette méthode est qu’elle a l’énorme avantage de ne pas spéculer sur l’intérêt historique d’un document a priori. L’histoire décidera de ce qui est intéressant ou non. L’approche exhaustive place donc au même niveau patrimonial les horaires de la SNCF, un site pornographique ou encore le site du Premier ministre. C’est donc l’ensemble d’un corpus qu’il est intéressant de considérer comme le reflet de la société à un moment donné et non chaque document ou groupe de documents indépendamment.

      La deuxième approche est sélective. L’objectif est de sélectionner les informations qui semblent importantes, de les archiver et de les rendre accessibles une par une. L’avantage de cette méthode est qu’elle élimine une grande partie du bruit. En effet, les publications étant sélectionnées par un humain, seules celles entrant dans les critères de sélection sont collectées. En revanche, utilisant beaucoup plus de personnes dans les équipes, elle est très onéreuse. De plus elle implique un classement qualitatif des documents selon des critères actuels imaginés pour les générations futures.

      1. Collecte manuelle, automatisée ou semi-automatisée

      La manière classique pour collecter les documents en ligne est le " harvesting " qui utilise un robot cherchant les documents sur le web et les rapatriant sous forme de copies.

      Une autre méthode consiste à laisser la responsabilité à l’éditeur de livrer une copie de ses documents sur support ou en ligne.

      La plupart des projets utilisant l’approche sélective collectent les documents par harvesting du fait de la simplicité et de la practicité de cette méthode. Toutefois, pour les sites nécessitant un mot de passe, la participation de l’éditeur est obligatoire.

      La courte durée de vie des publications électroniques fait partie de leur spécificité par rapport aux documents papier. En effet, la durée de vie moyenne d’une page web est de 75 jours. C’est ce paramètre qui doit être pris en compte lorsque l’on doit choisir entre la méthode de l’instantané du web ou la méthode de collecte continue.

      Dans le cas d’un archivage continu, le problème qui se pose alors n’est pas réellement d’ordre technique, mais d’ordre ergonomique. L’archive prendrait la forme d’une vis dans laquelle il serait bien compliqué de naviguer dans le temps et " l’espace ". Ainsi la plupart des chercheurs qui travaillent sur le sujet ont choisi d’archiver le web par strates. Chaque strate représente une image du web à un instant t (un snapshot ). On navigue à l’intérieur d’une époque comme sur le web actuel et on rajoute une fonctionnalité au navigateur pour passer d’une strate à l’autre.

      L’idée serait de collecter le maximum de publications et de versions successives. Pour cela, il est nécessaire d’avoir un robot harvester qui archive l’information en fonction de la fréquence de renouvellement sur chaque URL.

      D’après les experts, il n’est pas impossible de développer un tel logiciel.

      L’instantané (snapshot) consiste à prendre entre deux et six images du web dans l’année et les considérer comme représentatives du web à une époque donnée. C’est une manière attirante de sélectionner automatiquement les contenus et de réduire considérablement la taille des archives. Le problème majeur est que l’on passe à côté de publications qui ont une très courte durée de vie comme les journaux quotidiens. Cela implique que l’on donne un traitement spécial à certaines publications ce qui augmente considérablement le coût et l’effectif des équipes d’archivistes.

       

      Une autre méthode a été étudiée pour sa facilité de mise en place. La méthode d’échantillonnage. Elle permettrait de répondre à certains besoins de préservation patrimoniale mais n’est en aucun cas suffisante pour la mise en place d’un dépôt légal.

      Cette méthode consiste à pêcher aléatoire sur la toile des sites web à intervalle régulier. Très souvent utilisée en traitement du signal (notamment dans la numérisation d’un signal analogique) elle à fait ses preuves et on montre qu’avec une bonne fréquence d’échantillonnage il est possible de restituer convenablement l’original. En d’autre terme il serait possible de donner une idée du web d’une époque donnée en ayant archivé un certain nombre d’échantillons dits représentatifs.

    13. Enjeux liés à la mise en place d’un dépôt légal du Web français
    14. L’absence de dépôt légal concernant les publications électronique engendre des difficultés juridiques lors de procès en diffamation ou de réclamation concernant des plagiats.

      En effet, ne possédant ni date officielle de dépôt, ni " durée de vie ", les publications électroniques sont considérées comme " permanentes ". Il est donc possible d’être attaqué en diffamation pour une publication dont le contenu ne serait plus exact, même si cette publication date de mois ou d’années. Le cas s’est déjà présenté.

    15. Des difficultés à surmonter

Il est clair que de nombreux problèmes n’ont pas encore trouvé de solutions.

Des problèmes fonctionnels  concernant les choix à faire pour délimiter des sites, pour définir les différences entre mise à jour et nouvelle version, pour faire le choix entre l’archivage continu ou le snapshot, ou enfin pour choisir une approche sélective ou exhaustive.

Des problèmes juridiques concernant le dépôt légal, le droit d’auteur, le respect de la vie privée.

Des problèmes techniques visant en priorité la question de la pérennisation des données, la collecte des pages personnelles dont l’auteur est français mais hébergées sur des sites étrangers, l’archivage des flux vidéos et sonores et de l’ensemble des fichiers multimédias nécessitant un logiciel de lecture.

Il manque en France une volonté politique qui permettrait d’une part de choisir l’institution en charge de ce projet, évitant ainsi notamment à l’INA et à la BNF de travailler sur les mêmes projets sans se concerter. Ce choix s’accompagnerait sans doute de budgets adéquats permettant de commencer la collecte et de réfléchir à la manière de résoudre les problèmes existant. Avant de commencer les institutions attendent un cadre juridique favorable, des budgets supplémentaires et la réponse à leurs questions.