Enjeux de larchivage du web français
A linstar des livres, des phonogrammes, des films sur support photochimique, des vidéos, des logiciels, des bases de données, de la radio, de la télévision ; le World Wide Web est sur le point dêtre conservé en France.
Dernier-né des représentants de la mémoire de notre société, lenvie, la nécessité de le conserver se font sentir partout dans le monde. La France, fière davoir été le berceau de linvention du dépôt légal, s "est donné pour objectif lextension de celui-ci aux publications électroniques distantes.
Pour comprendre les enjeux dune telle entreprise, il est important den mesurer non pas seulement les implications techniques, mais la manière dont elle sinscrit dans le cadre plus général de la mémorisation et de la conservation de linformation dans nos sociétés.
Ce travail vise donc plusieurs objectifs réunis ici sous forme de questions :
Pourquoi se souvenir ?
En effet, comprendre les enjeux dune entreprise darchivage aussi colossale ne peut se faire quen mettant en exergue ce quapportent réellement les processus de mémorisation individuelle et collective
Quest-ce que le patrimoine national ?
Certains objets sont identifiés et classés comme faisant partie dun patrimoine national représentatif dune culture, dune époque. Ceux du patrimoine français mettent en valeur un savoir-faire, des qualités passées ou présentes ne devant en aucun cas être altérées par le temps. Les générations futures doivent pouvoir en profiter comme dun héritage. Cependant, comme toute sélection, celle-ci engendre des catégories dobjets dont la valeur patrimoniale ne semble pas évidente aux archivistes du moment.
Ces objets seront soit oubliés soit sauvegardés par des particuliers collectionneurs et passionnés. Il arrive ainsi que certaines collections deviennent alors convaincantes pour les archivistes ouvrant alors un nouveau pan du patrimoine à conserver.
Le web fait-il partie du patrimoine ?
Un certain nombre de personnes pensent que la valeur patrimoniale du Web est indéniable et que la perte du nombre colossale de sites est insupportable. Dautres, qui voient dans le web avant-tout un outil de publications considèrent quil faut reconnaître et protéger ses auteurs. Tous ces groupes sont donc dactifs partisans de la conservation patrimoniale du world wide web et de la création dun dépôt légal adapté à ce support de création et de publication.
Il semble clair que si le web est effectivement partie intégrante du patrimoine culturel dun pays, il doit être collecté, archivé et préservé à long terme.
Comment faire ?
Les particularités du web en font un objet qui ne se laisse pas collecter facilement. Des questions théoriques et techniques se posent et font de cette entreprise une des plus complexe jamais posée aux archivistes. Cependant plusieurs approchent existent et certains pays ayant commencé cette tâche montrent le chemin à suivre.
Lexplosion du numérique a permis de créer ce que nous appelons " la société de linformation ". Jamais autant dinformation naura été créée. Jamais autant dinformation naura été aussi perdue.
On estime aujourdhui à 100 000 le nombres de pages créées chaque jour en France. Statistiquement, la moitié de ces pages disparaîtront en moins dun mois. Ce calcul prend en compte les disparitions de pages mais élude le nombre de mise à jour des pages.
Il ne serait pas pertinent de conserver toutes les versions de toutes les pages françaises mais il doit être possible de trouver un compromis en tout et rien.
Ce paradoxe finit par faire assimiler la notion de société de linformation à celle dinformation volatile, de virtuelle.
Pérenniser les supports de cette information fait partie des enjeux fondamentaux de la capitalisation du savoir. Mais pérenniser ces informations et ces supports, cest aussi en quelques sorte en altérer lintégrité. Comment garantir lintégrité dun document dont on modifie le support et les caractéristiques ?
" La mémoire dun individu sert à reproduire les comportements qui se sont révélés favorables à son adaptation et à éviter de reproduire ceux qui ont eu des effets négatifs. Mais aussi à donner du sens au monde qui l'entoure. "
Cette définition semble fort liée à celle dintelligence. Il serait donc possible dinférer que la mémoire augmente ou facilite lintelligence.
" Si on définit l'intelligence comme la capacité d'adaptation cognitive à des situations nouvelles, il peut paraître paradoxal de faire dépendre cette capacité de la connaissance de situations anciennes. C'est pourtant le cas, car les situations nouvelles sont toujours interprétées à partir de connaissances et concepts déjà acquis. Les chances de trouver une solution à un problème nouveau dépendent de la richesse et de l'organisation du réseau conceptuel et des connaissances qui y sont stockées ".
Si la mémoire dun individu augmente son savoir et son intelligence, on peut, par extension affirmer que la mémoire dun groupe, dune société rend ce groupe dindividus plus intelligent.
" La mémoire du groupe s'appelle la culture. La possibilité de conserver dans des mémoires externes les solutions trouvées par les générations précédentes, les instruments de pensée qu'elles ont inventé (par ex. la numération), rend les générations suivantes mieux outillées pour résoudre des problèmes nouveaux ".
De ce point de vue, le langage, l'écriture, l'imprimerie, le cinéma, ont été des étapes importantes dans la constitution de cette mémoire externe. Internet ne change pas la nature de cette question et n'en est qu'une étape parmi d'autres. Mais il est vrai que si les connaissances véhiculées par ce médium ne sont pas mémorisées, et donc organisées de façon à pouvoir être récupérées de façon efficace, sa contribution au développement de la mémoire collective sera moindre.
Contrairement à la mémoire d'un individu, la mémoire d'un groupe n'a pas de support interne. Chaque individu d'un groupe peut en avoir des fragments, mais la mémoire d'un groupe ne peut être stockée que dans des supports externes. Effectuer une sélection volontaire parmi les éléments à mémoriser dans cette mémoire collective, choisir pour les générations futures leur culture pourrait dans certains cas sapparenter à de la censure historique et laisser ouverte la porte aux révisionnistes et autres dictateurs pour qui le contrôle de linformation présente et passée est la clef de voûte du pouvoir.
Au regard des critères qui définissent ce quest ou devrait être le patrimoine national, le world wide web, malgré sa nature hétérogène apparaît comme un candidat potentiel à ce classement pour la postérité.
Plusieurs arguments permettent daller dans ce sens.
Le web est composé de contenus artistiques, documentaires, informatifs uniques. Les uvres se trouvant sur le web et sur aucun autre support sont par conséquent fragiles et menacées de destruction. Certaines dentre elles sont par ailleurs vouées à cette destruction ou à cet oubli. Ces uvres que leurs auteurs ont souhaitées éphémères doivent pouvoir le rester.
Par son aspect hétérogène, par labsence de sélection en amont et en aval de la publication, le web est devenu lun des supports les plus représentatifs de la société, notamment en ce qui concerne les pays industrialisés et démocratiques. Cette image, même déformée, possède non pas une valeur patrimoniale au sens strict du terme mais plutôt une valeur scientifique indéniable.
Si les civilisations antiques ou même antérieures sont connues aujourdhui cest par la découverte, lanalyse et la conservation de leurs " publications ".
Connaîtrions-nous les hommes préhistoriques sans leurs peintures rupestres ?
Et les Egyptiens sans leurs hiéroglyphes ?
Dune manière générale tout ce qui est produit par une société contribue à sa connaissance par les sociétés suivantes. Les écrits, lartisanat, les bâtiments, lart, les récits oraux constituent des traces de culture, dusage et donnent une image fidèle de ce qua pu être cette société.
Plus les traces sont nombreuses, plus limage reflétée est conforme à la réalité. De la même manière, plus le nombre dauteur est important plus la culture couverte est large.
Dans le cas du web, nous sommes en présence dun objet composite qui reflète une image excessivement complète de notre " culture ". Mélangeant les aspects fonctionnels (boutique, horaire de trains, sites touristique), la création (musée en ligne, site personnel) les perversions (site pornographique, voyeurisme), les idées (sites nazis, écologistes, partis politiques, gouvernementaux ).
La conservation de ces objets présentant peu de valeur individuellement prend tout son sens dans la globalité et lexhaustivité.
Ainsi cest le web dans sa totalité qui présente un intérêt patrimonial bien supérieur à la somme des intérêts de chaque site pris individuellement.
Le Web nest pas un support de publication comme les autres. Ses particularités en font un flux dinformation fort difficile à collecter, archiver et préserver.
Tout dabord, le web nest pas fixe, figé ou " terminé ". Le web est un système, cest à dire un ensemble déléments en interactions dynamiques les uns avec les autres. En mouvement perpétuel, évoluant dans le temps de manière continue. Cet aspect des choses le fait considérer par lINA comme un flux, au même titre que la radio ou la télévision. A linverse, les bibliothèques, et plus particulièrement la Bibliothèque Nationale, le considèrent comme un support de publication telle une revue papier.
La vision de flux semble plus juste lorsquon observe le web dans son ensemble mais cette vision des choses rend complexe la manière dappréhender les données. En effet, un texte, une page, même un site, pris individuellement semblent fixes.
Pour appréhender un objet composite comme celui ci il serait intéressant de le délimiter pour le définir ; or le web est infini par nature. Les institutions en charge de sa sauvegarde créent donc des règles de délimitations fictives qui leur permettent de cerner lobjet, de le qualifier, et par conséquent détablir des procédures de collecte et darchivage.
Le web est aussi volatil. Il serait extrêmement difficile de dresser la carte dune ville dont les bâtiments apparaissent et disparaissent sans cesse, dont les rues existent un jour et plus le lendemain ou alors pour mener ailleurs. Cest devant ce type de problème que lon se trouve lorsquon souhaite archiver le web. Cest dailleurs pour cela que certains archivistes du web travaillent par " photos instantanées " (snapshot). Un instantané du web est pris et cest à partir de ce dernier que larchivage se fait même sil nest pas tout à fait conforme à la réalité.
Les principales raisons d'être du dépôt légal sont de constituer une collection complète des publications nationales, d'établir un registre bibliographique national officiel afin d'assurer la préservation des publications et de les rendre aisément accessibles. Ces deux fonctions essentielles ont tout autant lieu d'être dans le milieu de l'édition électronique que dans le cadre traditionnel de l'édition sur papier.
Le dépôt légal ne peut sappliquer que sur un domaine restreint et clairement défini tel que la production nationale. Dans létat actuel de la législation, il est impossible pour un pays comme la France de prétendre déposer une publication étrangère ou dont la provenance nest pas identifiée.
La structure hypertextuelle du Web ne permet pas de délimiter clairement un site. Un site web peut être constitué déléments provenant simultanément de toute la planète. La notion de frontière est absurde et contre nature lorsque lon parle du Web. Néanmoins il faut trouver les critères qui permettent de définir et de différencier un site français.
Il y a cependant peu de chance qu'une seule législation sur le dépôt légal des publications électroniques puisse convenir à tous les pays, mais les législateurs dans ce domaine devraient pouvoir concevoir une législation conforme aux besoins et à la situation de leur propre pays.
En 1988, le Ministère de la Culture met en chantier une vaste refonte du régime général du dépôt légal qui aboutit à la nouvelle loi du 20 juin 1992, dont le décret dapplication du 31 décembre 1993 entre en vigueur dès le 1er janvier 1994.
Désormais, le dépôt légal est réparti entre quatre organismes :
la Bibliothèque Nationale pour les documents imprimés, graphiques et photographiques, les progiciels, bases de données et systèmes experts, les phonogrammes, et les vidéogrammes,
lInstitut National de lAudiovisuel (INA) pour les documents audiovisuels et sonores provenant de programmes radiodiffusés et télédiffusés.
Le Centre National de la Cinématographie pour les vidéogrammes sur support photochimique, le ministère de lIntérieur pour les livres, brochures et autres documents imprimés à l'exception des périodiques.
Il sagit de statuer sur ce que lon souhaite archiver. Aujourdhui existent deux approches majeures.
La première, lapproche exhaustive, a pour objectif darchiver lintégralité des documents en ligne. Largument majeur en faveur de cette méthode est quelle a lénorme avantage de ne pas spéculer sur lintérêt historique dun document a priori. Lhistoire décidera de ce qui est intéressant ou non. Lapproche exhaustive place donc au même niveau patrimonial les horaires de la SNCF, un site pornographique ou encore le site du Premier ministre. Cest donc lensemble dun corpus quil est intéressant de considérer comme le reflet de la société à un moment donné et non chaque document ou groupe de documents indépendamment.
La deuxième approche est sélective. Lobjectif est de sélectionner les informations qui semblent importantes, de les archiver et de les rendre accessibles une par une. Lavantage de cette méthode est quelle élimine une grande partie du bruit. En effet, les publications étant sélectionnées par un humain, seules celles entrant dans les critères de sélection sont collectées. En revanche, utilisant beaucoup plus de personnes dans les équipes, elle est très onéreuse. De plus elle implique un classement qualitatif des documents selon des critères actuels imaginés pour les générations futures.
La manière classique pour collecter les documents en ligne est le " harvesting " qui utilise un robot cherchant les documents sur le web et les rapatriant sous forme de copies.
Une autre méthode consiste à laisser la responsabilité à léditeur de livrer une copie de ses documents sur support ou en ligne.
La plupart des projets utilisant lapproche sélective collectent les documents par harvesting du fait de la simplicité et de la practicité de cette méthode. Toutefois, pour les sites nécessitant un mot de passe, la participation de léditeur est obligatoire.
La courte durée de vie des publications électroniques fait partie de leur spécificité par rapport aux documents papier. En effet, la durée de vie moyenne dune page web est de 75 jours. Cest ce paramètre qui doit être pris en compte lorsque lon doit choisir entre la méthode de linstantané du web ou la méthode de collecte continue.
Dans le cas dun archivage continu, le problème qui se pose alors nest pas réellement dordre technique, mais dordre ergonomique. Larchive prendrait la forme dune vis dans laquelle il serait bien compliqué de naviguer dans le temps et " lespace ". Ainsi la plupart des chercheurs qui travaillent sur le sujet ont choisi darchiver le web par strates. Chaque strate représente une image du web à un instant t (un snapshot ). On navigue à lintérieur dune époque comme sur le web actuel et on rajoute une fonctionnalité au navigateur pour passer dune strate à lautre.
Lidée serait de collecter le maximum de publications et de versions successives. Pour cela, il est nécessaire davoir un robot harvester qui archive linformation en fonction de la fréquence de renouvellement sur chaque URL.
Daprès les experts, il nest pas impossible de développer un tel logiciel.
Linstantané (snapshot) consiste à prendre entre deux et six images du web dans lannée et les considérer comme représentatives du web à une époque donnée. Cest une manière attirante de sélectionner automatiquement les contenus et de réduire considérablement la taille des archives. Le problème majeur est que lon passe à côté de publications qui ont une très courte durée de vie comme les journaux quotidiens. Cela implique que lon donne un traitement spécial à certaines publications ce qui augmente considérablement le coût et leffectif des équipes darchivistes.
Une autre méthode a été étudiée pour sa facilité de mise en place. La méthode déchantillonnage. Elle permettrait de répondre à certains besoins de préservation patrimoniale mais nest en aucun cas suffisante pour la mise en place dun dépôt légal.
Cette méthode consiste à pêcher aléatoire sur la toile des sites web à intervalle régulier. Très souvent utilisée en traitement du signal (notamment dans la numérisation dun signal analogique) elle à fait ses preuves et on montre quavec une bonne fréquence déchantillonnage il est possible de restituer convenablement loriginal. En dautre terme il serait possible de donner une idée du web dune époque donnée en ayant archivé un certain nombre déchantillons dits représentatifs.
Labsence de dépôt légal concernant les publications électronique engendre des difficultés juridiques lors de procès en diffamation ou de réclamation concernant des plagiats.
En effet, ne possédant ni date officielle de dépôt, ni " durée de vie ", les publications électroniques sont considérées comme " permanentes ". Il est donc possible dêtre attaqué en diffamation pour une publication dont le contenu ne serait plus exact, même si cette publication date de mois ou dannées. Le cas sest déjà présenté.
Il est clair que de nombreux problèmes nont pas encore trouvé de solutions.
Des problèmes fonctionnels concernant les choix à faire pour délimiter des sites, pour définir les différences entre mise à jour et nouvelle version, pour faire le choix entre larchivage continu ou le snapshot, ou enfin pour choisir une approche sélective ou exhaustive.
Des problèmes juridiques concernant le dépôt légal, le droit dauteur, le respect de la vie privée.
Des problèmes techniques visant en priorité la question de la pérennisation des données, la collecte des pages personnelles dont lauteur est français mais hébergées sur des sites étrangers, larchivage des flux vidéos et sonores et de lensemble des fichiers multimédias nécessitant un logiciel de lecture.
Il manque en France une volonté politique qui permettrait dune part de choisir linstitution en charge de ce projet, évitant ainsi notamment à lINA et à la BNF de travailler sur les mêmes projets sans se concerter. Ce choix saccompagnerait sans doute de budgets adéquats permettant de commencer la collecte et de réfléchir à la manière de résoudre les problèmes existant. Avant de commencer les institutions attendent un cadre juridique favorable, des budgets supplémentaires et la réponse à leurs questions.