mardi 12 juillet 2011

Quand les archives du web viennent au secours des webmasters

Tout le monde connait l'Internet Archive, une fondation à but non lucratif créée en 1996 et qui s'est donnée comme objectif d'archiver le Web. Sa Wayback Machine, dont une nouvelle version a vu le jour récemment, est d'ailleurs plutôt populaire, puisque accessible à tout le monde et entièrement gratuite. Le service propose de voir les versions antérieures archivées d'un site internet. 

Je suis récemment tombé sur un site internet dont le webmaster indiquait en substance qu'il avait perdu tout le contenu de son site après une défaillance (catastrophique) de son hébergeur. Et ledit webmaster, pour remettre en route son site s'est simplement rendu sur la Wayback Machine de l'Internet Archive afin de récupérer le contenu de son site.


Cette mésaventure nous montre en fait deux choses. La première est le côté éphémère des données numériques, qui sont vulnérables et qui doivent à tout prix être pérennisées alors même que les moyens matériels et logiciels sont dépourvus de toute pérennité. C’est un problème majeur pour la société de l’information. 

La deuxième est le côté tout aussi éphémère du Web qui est un monde en constante évolution qui se fait et se défait constamment. La mission de l'Internet Archive est donc plus que jamais nécessaire pour la préservation du patrimoine. Et je crois rappeler à toutes fins utiles qu'en France, c'est la BnF qui est chargée de collecter les sites Internet du « domaine français » au titre du dépôt légal (loi DADVSI).

3 commentaires:

  1. PS : j'espère qu'en cas de bug, le blog de veille archivistique compte plus sur les sauvegardes manuelles et régulières de son webmestre que sur les éventuelles sauvegardes d'Internet Archives ;-) parce qu'il n'y en a a priori pas.

    Plus sérieusement, sur 5 sites gérés (dont deux avec une centaine de visiteurs / jour), seul un figure dans the Wayback machine. Et c'est celui qui a le moins de trafic et le plus récent. Rien ne vaut les sauvegardes manuelles et régulières pour récupérer et restaurer un site. D'autant qu'aujourd'hui la majeure partie des sites ont de bonnes grosses bases de données qui risquent de passer en partie à la trappe des snapshots aléatoires...

    RépondreSupprimer
  2. Billet très intéressant pour un outil trop méconnu à mon goût. Merci !

    Néanmoins, comme le précise la personne précédente, tous les webmasters n'ont pas l'opportunité de revoir les versions antérieures de leur site. Y-a-t-il une explication (et solution) à ce "problème" ?

    RépondreSupprimer
  3. @Maiwenn : Notre blog est archivé quotidiennement. Mais cet archivage est réalisé avec les outils internes de Blogger qui fournit notre CMS. Autrement dit, il y a un archivage, mais aucune sauvegarde réelle étant donné que nous n'avons pas la main sur le code... Rien de moins pérenne donc. Mais nous en avons conscience :p

    @Julie : Oui, il y a une explication, et elle est plutôt simple en fait. Le Web est collecté par des robots. On donne au robot une porte d'entrée (une URL) et ensuite, c'est lui qui archive les pages en suivant les liens, avec plus ou moins de précisions. Il suit la "toile d'araignée" (le fameux World Wide Web) en sautant de lien en lien. Plus un site est pointé par d'autre sites, plus il a de chances d'être collecté par le robot. Les robots ont donc du mal à collecter ce qu'on appelle le "web profond". Essentiellement pour des limitations techniques. Les robots sont paramétrés pour collecter à un nombre X de clics. Si ce nombre est 2, il va sur la page d'accueil du site, fait un clic sur les liens, collecte les pages et sort par le premier lien sortant qu'il trouve. Ceci car les collectes prennent énormément de place (chaque collecte annuelle de la BnF récolte plusieurs pétaoctets de données). Ajoutez à cela que le rebot est incapable de collecter certains contenus liés à des technologies comme le Flash ou le Java, et vous comprenez pourquoi la collecte n’est que partielle. Quant aux solutions, elles sont théoriquement simples : que tous les créateurs de contenus se mettent à respecter des standards internationaux. Autrement dit, c’est pas demain la veille…

    RépondreSupprimer