| Adresse | web.archive.org |
|---|---|
| Commercial | Non |
| Publicité | Non |
| Type de site | Archivage du Web |
| Langue | Anglais |
| Inscription | Gratuite |
| Siège social | San Francisco |
| Propriétaire | Internet Archive |
| Créé par | Brewster Kahle |
| Lancement | [1] (24 ans, 40 jours) |
| État actuel | En activité |
| modifier |
|
La Wayback Machine (littéralement « machine à revenir en arrière ») est un site web mis à disposition par l’organisme à but non lucratif américain Internet Archive afin d'offrir un accès à des clichés instantanés de pages web stockés par l'organisme. Les archives de la Wayback Machine sont mises à la disposition de tous gratuitement. Elles permettent aux utilisateurs de la plateforme de retracer l’évolution de différents sites internet à travers le temps, ainsi que de retrouver des pages web qui n’existent plus[2].
La Wayback Machine est considéré comme la plus grande collection d’archives web à travers le monde[3]. En octobre 2025, le nombre de pages web archivées a atteint 1000 milliards et ce chiffre augmente d’environ 500 millions de pages par jour[4]. C’est approximativement 800 000 usagers à travers le monde qui visitent la Wayback Machine tous les jours[4].
Historique
Dès sa création en 1996, Internet Archive commence à capturer et enregistrer des pages web afin de les archiver. Puis, en 2001, l'équipe menée par Brewster Kahle lance la Wayback Machine, qui offre une interface publique à cette base de données qui comporte à l'époque 10 milliards de pages représentant 100 térabits de données[5].
L'appellation « Wayback Machine » renvoie à des épisodes du The Rocky and Bullwinkle Show, où M. Peabody, un chien à l'air professoral et son assistant Sherman (un animal de compagnie humain), utilisent une machine à remonter le temps appelée « WABAC Machine » pour décrire des évènements historiques célèbres.
En octobre 2024, une attaque par déni de service compromet 31 millions de comptes Wayback Machine, le service est hors service pendant plusieurs jours[6]. Les motifs ainsi que les personnes derrière cette cyberattaque ne sont pas connus[7].
Contenu
Les pages web archivées dans la Wayback Machine peuvent être préservées selon deux méthodes. Internet Archive a majoritairement recours à des robots d’indexation pour faire sa collecte de données. Anciennement, c’était principalement le robot d’indexation de la compagnie Alexa Internet qui était utilisé, mais il y a une dizaine d’années, Internet Archive a développé son propre robot d’indexation nommé Heritrix[8]. La fréquence des instantanés est variable et dépend de plusieurs facteurs dont le nombre de liens entrants vers la page concernée[9].
Depuis 2013, les utilisateurs peuvent directement faire la sauvegarde de pages web grâce à l’outil « Save Page Now ». Cette fonctionnalité a été ajoutée dans le but de démocratiser et diversifier le contenu se trouvant dans la Wayback Machine. Il est estimé que plus de 100 URL par seconde sont sauvegardées à partir de cet outil[3].
Utilisation
Initialement, la Wayback Machine était perçue comme un outil permettant d’avoir accès à du contenu provenant des liens morts que les utilisateurs pouvaient rencontrer en surfant sur le web[10]. Cependant, les utilités qu’on lui donne aujourd’hui sont beaucoup plus variées, entre autres, ce site d’archivage web peut servir à soutenir le développement de nouveaux algorithmes d'apprentissage automatique, à faire la vérification des faits, dans le but de tenir les gouvernements et les personnalités publiques responsables et à protéger la propriété intellectuelle en prouvant les cas de plagiats[3],[11]. Des preuves récupérées dans la Wayback Machine ont même déjà été admises dans plusieurs tribunaux à travers le monde[12].
La Wayback Machine est également un outil très prisé pour faire de la recherche scientifique. Entre 2000 et 2013, c’est 2593 articles, livres et autres documents qui ont été écrits au sujet de la Wayback Machine[13]. Les principaux domaines d’études ayant contribué à cette littérature sont les technologies de l’information, les sciences de l’information et les sciences sociales[13].
Limites
Bien qu’il existe plusieurs autres projets similaires à travers le monde, la Wayback Machine se différencie par le fait que ses créateurs ont l’aspiration de sauvegarder toutes les pages web existantes, et cela sans discrimination[3]. Malgré tout, il existe un certain nombre de facteurs qui complexifient le développement de cette collection d’archives :
- La Wayback Machine préserve principalement les pages HTML, puisque certaines méthodes de codages, telles que le JavaScript, sont plus difficiles à archiver[14]. Les pages web dynamiques présentent un grand défi pour les robots d’indexation tel que Heritrix. Ce dernier n’est pas en mesure de performer les interactions nécessaires pour initier des scripts côté serveur, ce qui empêche Heritrix de récupérer du contenu provenant d’une base de données[15].
- Peu de contenu est sauvegardé à l’extérieur du monde occidental[16]. Une raison pouvant expliquer cette situation est que l’algorithme d’exploration utilisé par Internet Archive utilise les hyperliens trouvés sur les pages web déjà indexées afin de trouver de nouveaux sites internet[17]. Les pays dont les pages web sont peu liées peuvent donc être sous-représentés[18].
- Les pages web payantes et les sites dont les propriétaires ont demandé d’être retirés de la Wayback Machine ne sont pas sauvegardés[19]. Depuis 2002, Internet Archive suit la Oakland Archive Policy, qui est une politique qui encadre les paramètres selon lesquels les auteurs ou les éditeurs peuvent faire la demande pour que leurs documents cessent d’être disponibles dans les archives web. Une fois mise en place, cette exclusion est rétroactive et permanente[20].
- Certaines pages web sauvegardées dans la Wayback Machine peuvent contenir des inconsistances temporales. Dans le cas où certains éléments nécessaires à la reconstitution d’une page web selon une date spécifique ne soient pas disponibles, le logiciel de la Wayback Machine remplace les éléments manquants par d’autres éléments qui sont disponibles à la date de sauvegarde la plus rapprochée[21]. Comme il peut se passer plusieurs semaines ou plusieurs mois entre les sauvegardes d’une page web, la page qui est présentée aux utilisateurs ne reflète pas un instant précis, mais est plutôt constituée de fragments provenant de moments différents[21].
Notes et références
- ↑ (en) « WayBackMachine.org WHOIS, DNS, & Domain Info - DomainTools », sur WayBackMachine.org, (consulté le ).
- ↑ (en) Jamie Murphy, Noor Hazarina Hashim et Peter O’Connor, « Take Me Back: Validating the Wayback Machine », Journal of Computer-Mediated Communication, vol. 13, no 1, , p. 60–75 (DOI 10.1111/j.1083-6101.2007.00386.x, lire en ligne, consulté le )
- (en) Jessica Ogden, Edward Summers et Shawn Walker, « Know(ing) Infrastructure: The Wayback Machine as object and instrument of digital research », Convergence, vol. 30, no 1, , p. 167–189 (ISSN 1354-8565, DOI 10.1177/13548565231164759, lire en ligne, consulté le )
- Bruno Textier, « Internet Archive franchit le cap des 1 000 milliards de pages web archivées », sur Archimag, (consulté le )
- ↑ (en-GB) Jack Schofield, « Internet archive allows you to travel back through the history of a website », The Guardian, (ISSN 0261-3077, lire en ligne, consulté le )
- ↑ Mathilde Grattepanche, « Cyberattaque majeure : Wayback Machine hors service, 31 millions de comptes compromis », sur Abondance, (consulté le )
- ↑ (en) Kevin Collier, « The Internet Archive has faced a barrage of cyberattacks », sur NBC News, (consulté le )
- ↑ (en) Surya Bowyer, « The Wayback Machine: notes on a re-enchantment », Archival Science, vol. 21, no 1, , p. 43–57 (ISSN 1573-7500, DOI 10.1007/s10502-020-09345-w, lire en ligne, consulté le )
- ↑ (en) Kalev Leetaru, « The Internet Archive Turns 20: A Behind The Scenes Look At Archiving The Web », sur Forbes (consulté le )
- ↑ (en) Anat Ben-David et Hugo Huurdeman, « Web Archive Search as Research: Methodological and Theoretical Implications », Alexandria, vol. 25, nos 1-2, , p. 93–111 (ISSN 0955-7490, DOI 10.7227/ALX.0022, lire en ligne, consulté le )
- ↑ David Pearce et Bruce G. Charlton, « Plagiarism of online material may be proven using the Internet Archive Wayback Machine (archive.org) », Medical Hypotheses, vol. 73, no 6, , p. 875 (ISSN 0306-9877, DOI 10.1016/j.mehy.2009.07.049, lire en ligne, consulté le )
- ↑ (en) Darryl Mead, « Creating disinformation: Archiving fake links on the Wayback Machine viewed through the lens of routine activity theory », First Monday, vol. 28, no 10, (ISSN 1396-0466, DOI 10.5210/fm.v28i10.13154, lire en ligne, consulté le )
- (en) Sanjay K. Arora, Yin Li, Jan Youtie et Philip Shapira, « Using the wayback machine to mine websites in the social sciences: A methodological resource », Journal of the Association for Information Science and Technology, vol. 67, no 8, , p. 1904–1915 (ISSN 2330-1643, DOI 10.1002/asi.23503, lire en ligne, consulté le )
- ↑ (en) Justin F. Brunelle, Mat Kelly, Michele C. Weigle et Michael L. Nelson, « The impact of JavaScript on archivability », International Journal on Digital Libraries, vol. 17, no 2, , p. 95–117 (ISSN 1432-1300, DOI 10.1007/s00799-015-0140-8, lire en ligne, consulté le )
- ↑ Sophie Gebeil et Jean-Christophe Peyssard, Exploring the Archived Web during a Highly Transformative Age: Proceedings of the 5th international RESAW conference, Marseille, June 2023, Firenze, Firenze University Press, , 364 p. (ISBN 979-12-215-0413-2, lire en ligne)
- ↑ (en-GB) Chris Stokel-Walker, « We're losing our digital history. Can the Internet Archive save it? », sur BBC, (consulté le )
- ↑ (en) Mike Ananny, « Toward an Ethics of Algorithms: Convening, Observation, Probability, and Timeliness », Science, Technology, & Human Values, vol. 41, no 1, , p. 93–117 (ISSN 0162-2439, DOI 10.1177/0162243915606523, lire en ligne, consulté le )
- ↑ Mike Thelwall et Liwen Vaughan, « A fair history of the Web? Examining country balance in the Internet Archive », Library & Information Science Research, vol. 26, no 2, , p. 162–176 (ISSN 0740-8188, DOI 10.1016/j.lisr.2003.12.009, lire en ligne, consulté le )
- ↑ (en) Judy Tong, « RESPONSIBLE PARTY -- BREWSTER KAHLE; A Library Of the Web, On the Web », New York Times, (lire en ligne, consulté le )
- ↑ Holly Andersen, « A Website Owner's Practice Guide to the Wayback Machine », Journal on Telecommunications & High Technology Law, vol. 11, no 1, , p. 251-278 (lire en ligne)
- (en) Niels Brügger, The Archived Web: Doing History in the Digital Age, The MIT Press, (ISBN 978-0-262-35011-2, DOI 10.7551/mitpress/10726.001.0001, lire en ligne)
Voir aussi
Articles connexes
Liens externes
- (en) Site officiel
