Wayback Machine
Шаблон:Сайт
Wayback Machine (с англ. — «Машина времени») — бесплатный онлайн-архив некоммерческой библиотеки «Архив Интернета». С помощью поисковых роботов «Wayback Machine» архивирует и делает общедоступной бо́льшую часть «открытого» интернета[1].
Сервис был запущен в 1996 году, однако стал доступен для общественности только в 2001.
За первые 20 лет существования Wayback Machine каталогизировал и сохранил коллекцию из более чем 286 млрд веб-страниц. Архивные снимки отображаются в формате HTML, JavaScript и CSS[2]. Благодаря сохранённым в Wayback Machine документам пользователи могут отслеживать происходящие на сайтах изменения и сравнивать разные версии правок[3]. По состоянию на январь 2023 года Wayback Machine предоставляет доступ к более чем 767 миллиардам сохранённых веб-страниц[4].
Создание
В 1989 году английский учёный Тим Бернерс-Ли создал всемирную паутину — систему, позволяющую передавать данные через подключённые к интернету компьютеры. Однако с распространением всемирной паутины были выявлены две основные проблемы. Первая состояла в нехватке мест для хранения всех данных, из-за чего многие документы и веб-страницы удалялись. Другая проблема заключалась в том, что после редактирования веб-страницы (например, по юридическим причинам) пользователи не могли посмотреть её изначальную версию. Решить эти недостатки стремилась американская цифровая библиотека «Архив Интернета» — некоммерческая организация, созданная программистами Брюстером Кейлом и Брюсом Галлиатом в 1996 году. При сотрудничестве с Alexa Internet (дочерней компанией Amazon, занимающейся веб-индексированием) «Архив» инициировал создание и хранение копий существующих сайтов для развития «универсального доступа к знанию». Организация предоставляла бесплатный публичный доступ к оцифрованным материалам, таким как веб-страницы, книги, аудиозаписи, включая живые концерты, видео, изображения и программное обеспечение. На 2021 год штаб-квартира «Архива Интернета» находится в Ричмонд. Журналист местной радиостанции Kawl в 2019 году сравнивал офис «Архива» с римским храмом[5][6][7]. Организация ставит перед собой цель спасти интернет от исчезновения[8].
«Wayback Machine» стал самым известным проектом «Архива». Онлайн-сервис был назван в честь машины времени из мультсериала 160-х годов «Шоу Рокки и Буллвинкля». Он предоставляет доступ к цифровой коллекции из более чем 550 млрд веб-страницошибки 404, означающей, что сервер не может найти данные по запрошенному адресу. Это связано с так называемым вымиранием ссылок — нарастающей недоступностью некогда опубликованных данных. Так, в 1997 году средняя продолжительность жизни веб-страницы составляла 44 дня. В 2003 году этот показатель составил 100 дней.
Проведённый в 2008 году анализ ссылок на 2700 цифровых ресурсов, большинство из которых не имеет печатных аналогов, показал, что около 8 процентов ссылок переставали работать через год. К 2011 году, по прошествии трёх лет, 30 процентов ссылок в коллекции были неработающими[11]. Благодаря интеграции с Alexa, столкнувшийся с сообщением об ошибке пользователь мог получить доступ к заархивированной версии страницы через внедрённую в браузер панель инструментов. Если копия недоступной страницы присутствовала в базе данных Wayback Machine, то загоралась специальная кнопка. При этом пользователи могли предоставить браузеру разрешение на просмотр и регистрацию активности — в таком случае все посещаемые сайты архивировались на портале[12].
Wayback Machine был запущен в мае 1996 года, однако стал доступным для общественности только в 2001 г. — до этого вся записанная на цифровых магнитных лентах информация была открыта только для ограниченного числа учёных и исследователейOpen Library, позволяющей пользователям бесплатно получать доступ к цифровым копиям книг, которые загружаются и архивируются в рамках проекта[15][16].
Характеристика
С запуском «Wayback Machine» «Архив Интернета» стал одним из самых популярных и узнаваемых онлайн-порталов и главным сервисом веб-архивирования[3][8].
В 1999 году «Архив» начал расширять коллекцию за пределы архивного веб-контента, чтобы обеспечить статус как к оцифрованным, так и изначально цифровым ресурсам, в том числе книгам, аудио, фильмам, изображениям, документам, программному обеспечению и видеоиграмАлександрийской библиотекой[6].
На 2021 год Wayback Machine содержал более 424 млрд веб-страницБиблиотеке Конгресса[17][6][16].
Принцип работы
Платформа Wayback Machine функционирует за счёт двух основных элементов — поисковых роботов (или веб-краулеров) и интерфейса. Веб-краулеры занимаются посещением, извлечением, загрузкой и архивацией веб-страниц. В свою очередь, через интерфейс пользователи получают доступ к онлайн-коллекциям[2].
Поисковые роботы
Шаблон:Bar chart Изначально коллекция архива пополнялась за счёт браузерного плагина от Alexa Internet, который автоматически фиксировал и сохранял каждую веб-страницу по мере её посещения, затем передавая всю собранную информацию в «Архив Интернета». Пользователи также могли установить бесплатную панель инструментов, позволявшую проверять статус архивирования выбранного веб-сайта[16].
В 2002 году «Архив» запустил собственного поискового робота с открытым исходным кодом — Heritrix. Коды краулеров записаны с помощью комбинации программных языков Си и Perl. Помимо этого, «Архив Интернета» также принимает данные сканирования от других доноровтерабайт в месяц[18].
Веб-краулеры запечатляют версию сайта такой, какой она была сохранена на момент доступа к ней через URL. Роботы регулярно сканируют большое количество веб-страниц, рекурсивно загружая, анализируя и отображая HTML-, JavaScript- и CSS-страницы[2]. Механизм работы краулеров похож на работу поисковых систем — роботы самостоятельно ищут порталы для архивирования через систему поиска путей, сканируя страницы и связанные с ними сайты, таким образом формируя сеть порталов. На момент создания «Архива Интернета» всемирная сеть была настолько маленькой, что веб-краулеры могли совершить обход всех сайтов за один сеанс. Однако со временем постоянный рост онлайн-порталов и их изменчивость сделали полный обход всей сети практически невозможным. Таким образом, не все изменения на сайтах зафиксированы в Wayback Machine[8]. Руководство «Архива Интернета» не уточняет то, как роботы находят и выбирают страницы для сканирования, однако заявляет, что чаще всего краулеры направляются на те сайты, которые имеют перекрёстные ссылки с других порталов и находятся в открытом доступе. Сканер начинает с веб-страницы, а затем следует по каждой гиперссылке на этой веб-странице, чтобы перейти на новые сайты. На каждой из новых веб-страниц поисковый робот повторяет процесс[14]. Он будет продолжаться до того момента, пока архивация не будет остановлена или не достигнет установленного скриптом лимита[19]. Помимо этого, каждый пользователь может использовать специальную форму на портале и вызвать краулер, который сохранит страницу в текущем состоянии[2]. Wayback Machine сканирует только общедоступные веб-страницы и не может получить доступ к контенту, защищённому паролем или расположенному на частном сервере[10][14][3].
Интерфейс
Интерфейс Wayback Machine позволяет пользователям осуществить два основных действия — получить доступ к истории изменений сайта и просмотреть все сделанные на порталах правки. Также доступна функция сравнения разных версий сайтов[12][20][17][21]. Для этого в специальное окно поиска вводится URL интересующего портала, после чего Wayback Machine выдаёт список дат архивации. Звёздочка после некоторых дат используется для обозначения обнаруженных на странице изменений. URL-адрес заархивированной страницы начинается с web.archive.org[22][14].
Любой пользователь может сохранить URL-адреса для архивирования, а с бесплатной учётной записью в архиве можно создать и заархивировать любые исходящие или внешние ссылки на исходной странице и получить обзорный отчёт[23][23].
Хранение
На 2018 год коллекция «Архива Интернета» составляла более 40 петабайт или 40 млн гигабайт данных, Wayback Machine предоставлял доступ к примерно 63 % всех имеющихся материалов[24]. На февраль 2020 года в архиве Wayback Machine числилось более 900 млрд URL-адресов и более 400 млрд веб-страниц[25]. На июнь 2021 года Wayback Machine предоставлял доступ к более чем 581 млрд сохранённых веб-страниц[4].
Использование
Портал Wayback Machine зачастую применяют в правовой сфере — юристы используют сервис для поиска информации по гражданским искам, уголовным делам, в административном делопроизводстве и патентных процессах. Полученные через Wayback Machine архивные версии сайтов могут использоваться для решения вопросов о патентном праве или установлении наказания за публикацию материалов, которые впоследствии были удалены из сетиАпелляционный суд США по второму федеральному апелляционному округу постановил, что скрины с архива веб-страниц Wayback Machine относятся к законным доказательствам, которые могут быть использованы в судебных разбирательствах; ранее аналогичное решение вынес Апелляционный суд США по третьему федеральному апелляционному округуАпелляционный суд США по седьмому федеральному апелляционному округу также признал скриншоты веб-архивов допустимыми электронными доказательствами[28].
Благодаря архивированным в Wayback Machine статьям авторы могут устанавливать право на открытие или на публикациюоткрытого доступа. Так, с начала 2000-х годов из интернета исчезло 84 журнала ОД по естественным наукам и ещё около 100 — по социальным и гуманитарным[31][32][33].
Активисты и исследователи используют портал для борьбы с дезинформацией, особенно усилившейся после избрания президента Дональда Трампа в США. В ответ на участившиеся противоречивые заявления со стороны администрации президента «Архив» создал отдельную коллекцию под названием «Архив Трампа», содержащую выступления президента на телевидении и твиты. «Архив» надеется, что его хранилище поможет другим выявлять ложную информацию и проверять подозрительный контентпандемии коронавируса сторонники конспиративных теорий использовали сохранённые порталом скриншоты для распространения ложной информации о коронавирусеконтрмер в ноябре 2020 года «Архив» внедрил в Wayback Machine инструменты проверки информации на достоверность. Для этого некоммерческая организация начала сотрудничать с различными компаниями, занимающимися проверкой фактов, чтобы предоставлять пользователям причины удаления той или иной страницы из коллекции. При открытии заархивированной версии сайта Wayback Machine предоставляет пользователям сведения о причине её удаления в виде жёлтого баннера вверху экрана. При подозрении на причастность веб-страницы к кампании по дезинформации Wayback Machine предоставляет данные об организации, проводившей проверку на достоверность, и ссылку на её отчёт[37].
В отдельных случаях полученная через Wayback Machine информация фигурировала в крупных скандалах. Так, с помощью портала было выяснено, что официальный представитель Министерства здравоохранения и социальных служб США Майкл Капуто в серии уже удалённых твитов публиковал расистские и уничижительные комментарии о китайском народеBellingcat выяснило, что находящиеся в Европе американские военные использовали для хранения засекреченных данных детские мобильные приложения для запоминания информации. Из-за неправильно установленных настроек приватности другие пользователи получили доступ к секретной информации. После обнаружения утечки информации военные удалили все карточки, но они остались в сервисе Wayback Machine[39].
Правовой статус
«Архив Интернета» не запрашивает разрешения на копирование веб-сайтов перед удалённым сбором данных, однако удаляет или ограничивает доступ к архивным материалам по запросу. Ранее владельцам веб-сайтов предоставлялась возможность «отказаться» от архивирования через стандартный файл robots.txt, который исключает веб-сайты или их отдельные страницы, каталоги, из списка порталов для веб-краулеровЗакон об авторском праве в цифровую эпоху. Впоследствии дело было урегулировано в досудебном порядке[42].
В 2002 году «Архив» удалил из своей системы ссылки на архивные копии портала Xenu.net, принадлежащего критику церкви Андреасу Хельдал-Лунду. Удаление произошло по требованию юристов Церкви саентологии, заявивших, что владеют правом собственности на выдержки из документов Церкви, опубликованные на сайте[43][44].
Ограничения
Исследователи и активисты критикуют Wayback Machine и деятельность «Архива Интернета» за попытку сохранить все онлайн-материалы, многие из которых не представляют должной ценности. По мнению отдельных исследователей, это связано с устаревшей политикой «Архива», который был основан в конце 1990-х годов — тогда, на заре создания интернет-архивов, считалось, что данные интернета должны сохраняться в полном объёме. Однако с созданием множества однодневных сайтов многие исследователи и активисты поменяли своё мнение[45]. Другие критические замечания относятся к техническим ограничениям сервиса — Wayback Machine не позволяет сохранять и обрабатывать определённые элементы JavaScript, а также может создавать заархивированные страницы, содержащие неработающие ссылки, отсутствующую графику или являющиеся неполными по иным причинам[46]. Сканеры захватывают только статический снимок сайта — функции порталов на основе Java или Flash работать не будут. Это означает, что бо́льшая часть функциональных возможностей исходной веб-страницы теряется[8].
Блокировки
В 2015 году Роскомнадзор принял решение заблокировать «Wayback Machine» за копию страницы текста «Одиночный джихад в России», содержащего информацию о «теории и практике партизанского сопротивления». Соответствующая страница в «Архиве Интернета» была добавлена в официальный реестр запрещённых веб-сайтов в России 23 июня 2015 года, из-за чего некоторые российские интернет-провайдеры были вынуждены полностью заблокировать сайт «Архива»[47][48][49]. Доступ к «Wayback Machine» был заново открыт в 2016 году, после того как запрещённые ролики удалили с портала[50].
В 2019 году представители «Ассоциации по защите авторских прав в интернете» (АЗАПИ) подали серию исков против сервиса «Wayback Machine» за нарушение авторских прав. Представители АЗАПИ запросили Мосгорсуд вынести решение о вечной блокировке портала на территории России, однако на август 2020 года «Архив Интернета» по-прежнему продолжал свою работу[51][52][53][54].
В 2017 году портал был заблокирован в Индии и Киргизии за содержание «экстремистских материалов»[55][56][57]. По данным на 2021 год, сайт заблокирован в Китае[58].
В июне 2022 года Таганский райсуд Москвы оштрафовал «Internet Archive» на 800 тыс. рублей за неудаление из «WayBack Machine» видео о способах изготовления коктейля Молотова[59].
Валэктонъёс
- ↑ 1,0 1,1 1,2 Arora, 2015.
- ↑ 2,0 2,1 2,2 2,3 2,4 Lerner, 2017, pp. 1741—1755.
- ↑ 3,0 3,1 3,2 3,3 3,4 Michael Bryant What is the Wayback Machine and Why is it Useful?(англи) Groovy Post. Эскеремын 2021-05-29 аре
- ↑ 4,0 4,1 Wayback Machine(англи) Wayback Machine. Эскеремын 2021-06-07 аре
- ↑ Dominic Cummings: how the internet knows when you’ve updated your blog(англи) The Conversation. Эскеремын 2021-06-03 аре
- ↑ 6,0 6,1 6,2 6,3 6,4 Odgen, 2017.
- ↑ In An Old Church, The Internet Archive Stores Our Digital History(англи) Kalw. San Francisco local public radio. Эскеремын 2021-06-03 аре
- ↑ 8,0 8,1 8,2 8,3 8,4 Price, 2011.
- ↑ Jack Schofield The Time Machine(англи) The Guardian. Эскеремын 2021-06-01 аре
- ↑ 10,0 10,1 Jenni McKinnon Using the Wayback Machine to Archive (and Backup) WordPress(англи) WPMudev. Эскеремын 2021-05-29 аре
- ↑ Adrienne LaFrance Raiders of the Lost Web(англи) The Atlantic. Эскеремын 2021-06-07 аре
- ↑ 12,0 12,1 12,2 Rogers, 2017, pp. 160—172.
- ↑ Hartelius, 2020, p. 378.
- ↑ 14,0 14,1 14,2 14,3 14,4 Bowyer, 2021, pp. 43—57.
- ↑ Aja Romano A lawsuit is threatening the Internet Archive — but it’s not as dire as you may have heard(англи) Vox. Эскеремын 2021-05-29 аре
- ↑ 16,0 16,1 16,2 16,3 Kalev Leetaru The Internet Archive Turns 20: A Behind The Scenes Look At Archiving The Web(англи) Forbes. Эскеремын 2021-06-05 аре
- ↑ 17,0 17,1 O'Connor, 2008, p. 64.
- ↑ Richard Koman How the Wayback Machine Works(англи) Xml.com. Эскеремын 2021-06-05 аре
- ↑ A. Rossi Worldwide Web Crawls(англи) Internet Archive. Эскеремын 2021-06-05 аре
- ↑ Laura Bohannon Wayback Machine archives websites for over 20 years(англи) Spartan News Room. Эскеремын 2021-06-05 аре
- ↑ Maemura, 2018.
- ↑ Notess, 2002.
- ↑ 23,0 23,1 Mark Graham Tips for Using the Internet Archive’s Wayback Machine in Your Next Investigation(англи) Global Investigative Journalism Network. Эскеремын 2021-05-29 аре
- ↑ Zachary Crockett Inside Wayback Machine, the internet’s time capsule(англи) The Hustle. Эскеремын 2021-05-29 аре
- ↑ Евгений Делюкин Браузер Brave от сооснователя Mozilla стал предлагать копии из «архива интернета» вместо удалённых веб-страниц(англи) vc.ru. Эскеремын 2021-06-01 аре
- ↑ Eltgroth, 2009.
- ↑ Kieren McCarthy Archive.org's Wayback Machine is legit legal evidence, US appeals court judges rule(англи) The Register. Эскеремын 2021-06-04 аре
- ↑ Маргарита Сазонова Электронные доказательства в спорах в сфере интеллектуальной собственности(ӟуч) Гарант. Эскеремын 2021-06-05 аре
- ↑ Pearce, 2009, p. 875.
- ↑ Milligan, 2016.
- ↑ Jeffrey Brainard Dozens of scientific journals have vanished from the internet, and no one preserved them(англи) Science. Эскеремын 2021-06-01 аре
- ↑ Diana Kwon More than 100 scientific journals have disappeared from the Internet(англи) Nature. Эскеремын 2021-06-01 аре
- ↑ avouner Десятки научных журналов исчезли из интернета за последние 20 лет и никто их не сохранил(ӟуч) Хабр. Эскеремын 2021-06-05 аре
- ↑ Camilla Hodgson How the Internet Archive is waging war on misinformation(англи) Financial Times. Эскеремын 2021-06-03 аре
- ↑ Mary Kay Magistad Where to find what's disappeared online, and a whole lot more: the Internet Archive(англи) PRI.org. Эскеремын 2021-06-07 аре
- ↑ Acker, 2020.
- ↑ Wayback Machine теперь проверяет информацию на достоверность для архивных веб-страниц(ӟуч) Trash Box. Эскеремын 2021-06-05 аре
- ↑ Журналисты припомнили расистские высказывания пресс-секретаря Минздрава США(ӟуч) Красная весна. Эскеремын 2021-06-05 аре
- ↑ Дамир Камалетдинов В сеть попали секретные данные об американском ядерном оружии — военные записывали их в школьных приложениях(англи) TJournal. Эскеремын 2021-06-05 аре
- ↑ Carolyn Wimbly Martin Internet Archive’s Open Library and Copyright Law(англи) Lutzker. Эскеремын 2021-06-04 аре
- ↑ Nate Anderson Copy some webpages, owe more than the national debt(англи) Ars Technica. Эскеремын 2021-06-05 аре
- ↑ Eric Bangeman Internet Archive settles suit over Wayback Machine Ars Technica. Эскеремын 2021-06-07 аре
- ↑ Lisa M. Bowman Net archive silences Scientology critic(англи) CNET. Эскеремын 2021-06-10 аре
- ↑ Ernest Miller Features: Sherman, Set the Wayback Machine for Scientology(англи) LawMeme. Эскеремын 2021-06-10 аре
- ↑ Nora Caplan-Bricker Preservation Acts(англи) Harper's Magazine. Эскеремын 2021-06-02 аре
- ↑ Crudo, 2014.
- ↑ Mike Masnick Russia Blocks The Internet Archive's Wayback Machine Over A Single Page(англи) Tech dirt. Эскеремын 2021-06-03 аре
- ↑ Роскомнадзор заблокировал архив интернета из-за "Одиночного джихада"(ӟуч) Московский комсомолец. Эскеремын 2021-06-05 аре
- ↑ Роскомнадзор заблокировал страницу «архива интернета» за экстремизм(ӟуч) Lenta. Эскеремын 2021-06-05 аре
- ↑ Дмитрий Шестоперов, Анастасия Евтушенко «Архив интернета» снова в сети(ӟуч) Газета.ru. Эскеремын 2021-12-09 аре
- ↑ АЗАПИ хочет навечно заблокировать «Архив Интернета»(ӟуч) Роскомсвобода. Эскеремын 2021-06-05 аре
- ↑ «Архив интернета» могут навечно заблокировать в России(ӟуч) CNews. Эскеремын 2021-06-07 аре
- ↑ Россияне потребовали запретить в Европе Telegram, YouTube и Mail.ru(ӟуч) CNews. Эскеремын 2021-06-07 аре
- ↑ Американские издатели книг подали в суд на Internet Archive(ӟуч) Ведомости. Эскеремын 2021-06-05 аре
- ↑ Access to Internet Archive’s Wayback Machine Blocked in India(англи) The Wire. Эскеремын 2021-06-03 аре
- ↑ Wayback Machine has been blocked in India(англи) The Verge. Эскеремын 2021-06-05 аре
- ↑ Kyrgyzstan Blocks Archive.org on ‘Extremism’ Grounds(англи) Global Voices. Эскеремын 2021-06-05 аре
- ↑ Anna Kramer The internet is splitting apart. The Internet Archive wants to save it all forever(англи) Protocol. Эскеремын 2021-06-09 аре
- ↑ Машину времени увезли на штрафстоянку Коммерсантъ. Эскеремын 2022-07-01 аре
Литература
- Acker, A., & Chaiet, M. The weaponization of web archives: Data craft and COVID-19 publics.(англи) // Harvard Kennedy School (HKS) Misinformation Review. — 2020. — doi:10.37016/mr-2020-41.
- Anat Ben-David, Adam Amram. The Internet Archive and the socio-technical construction of historical facts(англи) // Internet Histories. — 2018. — doi:10.1080/24701475.2018.1455412.
- Arora S., Li Y., Youtie J., Shapira P. Using the wayback machine to mine websites in the social sciences: A methodological resource(англи). — 2015. — Vol. 67, iss. 8. — P. 1904—1915. — doi:10.1002/asi.23503.
- Bowyer S. The Wayback Machine: notes on a re‑enchantment(англи) // Archival Science. — 2021. — Vol. 21. — P. 43—57.
- Deborah R. Eltgroth. Best Evidence and the Wayback Machine: Toward a Workable Authentication Standard for Archived Internet Evidence(англи) // Fordham L. Rev.. — 2009. — Vol. 78, iss. 181.
- Greg R. Notess. The Wayback Machine: The Web's Archive(англи) // Online. — 2002. — Vol. 26, iss. 2.
- Hartelius J. The anxious flâneur: Digital archiving and the Wayback Machine(англи) // Quarterly Journal of Speech. — 2020. — Vol. 106, iss. 4. — P. 377—398.
- James L. Quarles III and Richard A. Crudo. [Way]Back to the Future: Using the Wayback Machine in Patent Litigation(англи) // Landslide. — 2014. — Vol. 6, iss. 3.
- Lerner A., Kohno T., Roesner F. Rewriting History: Changing the Archived Web from the Present(англи) // Association for Computing Machinery. — 2017. — doi:10.1145/3133956.3134042.
- Maemura E., Worby N., Milligan I., Becker C. If These Crawls Could Talk: Studying and Documenting Web Archives Provenance(англи) // Journal of the association for information science and technology. — 2018. — Vol. 69, iss. 10. — P. 1223—1233.
- Milligan I. Lost in the Infinite Archive: The Promise and Pitfalls of Web Archives(англи) // International Journal of Humanities and Arts Computing. — 2016.
- Murphy J., Hashim N., O’Connor P. Take Me Back: Validating the Wayback Machine(англи) // Journal of Computer-Mediated Communication. — 2008. — Iss. 13. — P. 60—75.
- Odgen J., Halford S., Carr L. Observing Web Archives(англи) // WebSci. — 2017. — P. 299—308.
- Pearce D., Charlton B. Plagiarism of online material may be proven using the Internet Archive Wayback Machine (archive.org)(англи) // Medical Hypothesis. — 2009. — P. 875.
- Price. Internet Archiving – The Wayback machine(англи) // MLA Commons. — 2011.
- Phyllis Holman Weisbard. Oldies but Goodies: Archiving WebBased Information(англи) // Feminist Collections. — 2011. — Vol. 32, iss. 2.
- Rogers R. Doing Web history with the Internet Archive: screencast documentaries(англи) // Internet Histories. — 2017. — Vol. 1, iss. 1—2. — P. 160—172. — doi:10.1080/24701475.2017.1307542.
Шаблон:Хорошая статья