Главная » Блог » SEO | Органическое продвижение сайта » Веб-архив. Что это и как им пользоваться?

Веб-архив. Что это и как им пользоваться?

15.09.2022

Екатерина Лифиренко, редактор блога Webpromo


Веб-архив (web.archive.org) — это цифровой архив всего интернета. Ресурс хранит в себе все версии сайта начиная с даты их создания, если владелец не установил запрет на сохранение информации. В этой статье мы расскажем о возможностях веб-архива и о том, как их применять. 

Содержание: 

  1. Что такое веб-архив и как он работает?
  2. Практическое использование веб-архива
  3. Инструменты веб-архива
  4. Как запретить добавление сайта в веб-архив?
  5. Как восстановить сайт из веб-архива?
  6. Выводы

Веб-архив



 

Что такое веб-архив и как он работает?

Веб-архив — это сервис для сбора и хранения копий сайтов. Его еще часто называют машиной времени, с помощью которой можно вернуться в прошлое и увидеть, как выглядели сайты 5, 10, 20 лет назад.  Web.archive.org это некоммерческая общедоступная цифровая библиотека, основанная в 1996 году. Их заявленная миссия обеспечить «всеобщий доступ ко всем знаниям». Архив включает в себя информацию о более, чем: 

  • 525 миллиардов страниц;
  • 28 млн книг;
  • 14 млн аудиозаписей;
  • 6 млн видео.

Пользователи могут ввести URL-адрес для просмотра и взаимодействия с прошлыми версиями любого сайта, содержащегося в архиве, даже если сайт больше не существует в «живой» сети. С помощью веб-архива вы можете увидеть скриншоты сайта, которые сервис делает с некоторой периодичностью.

 

Практическое использование веб-архива

С помощью веб-архива, пользователи могут: 

  • восстановить свой сайт, если он был взломан или утрачен;
  • просмотреть контент или устаревшую информацию, которой уже нет на сайте;
  • проанализировать изменения выбранного ресурса в определенный период времени;
  • найти уникальную информацию для дальнейшего использования;

Анализ предыдущих версий страниц/сайта

С помощью веб-архива, вы можете проанализировать изменения выбранного ресурса в определенный период времени. Для просмотра старых версий сайта перейдите на web.archive.org, укажите адрес домена: 

Веб-архив

На экране вы увидите временной отрезок в диапазоне с момента основания сайта по текущий момент. Нажмите на год и выберите желаемую дату. После выбора даты кликнете на нее и перейдите на нужную версию сайта:

Веб-архив

Поиск уникального контента 

После того как сайты были удалены, спустя некоторое время поисковые системы перестают их индексировать. Это значит, что опубликованный ранее текст становиться уникальным. Такой контент можно добавлять на сайт, не опасаясь каких-либо санкций от поисковых систем. Для них основным является уникальность контента на данный момент. Таким образом вы экономите и время, и деньги на создание контента. Для этого необходимо узнать список доменов, которые недавно освободились. Перед тем, как добавить текст на сайт проверьте его на уникальность с помощью соответствующих сервисов. 

Восстановление сайта 

Если по какой-то причине ваш сайт перестал работать, с помощью веб-архива вы можете попробовать разархивировать его. Восстанавливать отдельно каждую HTML-страницу долго и затруднительно. Для этого воспользуйтесь специальными сервисы для парсинга веб-архива, например, Archivarix

Анализ истории домена перед покупкой 

Веб-архив поможет проанализировать прежнее наполнение и тематику домена, а также посмотреть как она менялась с течением времени. Это минимизирует риск покупки домена с плохой репутацией.  

 

Инструменты веб-архива 

Как ориентироваться в календаре

Когда вы введете сайт для анализа, веб-архив предложит выбрать дату в календаре. В нем вы увидите заметки разного цвета по датам сохранения:

  • оранжевый — ошибка клиента;
  • красный — ошибка сервера:
  • синий — положительный ответ сервера;
  • зелёный — редирект. 

Веб-архив



Инструмент «Коллекции»

Коллекции — это группы сканирования, которые имеют разные цели или направленные на группы доменов. Такие, как ТOP-домены, страницы с неработающими ссылками или региональные сайты. С помощью этого инструмента можно узнать причину архивации конкретного URL-адреса. Для этого необходимо кликнуть по коллекции, после чего отобразиться дополнительная информация о ней.

Веб-архив

Инструмент «Изменения»

Этот инструмент поможет сравнить две версии сайта. Для этого кликните на раздел «Changes» и веб-архив загрузит все снимки, разделенные по годам. 

Веб-архив

Из всплывающего списка выберите два снимка сайта, далее нажмите кнопку сравнения. Например, можно сопоставить версии сайта за 3 года. 

Веб-архив

Инструмент «Сводка»

С помощью этого инструмента вы можете ознакомиться со статистикой. Выбрав нужный интервал времени, вы увидите все графики и таблицы. Например, столбец New URLs говорит о том, какое количество уникальных файлов содержится в архиве.

Веб-архив



Инструмент «Карта сайта»

Для каждого года веб-архив предоставляет визуальную карту сайта в виде диаграммы. Центральный круг это «корень» сайта, а кольца вокруг него страницы. Чтобы перейти к архиву нужного URL-адреса кликните на любую из отдельных станиц.

Веб-архив

 

 

Как запретить добавление сайта в веб-архив?

Запретить добавление ресурса в Wayback Machine необходимо для того, чтобы:

  • сохранить уникальностью контента даже после удаления сайта;
  • в будущем продать доменное имя и сделать так, чтобы ваш контент не ассоциировался с новым владельцем;
  • удалить личную информацию в открытом доступе.

Существует несколько способов запретить добавление сайта в web.archive.org.

1. Обратиться в поддержку веб-архива

Если владелец сайта обращается в поддержку, вся существующая информация о ресурсе будет удалена из архива интернета. Также краулеры не будут сканировать сайт в будущем. Для того чтобы запросить полное удаление сайта из веб-архива, необходимо написать на почту info@archive.org и указать доменное имя в тексте сообщения

2. Закрыть доступ с помощью файл robots.txt

С помощью файл robots.txt можно закрыть доступ только для веб-краулеров. После чего они не будут сканировать сайт и информация о ресурсе в дальнейшем не будет попадать в архив интернета. Однако важно учитывать, что ранее просканированный материал останеться в Wayback Machine и пользователи смогут посмотреть, как сайт выглядел раньше.

Для запрещения доступа необходимо добавить в файл robots.txt следующую директиву:

User-agent: ia_archiver

Disallow: /

User-agent: ia_archiver-web.archive.org

Disallow: /

Файл robots.txt должен быть в корневом каталоге домена. Также вебкраулеры не посещают сайты, которые защищенные паролем.

 

Как восстановить сайт из веб архива?

Вы можете восстановить контент из веб-архива  если ваш сайт был потерян или взломан, а резервная копия отсутствуете. Существует несколько вариантов восстановления сайта с помощью веб-архива

1. Вручную скопировать контент

Веб-архив сайтов не предоставляет услуги по хранению резервных копий и восстановлению ресурсов. Встроенного функционала, позволяющего быстро получить доступ к архиву всего сайта, не существует. Но есть возможность вручную скопировать текст и код страниц, а также сохранить картинки.

Для этого перейдите в Wayback Machine, кликните правой кнопкой мыши и выберите View page source. Скопируйте код и вставьте его в текстовый редактор, где можно сохранить его как HTML-файл.

2. Скопировать контент с помощью скрипта

Отдельно восстанавливать HTML-страницы сайта достаточно трудоемкий процесс. Для того чтобы его упростить и ускорить используйте специальные скрипты, которые позволяют получить все содержимое сайта сразу.

Самые популярные варианты:

  • Wayback Machine Scraper
  • Wayback Scraper
  • Hartator Wayback Machine Downloader (Ruby)

3. Восстановить сайт с помощью сторонних сервисов

Есть множество сервисов, которые помогают с восстановлением сайта из веб-архива. Стоимость услуг будет варьироваться в зависимости от объема сайта.

С восстановлением сайта вам может помочь:

  • Archivarix
  • Web Archive Org
  • Rush Analytics
  • Wayback Machine Downloader

Первый способ подойдет, если вы хотите скопировать одну или несколько страниц. А второй и третий, для того чтобы скопировать контент всего сайта.

 

Выводы: 

  1. Веб-архив (web.archive.org) — это цифровой архив всего интернета. Ресурс хранит в себе все версии сайта с момента их создания, если владелец не установил запрет на сохранение информации. 
  2. С помощью веб-архива можно: проанализировать предварительные версии страниц или сайта, найти уникальный контент, восстановить сайт, посмотреть историю домена перед покупкой. 
  3. Закрыть доступ веб-архива к сайту можно с помощью файла robots.txt или обратиться в поддержку. 
  4. Восстановить сайт с помощью web.archive.org можно в несколько способов: скопировать контент вручную, с помощью скрипта или сторонних сервисов. 

 

Последние материалы рубрики

Адаптирование маркетинговой стратегии бизнеса

Ключевые вопросы перед выходом на международные рынки. С чего начать и какие маркетинговые инструменты использовать?

Обновление LinkedIn Ads

4 новые функции LinkedIn Ads

Обновление LinkedIn Ads. Какие новые инструменты для размещения рекламы запускает социальная сеть?

SEO стратегия выхода в ТОП Google для мультирегионального сайта

Как стать №1 по англоязычным запросам в Google в 244 странах:...

Как продвигать мультирегиональный и мультиязычный сайт на одном домене? Рассказываем на примере кейса AutoCatalyst

Комплексное продвижение бизнеса на глобальный рынок

Как подобрать performance инструменты для продвижения на внешний рынок? Планирование бюджета и маркировка рекламных кампаний

Остались вопросы?
Наши эксперты готовы ответить на них

Свяжитесь по указанному ниже телефону с нашим менеджером или воспользуйтесь услугой «Перезвонить мне». Мы свяжемся с вами в ближайшее время.

Каждый участник — мастер своего дела
Ценю Webpromo за гибкость
Команда Webpromo, как продолжение нашего отдела маркетинга
Спокоен за продвижение своих проектов в интернете