Головна » Блог » SEO | Органічне просування сайту » Веб-архів. Що це та як ним користуватися?

Веб-архів. Що це та як ним користуватися?

15.09.2022

Катя Лифиренко


Веб-архів (web.archive.org) це цифровий архів всього інтернету. Ресурс зберігає всі версії сайту починаючи з дати їх створення, якщо власник не встановив заборону на збереження інформації. У цій статті ми розповімо про можливості веб-архіву та про те, як їх використовувати.

Зміст:

  1. Що таке веб-архів та як він працює?
  2. Практичне використання веб-архіву
  3. Інструменти веб-архіву
  4. Як заборонити додавання сайту до веб-архіву?
  5. Як відновити сайт із веб-архіву?
  6. Висновки

Веб-архив



 

Що таке веб-архів та як він працює?

Веб-архів це сервіс для збирання та зберігання копій сайтів. Його ще часто називають машиною часу, за допомогою якої можна повернутися в минуле та побачити, як виглядали сайти 5, 10, 20 років тому. Web.archive.org це некомерційна загальнодоступна цифрова бібліотека, заснована 1996 року. Їхня заявлена ​​місія — забезпечити «загальний доступ до всіх знань». Архів включає інформацію про більш, ніж:

  • 525 мільярдів сторінок;
  • 28 млн книг;
  • 14 млн аудіозаписів;
  • 6 млн відео.

Користувачі можуть ввести URL-адресу для перегляду та взаємодії з попередніми версіями будь-якого сайту, що міститься в архіві, навіть якщо сайт більше не існує у «живій» мережі. За допомогою веб-архіву ви можете побачити скріншоти сайту, які сервіс робить із деякою періодичністю.

 

Практичне використання веб-архіву

За допомогою веб-архіву, користувачі можуть:

  • відновити свій сайт, якщо він був зламаний чи втрачений;
  • переглянути контент або застарілу інформацію, якої вже немає на сайті;
  • проаналізувати зміни обраного ресурсу у певний період;
  • знайти унікальну інформацію для подальшого використання;

Аналіз попередніх версій сторінок/сайту

За допомогою веб-архіву ви можете проаналізувати зміни вибраного ресурсу в певний період часу. Для перегляду старих версій сайту перейдіть на web.archive.org, вкажіть адресу домену:

Веб-архив

На екрані ви побачите тимчасовий відрізок у діапазоні з моменту створення сайту по поточний момент. Натисніть на рік та виберіть бажану дату. Після вибору дати натисніть на неї і перейдіть на потрібну версію сайту:

Веб-архив

Пошук унікального контенту

Після того, як сайти були видалені, через деякий час пошукові системи перестають їх індексувати. Це означає, що опублікований раніше текст стає унікальним. Такий контент можна додавати на сайт, не боячись будь-яких санкцій від пошукових систем. Для них основним є унікальність контенту на даний момент. Таким чином ви заощаджуєте і час, і гроші на створення контенту. Для цього необхідно дізнатися список доменів, які нещодавно звільнилися. Перед тим, як додати текст на сайт, перевірте його на унікальність за допомогою відповідних сервісів.

Відновлення сайту

Якщо з якоїсь причини ваш сайт перестав працювати, за допомогою веб-архіву ви можете спробувати його розархівувати. Відновлювати окремо кожну HTML-сторінку довго та важко. Для цього скористайтеся спеціальними сервісами для парсингу веб-архіву, наприклад Archivarix.

Аналіз історії домену перед покупкою

Веб-архів допоможе проаналізувати колишнє наповнення та тематику домену, а також подивитися, як вона змінювалася з часом. Це мінімізує ризик купівлі домену з поганою репутацією.

 

Інструменти веб-архіву

Як орієнтуватися у календарі

Коли ви введете веб-сайт для аналізу, веб-архів запропонує вибрати дату в календарі. У ньому ви побачите нотатки різного кольору за датами збереження:

  • помаранчевий  помилка клієнта;
  • червоний помилка сервера:
  • синій позитивна відповідь сервера;
  • зелений редирект.

Веб-архив



Інструмент «Колекції»

Колекції  це групи сканування, які мають різні цілі або спрямовані на групи доменів. Такі, як ТOP-домени, сторінки з непрацюючими посиланнями чи регіональні сайти. За допомогою цього інструмента можна дізнатися причину архівації конкретної URL-адреси. Для цього необхідно натиснути на колекцію, після чого з’явиться додаткова інформація про неї.

Веб-архив

Інструмент «Зміни»

Цей інструмент допоможе порівняти дві версії сайту. Для цього клацніть на розділ «Changes» і веб-архів завантажить всі знімки, розділені за роками. 

Веб-архив

Зі спливаючого списку виберіть два знімки сайту, далі натисніть кнопку порівняння. Наприклад, можна порівняти версії сайту за 3 роки.

Веб-архив

Інструмент «Зведення»

За допомогою цього інструменту ви можете ознайомитись зі статистикою. Вибравши потрібний інтервал часу, ви побачите всі графіки та таблиці. Наприклад, стовпець New URLs говорить про те, скільки унікальних файлів міститься в архіві.

Веб-архив



Інструмент «Карта сайту»

Для кожного року веб-архів надає візуальну мапу сайту у вигляді діаграми. Центральне коло це “корінь” сайту, а кільця навколо нього сторінки. Щоб перейти до архіву потрібної URL-адреси, натисніть на будь-яку з окремих сторінок.

Веб-архив

 

 

Як заборонити додавання сайту до веб-архіву?

Заборонити додавання ресурсу в Wayback Machine необхідно для того, щоб:

  • зберегти унікальність контенту навіть після видалення сайту;
  • у майбутньому продати доменне ім’я та зробити так, щоб ваш контент не асоціювався з новим власником;
  • видалити особисту інформацію у відкритому доступі.

Існує кілька способів заборонити додавання сайту до web.archive.org.

1. Звернутися на підтримку веб-архіву

Якщо власник сайту звертається до підтримки, вся існуюча інформація про ресурс буде видалена з архіву інтернету. Також краулери не скануватимуть сайт у майбутньому. Щоб запросити повне видалення сайту з веб-архіву, необхідно написати на пошту info@archive.org та вказати доменне ім’я в тексті повідомлення

2. Закрити доступ за допомогою файлу robots.txt

За допомогою файлу robots.txt можна закрити доступ тільки для веб-краулерів. Після чого вони не скануватимуть сайт і інформація про ресурс надалі не потраплятиме до архіву інтернету. Однак важливо враховувати, що раніше просканований матеріал залишиться  у Wayback Machine та користувачі зможуть подивитися, як сайт виглядав раніше.

Для заборони доступу необхідно додати до файлу robots.txt таку директиву:

User-agent: ia_archiver

Disallow: /

User-agent: ia_archiver-web.archive.org

Disallow: /

Файл robots.txt має бути у кореневому каталозі домену. Також веб-краулери не відвідують сайти, які захищені паролем.

 

Як відновити сайт із веб архіву?

Ви можете відновити контент із веб-архіву, якщо ваш сайт був втрачений або зламаний, а резервна копія відсутня. Існує кілька варіантів відновлення сайту за допомогою веб-архіву:

1. Вручну скопіювати контент

Веб-архів сайтів не надає послуги зі зберігання резервних копій та відновлення ресурсів. Вбудованого функціоналу, що дозволяє швидко отримати доступ до архіву всього сайту, немає. Але можна вручну скопіювати текст і код сторінок, а також зберегти картинки.

Для цього перейдіть у Wayback Machine, клацніть правою кнопкою миші та виберіть View page source. Скопіюйте код та вставте його у текстовий редактор, де можна зберегти його як HTML-файл.

2. Копіювати контент за допомогою скрипту

Окремо відновлювати HTML-сторінки сайту досить трудомісткий процес. Для того, щоб його спростити і прискорити, використовуйте спеціальні скрипти, які дозволяють отримати весь вміст сайту відразу.

Найпопулярніші варіанти:

  • Wayback Machine Scraper
  • Wayback Scraper
  • Hartator Wayback Machine Downloader (Ruby)

3. Відновити сайт за допомогою сторонніх сервісів

Є безліч сервісів, які допомагають із відновленням сайту з веб-архіву. Вартість послуг буде варіюватися в залежності від обсягу сайту.

З відновленням сайту вам може допомогти:

  • Archivarix
  • Web Archive Org
  • Rush Analytics
  • Wayback Machine Downloader

Перший спосіб підійде, якщо потрібно скопіювати одну або кілька сторінок. А другий і третій, щоб скопіювати контент всього сайту.

 

Висновки:

  1. Веб-архів (web.archive.org) це цифровий архів усього інтернету. Ресурс зберігає всі версії сайту з моменту їх створення, якщо власник не встановив заборону на збереження інформації.
  2. За допомогою веб-архіву можна проаналізувати попередні версії сторінок або сайту, знайти унікальний контент, відновити сайт, переглянути історію домену перед покупкою.
  3. Закрити доступ веб-архіву до сайту можна за допомогою файлу robots.txt або звернутися на підтримку.
  4. Відновити сайт за допомогою web.archive.org можна у кілька способів: скопіювати контент вручну, за допомогою скрипту чи сторонніх сервісів.

Последние материалы рубрики

превью смм юа

Топ-9 трендів SMM у 2023 році, які ви маєте знати

Дізнайтеся, які тренди SMM у 2023 році допоможуть вам просунути компанію, обігнати конкурентів та отримати нових клієнтів

Google for Startups оголосив 25 переможців. Які українські компанії...

Google оголосив переможців третьої групи на підтримку стартапів в Україні

ErsteBank preview ua

Реклама дня: Erste Bank зробив різдвяний анімаційний ролик про...

Віденська банківська група Erste Bank у своєму новому різдвяному ролику «Вірю в Різдво» порушила тему енергетичної кризи.

Чорна п'ятниця

Black Friday: підсумки щорічного розпродажу від Фокстроту за 2022...

Лідери продажів та списки найпопулярніших товарів у 2022 році. Найбільший рітейлер України опублікував результати розпродажу

Підпишіться на нашу розсилку
Будьте в курсі останніх новин та спецпропозицій
Підписка на розсилку в Telegram
Залишились питання?
Наші експерти готові відповісти на них

 

Зв’яжіться за вказаним нижче телефоном з нашим менеджером або скористайтеся послугою «Зателефонуйте мені». Ми зв’яжемося з вами найближчим часом.

Кожен в команді— майстер своєї справи
Ціную Webpromo за гнучкість
Команда Webpromo, як продовження нашого відділу маркетингу
Спокійний за просування своїх проєктів в інтернеті

Ми використовуємо cookie-файли для надання найбільш актуальної інформації.

Продовжуючи використовувати сайт, Ви погоджуєтесь з використанням файлів cookie.

Політика конфіденційності