Головна » Блог » SEO | Органічне просування сайту » Веб-архів. Що це та як ним користуватися?

Веб-архів. Що це та як ним користуватися?

15.09.2022

Редакція: Катя Лифиренко. Автор: Катерина Ліфиренко


Веб-архів (web.archive.org) це цифровий архів всього інтернету. Ресурс зберігає всі версії сайту починаючи з дати їх створення, якщо власник не встановив заборону на збереження інформації. У цій статті ми розповімо про можливості веб-архіву та про те, як їх використовувати.

Зміст:

  1. Що таке веб-архів та як він працює?
  2. Практичне використання веб-архіву
  3. Інструменти веб-архіву
  4. Як заборонити додавання сайту до веб-архіву?
  5. Як відновити сайт із веб-архіву?
  6. Висновки

Веб-архив



 

Що таке веб-архів та як він працює?

Веб-архів це сервіс для збирання та зберігання копій сайтів. Його ще часто називають машиною часу, за допомогою якої можна повернутися в минуле та побачити, як виглядали сайти 5, 10, 20 років тому. Web.archive.org це некомерційна загальнодоступна цифрова бібліотека, заснована 1996 року. Їхня заявлена ​​місія — забезпечити «загальний доступ до всіх знань». Архів включає інформацію про більш, ніж:

  • 525 мільярдів сторінок;
  • 28 млн книг;
  • 14 млн аудіозаписів;
  • 6 млн відео.

Користувачі можуть ввести URL-адресу для перегляду та взаємодії з попередніми версіями будь-якого сайту, що міститься в архіві, навіть якщо сайт більше не існує у «живій» мережі. За допомогою веб-архіву ви можете побачити скріншоти сайту, які сервіс робить із деякою періодичністю.

 

Практичне використання веб-архіву

За допомогою веб-архіву, користувачі можуть:

  • відновити свій сайт, якщо він був зламаний чи втрачений;
  • переглянути контент або застарілу інформацію, якої вже немає на сайті;
  • проаналізувати зміни обраного ресурсу у певний період;
  • знайти унікальну інформацію для подальшого використання;

Аналіз попередніх версій сторінок/сайту

За допомогою веб-архіву ви можете проаналізувати зміни вибраного ресурсу в певний період часу. Для перегляду старих версій сайту перейдіть на web.archive.org, вкажіть адресу домену:

Веб-архив

На екрані ви побачите тимчасовий відрізок у діапазоні з моменту створення сайту по поточний момент. Натисніть на рік та виберіть бажану дату. Після вибору дати натисніть на неї і перейдіть на потрібну версію сайту:

Веб-архив

Пошук унікального контенту

Після того, як сайти були видалені, через деякий час пошукові системи перестають їх індексувати. Це означає, що опублікований раніше текст стає унікальним. Такий контент можна додавати на сайт, не боячись будь-яких санкцій від пошукових систем. Для них основним є унікальність контенту на даний момент. Таким чином ви заощаджуєте і час, і гроші на створення контенту. Для цього необхідно дізнатися список доменів, які нещодавно звільнилися. Перед тим, як додати текст на сайт, перевірте його на унікальність за допомогою відповідних сервісів.

Відновлення сайту

Якщо з якоїсь причини ваш сайт перестав працювати, за допомогою веб-архіву ви можете спробувати його розархівувати. Відновлювати окремо кожну HTML-сторінку довго та важко. Для цього скористайтеся спеціальними сервісами для парсингу веб-архіву, наприклад Archivarix.

Аналіз історії домену перед покупкою

Веб-архів допоможе проаналізувати колишнє наповнення та тематику домену, а також подивитися, як вона змінювалася з часом. Це мінімізує ризик купівлі домену з поганою репутацією.

 

Інструменти веб-архіву

Як орієнтуватися у календарі

Коли ви введете веб-сайт для аналізу, веб-архів запропонує вибрати дату в календарі. У ньому ви побачите нотатки різного кольору за датами збереження:

  • помаранчевий  помилка клієнта;
  • червоний помилка сервера:
  • синій позитивна відповідь сервера;
  • зелений редирект.

Веб-архив



Інструмент «Колекції»

Колекції  це групи сканування, які мають різні цілі або спрямовані на групи доменів. Такі, як ТOP-домени, сторінки з непрацюючими посиланнями чи регіональні сайти. За допомогою цього інструмента можна дізнатися причину архівації конкретної URL-адреси. Для цього необхідно натиснути на колекцію, після чого з’явиться додаткова інформація про неї.

Веб-архив

Інструмент «Зміни»

Цей інструмент допоможе порівняти дві версії сайту. Для цього клацніть на розділ «Changes» і веб-архів завантажить всі знімки, розділені за роками. 

Веб-архив

Зі спливаючого списку виберіть два знімки сайту, далі натисніть кнопку порівняння. Наприклад, можна порівняти версії сайту за 3 роки.

Веб-архив

Інструмент «Зведення»

За допомогою цього інструменту ви можете ознайомитись зі статистикою. Вибравши потрібний інтервал часу, ви побачите всі графіки та таблиці. Наприклад, стовпець New URLs говорить про те, скільки унікальних файлів міститься в архіві.

Веб-архив



Інструмент «Карта сайту»

Для кожного року веб-архів надає візуальну мапу сайту у вигляді діаграми. Центральне коло це “корінь” сайту, а кільця навколо нього сторінки. Щоб перейти до архіву потрібної URL-адреси, натисніть на будь-яку з окремих сторінок.

Веб-архив

 

 

Як заборонити додавання сайту до веб-архіву?

Заборонити додавання ресурсу в Wayback Machine необхідно для того, щоб:

  • зберегти унікальність контенту навіть після видалення сайту;
  • у майбутньому продати доменне ім’я та зробити так, щоб ваш контент не асоціювався з новим власником;
  • видалити особисту інформацію у відкритому доступі.

Існує кілька способів заборонити додавання сайту до web.archive.org.

1. Звернутися на підтримку веб-архіву

Якщо власник сайту звертається до підтримки, вся існуюча інформація про ресурс буде видалена з архіву інтернету. Також краулери не скануватимуть сайт у майбутньому. Щоб запросити повне видалення сайту з веб-архіву, необхідно написати на пошту info@archive.org та вказати доменне ім’я в тексті повідомлення

2. Закрити доступ за допомогою файлу robots.txt

За допомогою файлу robots.txt можна закрити доступ тільки для веб-краулерів. Після чого вони не скануватимуть сайт і інформація про ресурс надалі не потраплятиме до архіву інтернету. Однак важливо враховувати, що раніше просканований матеріал залишиться  у Wayback Machine та користувачі зможуть подивитися, як сайт виглядав раніше.

Для заборони доступу необхідно додати до файлу robots.txt таку директиву:

User-agent: ia_archiver

Disallow: /

User-agent: ia_archiver-web.archive.org

Disallow: /

Файл robots.txt має бути у кореневому каталозі домену. Також веб-краулери не відвідують сайти, які захищені паролем.

 

Як відновити сайт із веб архіву?

Ви можете відновити контент із веб-архіву, якщо ваш сайт був втрачений або зламаний, а резервна копія відсутня. Існує кілька варіантів відновлення сайту за допомогою веб-архіву:

1. Вручну скопіювати контент

Веб-архів сайтів не надає послуги зі зберігання резервних копій та відновлення ресурсів. Вбудованого функціоналу, що дозволяє швидко отримати доступ до архіву всього сайту, немає. Але можна вручну скопіювати текст і код сторінок, а також зберегти картинки.

Для цього перейдіть у Wayback Machine, клацніть правою кнопкою миші та виберіть View page source. Скопіюйте код та вставте його у текстовий редактор, де можна зберегти його як HTML-файл.

2. Копіювати контент за допомогою скрипту

Окремо відновлювати HTML-сторінки сайту досить трудомісткий процес. Для того, щоб його спростити і прискорити, використовуйте спеціальні скрипти, які дозволяють отримати весь вміст сайту відразу.

Найпопулярніші варіанти:

  • Wayback Machine Scraper
  • Wayback Scraper
  • Hartator Wayback Machine Downloader (Ruby)

3. Відновити сайт за допомогою сторонніх сервісів

Є безліч сервісів, які допомагають із відновленням сайту з веб-архіву. Вартість послуг буде варіюватися в залежності від обсягу сайту.

З відновленням сайту вам може допомогти:

  • Archivarix
  • Web Archive Org
  • Rush Analytics
  • Wayback Machine Downloader

Перший спосіб підійде, якщо потрібно скопіювати одну або кілька сторінок. А другий і третій, щоб скопіювати контент всього сайту.

 

Висновки:

  1. Веб-архів (web.archive.org) це цифровий архів усього інтернету. Ресурс зберігає всі версії сайту з моменту їх створення, якщо власник не встановив заборону на збереження інформації.
  2. За допомогою веб-архіву можна проаналізувати попередні версії сторінок або сайту, знайти унікальний контент, відновити сайт, переглянути історію домену перед покупкою.
  3. Закрити доступ веб-архіву до сайту можна за допомогою файлу robots.txt або звернутися на підтримку.
  4. Відновити сайт за допомогою web.archive.org можна у кілька способів: скопіювати контент вручну, за допомогою скрипту чи сторонніх сервісів.

Останні матеріали рубрики

ChatGPT новини

ЄС зобов'язує компанії позначати контент, створений...

В ЄС використання штучного інтелекту викликає все більше занепокоєння. Чим може нашкодити масова інтеграція технології?

Twitter стане X? Ілон Маск підтвердив чутки

Ілон Маск продовжує експериментувати з Twitter. Що зміниться цього разу?

Chat-GPT тепер не брехатиме? OpenAI вигадали нову стратегію

Наразі гостро постала проблема дезінформування користувачів штучним інтелектом, і для боротьби з цим явищем OpenAI запропонувала...

Робочі зустрічі тепер у WhatsApp: розробники додають функцію...

WhatsApp випускає оновлення. Тепер буде доступна функція демонстрації екрану під час відеодзвінка. Як це працюватиме?

Підпишіться на нашу розсилку
Будьте в курсі останніх новин та спецпропозицій
Підписка на розсилку в Telegram
Залишились питання?
Наші експерти готові відповісти на них

 

Зв’яжіться за вказаним нижче телефоном з нашим менеджером або скористайтеся послугою «Зателефонуйте мені». Ми зв’яжемося з вами найближчим часом.

Виконують всі задачі, досягаючи кращих КРІ
Рекомендую Webpromo як надійних партнерів
Кратно зросли показники приросту органічного трафіку
Серед багатьох ми обрали Webpromo
Кожен в команді— майстер своєї справи
Ціную Webpromo за гнучкість
Команда Webpromo - це продовження нашого відділу маркетингу
Спокійний за просування своїх проєктів в інтернеті

Ми використовуємо cookie-файли для надання найбільш актуальної інформації.

Продовжуючи використовувати сайт, Ви погоджуєтесь з використанням файлів cookie.

Політика конфіденційності