Головна » Блог » SEO | Органічне просування сайту » Веб-архів. Що це та як ним користуватися?

Веб-архів. Що це та як ним користуватися?

15.09.2022

Редакція: Катя Лифиренко. Автор: Катерина Ліфиренко


Вебархів (web.archive.org) — це цифровий архів усього інтернету. Ресурс зберігає в собі всі версії сайту починаючи з дати їх створення, якщо власник не встановив заборону на збереження інформації. У цій статті ми розповімо про можливості Wayback Machine і про те, як їх застосовувати.

Зміст:

  1. Що таке веб-архів та як він працює?
  2. Практичне використання веб-архіву
  3. Інструменти веб-архіву
  4. Як зберегти поточну версію сайту у вебархіві.
  5. Як заборонити додавання сайту до веб-архіву?
  6. Як відновити сайт із веб-архіву?
  7. Висновки

Веб-архив



 

Що таке веб-архів та як він працює?

Вебархів — це сервіс для збору та зберігання копій сайтів. Його ще часто називають машиною часу, за допомогою якої можна «повернутися в минуле» і побачити, який вигляд мали сайти 5, 10, 20 років тому.  Web.archive.org — це некомерційна загальнодоступна цифрова бібліотека, заснована 1996 року. Заявлена місія проєкту — забезпечити «загальний доступ до всіх знань». Архів містить у собі інформацію про більш ніж: 

  • 525 млрд сторінок;
  • 28 млн книг;
  • 14 млн аудіозаписів;
  • 6 млн відео.

Користувачі можуть ввести URL-адресу для перегляду минулих версій будь-якого сайту, що міститься в архіві, і взаємодії з ними, навіть якщо ресурс більше не існує в “живій” мережі. За допомогою Wayback Machine ви можете побачити скриншоти сайту, які сервіс робить з деякою періодичністю.

 

Практичне використання веб-архіву

За допомогою вебархіву, користувачі можуть: 

  • відновити свій сайт, якщо він був зламаний або втрачений;
  • переглянути контент або застарілу інформацію, якої вже немає на сайті;
  • проаналізувати зміни обраного ресурсу в певний період часу;
  • знайти унікальну інформацію для подальшого використання.

Аналіз попередніх версій сторінок/сайту

За допомогою вебархіву ви можете проаналізувати зміни обраного ресурсу в певний період часу. Для перегляду старих версій сайту перейдіть на web.archive.org, вкажіть адресу домену.

Веб-архив

На екрані ви побачите часовий відрізок у діапазоні з моменту заснування сайту до поточного моменту. Натисніть на рік і виберіть бажану дату. Після вибору дати клацніть на неї, і Wayback Machine перенесе вас на потрібну версію сайту.

Веб-архив

Пошук унікального контенту

Якщо сайт було видалено, через деякий час пошукові системи перестають його індексувати. Це означає, що опублікований раніше текст стає унікальним. Такий контент можна додавати на робочий сайт, не побоюючись будь-яких санкцій від пошукових систем. Для них основним критерієм є унікальність контенту на цей момент. Таким чином Web Archive дасть змогу заощадити і час, і гроші на створення контенту. Для цього необхідно дізнатися список доменів, які нещодавно звільнилися. Перед тим, як додати текст на сайт, перевірте його на унікальність за допомогою відповідних сервісів. 

Відновлення сайту 

Якщо з якоїсь причини ваш сайт перестав працювати, за допомогою вебархіву ви можете спробувати розархівувати його. Відновлювати окремо кожну HTML-сторінку довго та важко. Для цього скористайтеся спеціальними сервісами для парсингу Wayback Machine, наприклад, Archivarix.

Аналіз історії домену перед купівлею 

Вебархів допоможе проаналізувати колишнє наповнення й тематику домену, а також подивитися, як вона змінювалася з плином часу. Так, за допомогою Wayback Machine ви мінімізуєте ризик купівлі домену з поганою репутацією.

 

Інструменти веб-архіву

Як орієнтуватися у календарі

Коли ви введете сайт для аналізу, вебархів запропонує вибрати дату в календарі. У ньому ви побачите нотатки різного кольору за датами збереження:

  • помаранчевий — помилка клієнта;
  • червоний — помилка сервера:
  • синій — позитивна відповідь сервера;
  • зелений — редирект. 

Веб-архив



Інструмент «Колекції»

Колекції — це групи сканування, які мають різні цілі або спрямовані на групи доменів, наприклад, такі як ТОР-домени, сторінки з непрацюючими посиланнями або регіональні сайти. За допомогою цього інструменту можна дізнатися причину архівації конкретної URL-адреси. Для цього необхідно клікнути по колекції, після чого відобразиться додаткова інформація про неї.

Веб-архив

Інструмент «Зміни»

Цей інструмент Wayback Machine допоможе порівняти дві версії сайту. Для цього клацніть на розділ «Changes», і вебархів завантажить усі знімки, розділені за роками. 

Веб-архив

Зі спливаючого списку виберіть два знімки сайту, далі натисніть кнопку порівняння. Наприклад, можна зіставити версії сайту за 3 роки.

Веб-архив

Інструмент «Зведення»

З його допомогою ви можете ознайомитися зі статистикою. Вибравши потрібний інтервал часу, ви побачите всі графіки й таблиці. Наприклад, стовпець New URLs говорить про те, яка кількість унікальних файлів міститься в архіві.

Веб-архив



Інструмент «Карта сайту»

Для кожного року вебархів надає візуальну карту сайту у вигляді діаграми. Центральне коло — це “корінь” сайту, а кільця навколо нього — сторінки. Щоб перейти до архіву потрібної URL-адреси, клацніть на будь-яку з окремих сторінок.

Веб-архив

 

Як зберегти поточну версію сайту у вебархіві

Копії сайтів потрапляють у Web Archive після сканування вебкраулером, але зробити це можна й самостійно. Для цього на головній сторінці Wayback Machine потрібно знайти опцію Save page now, ввести URL-адресу і натиснути Save Page. Цю дію є сенс проводити щоразу перед важливими змінами, які вносяться на сайт, і після них. У разі втрати даних або крашу, ви зможете відновити вебсторінку.

 

Як заборонити додавання сайту до веб-архіву?

Копії сайтів потрапляють у Web Archive після сканування вебкраулером, але зробити це можна й самостійно. Для цього на головній сторінці Wayback Machine потрібно знайти опцію Save page now, ввести URL-адресу і натиснути Save Page. Цю дію є сенс проводити щоразу перед важливими змінами, які вносяться на сайт, і після них. У разі втрати даних або крашу, ви зможете відновити вебсторінку.

Як заборонити додавання сайту до вебархіву?

Заборонити додавання ресурсу в Wayback Machine необхідно для того, щоб:

  • зберегти унікальність контенту навіть після видалення сайту;
  • у майбутньому продати доменне ім’я й зробити так, щоб ваш контент не асоціювався з новим власником;
  • видалити особисту інформацію у відкритому доступі.

Існує кілька способів заборонити додавання сайту до web.archive.org.

  1. Звернутися в підтримку вебархіву

Якщо власник сайту звертається в підтримку, вся наявна інформація про ресурс буде видалена з архіву інтернету. Також краулери не скануватимуть сайт у майбутньому. Щоб запросити повне видалення сайту з Wayback Machine, необхідно написати на пошту info@archive.org і вказати доменне ім’я в тексті повідомлення.

  1. Закрити доступ за допомогою файл robots.txt

За допомогою файл robots.txt можна закрити доступ лише для вебкраулерів. Так, вони припинять сканувати сайт, і інформація про ресурс надалі не потраплятиме в архів інтернету. Однак важливо враховувати, що раніше просканований матеріал залишиться у Wayback Machine, і користувачі зможуть подивитися, який вигляд сайт мав раніше.

Щоб заборонити доступ, необхідно додати у файл robots.txt таку директиву:

User-agent: ia_archiver

Disallow: /

User-agent:ia_archiver-web.archive.org

Disallow: /

Файл robots.txt має бути в кореневому каталозі домену. Також вебкраулери не відвідують сайти, які захищені паролем.

 

Як відновити сайт із веб архіву?

Ви можете відновити контент із вебархіву, якщо ваш сайт було втрачено чи зламано, а резервна копія відсутня. Існує кілька варіантів відновлення сайту за допомогою Wayback Machine.

  1. Вручну скопіювати контент

Вебархів сайтів не надає послуги зі зберігання резервних копій і відновлення ресурсів. Вбудованого функціонала, що дає змогу швидко отримати доступ до архіву всього сайту, не існує. Але є можливість вручну скопіювати текст і код сторінок, а також зберегти картинки.

Для цього перейдіть у Wayback Machine, клацніть правою кнопкою миші та виберіть View page source. Скопіюйте код і вставте його в текстовий редактор, де можна зберегти його як HTML-файл.

  1. Скопіювати контент за допомогою скрипта

Окремо відновлювати HTML-сторінки сайту — доволі трудомісткий процес. Щоб спростити і прискорити його, використовуйте спеціальні скрипти, які дають змогу отримати відразу весь вміст сайту.

Найпопулярніші варіанти:

  • Wayback Machine Scraper
  • Wayback Scraper
  • Hartator Wayback Machine Downloader (Ruby)
  1. Відновити сайт за допомогою сторонніх сервісів

Є безліч сервісів, які допомагають із відновленням ресурсу з вебархіву. Вартість послуг варіюватиметься залежно від обсягу роботи.

З відновленням сайту вам можуть допомогти:

  • Archivarix
  • Web Archive Org
  • Rush Analytics
  • Wayback Machine Downloader

Перший спосіб підійде, якщо ви хочете скопіювати одну або кілька сторінок. Другий і третій використовують, щоб скопіювати контент усього сайту.

Висновки:

  1. Вебархів (web.archive.org) — це цифровий архів усього інтернету. Ресурс зберігає в собі всі версії сайту з моменту їх створення, якщо власник не встановив заборону на збереження інформації. 
  2. За допомогою Wayback Machine можна: проаналізувати попередні версії сторінок або сайту, знайти унікальний контент, відновити сайт, переглянути історію домену перед купівлею. 
  3. Закрити доступ вебархіву до сайту можна за допомогою файлу robots.txt або звернутися в підтримку. 
  4. Відновити сайт за допомогою web.archive.org можна в кілька способів: скопіювати контент вручну, за допомогою скрипта або сторонніх сервісів.

Почніть якісне SEO-просування з Webpromo!

Дізнайтеся вартість, терміни і перелік робіт для вашого проєкту

    Останні матеріали рубрики

    Оператори пошуку Google та способи їх використання в роботі...

    Для ефективнішого пошуку інформації існують спеціальні команди, які дозволяють виокремити потрібні дані, конкретизувати або...

    Google завершив оновлення політики щодо спаму за березень 2024

    Google завершив оновлення політики щодо спаму 20 березня 2024 року. Про це стало відомо на сторінці Google Search Status Dashboard Основне оновлення — Core...

    Лінкбілдинг: що це таке та навіщо потрібно вашому сайту?

    Для того, щоб сайт отримав топову позицію при ранжуванні на сторінці видачі результатів Google (SERP), SEO-спеціалісти вдаються до різних...

    Як підприємствам з України досягти успіху на польському ринку: маркетингові поради

    Як підприємствам з України досягти успіху на польському...

    Проаналізувавши отриманий завдяки Програмі досвід, було сформульовано практичні поради для підприємців, які планують працювати на...

    Підпишіться на нашу розсилку
    Будьте в курсі останніх новин та спецпропозицій
    Підписка на розсилку в Telegram
    Залишились питання?
    Наші експерти готові відповісти на них

     

    Зв’яжіться за вказаним нижче телефоном з нашим менеджером або скористайтеся послугою «Зателефонуйте мені». Ми зв’яжемося з вами найближчим часом.

    Виконують всі задачі, досягаючи кращих КРІ
    Рекомендую Webpromo як надійних партнерів
    Кратно зросли показники приросту органічного трафіку
    Серед багатьох ми обрали Webpromo
    Кожен в команді— майстер своєї справи
    Ціную Webpromo за гнучкість
    Команда Webpromo - це продовження нашого відділу маркетингу
    Спокійний за просування своїх проєктів в інтернеті

    Ми використовуємо cookie-файли для надання найбільш актуальної інформації.

    Продовжуючи використовувати сайт, Ви погоджуєтесь з використанням файлів cookie.

    Політика конфіденційності