Що таке robots.txt?

20.10.2022

Оля Сомова редактор блогу Webpromo


Результати пошукової видачі містять релевантні ресурси у відповідь на запит користувача. Перед тим, як дати інформацію, пошукові роботи сканують сайт і відправляють в індекс. Як керувати Google ботами? У статті розбираємо, що таке robots.txt, з чого він складається і які інструменти для створення файлу існують? Навіщо потрібний файл robots.txt?

Зміст:

  1. Як пошукові роботи сканують сторінки?
  2. Що таке robots.txt?
  3. Структура файлу robots.txt
  4. ТОП-6 помилок у robots.txt
  5. Приклад robots.txt
  6. Створення та валідація robots.txt
  7. Сервіси та інструменти для перевірки robots.txt
  8. Що виключати з індексу за допомогою robots.txt?
  9. Висновки

Что такое robots.txt?



Пошукові роботи це системні алгоритми, які перевіряють усі доступні сторінки в інтернеті. Google індексує інформацію, яку ви публікуєте. Чи можна керувати ботами? Є можливість спрямувати системні алгоритми. Для цього потрібно створити файл robots.txt і показати, які сторінки варто індексувати, а які ні.

 

Як пошукові роботи сканують сторінки?

Робота пошукових ботів полягає у пошуку нового контенту, які вони додають у пошуковий індекс. Їх також називають алгоритмами, краулерами. Боти переходять за посиланнями на сторінках в інтернеті і сканують інформацію, що вони містять. Коли користувач вводить запит у пошуковий рядок, релевантні результати витягуються з індексу та ранжуються згідно з рейтингом.

Завдання пошукових роботів надати користувачам найкращі варіанти відповідей на їхні запити. Чому це важливо? Розуміння того, як боти знаходять, індексують та ранжують контент, допоможе вплинути на позиції сайту в органічних результатах пошукової видачі. Вищі позиції залучають більше трафіку, кліків та конверсій відповідно.

Як пошукові системи сканують сторінку? Розглянемо найпопулярнішу пошукову систему у світі Google, частка ринку якої становить 92%.

Google містить індекс, де знаходиться більше трильйона веб-сторінок. Тому система завжди зможе знайти будь-яке посилання, ресурс тощо. Алгоритми починають індексувати з URL-адреси. Далі Googlebot сканує та обробляє сторінки згідно з прописаним алгоритмом і після цього відправляє до цифрової бібліотеки під назвою пошуковий індекс.

Існує поняття як краулінговий бюджет. Це обмежена кількість сторінок, яку боти можуть проіндексувати за один раз, та визначається в індивідуальному порядку. Тому важливо виключати непотрібні дані та вказувати, що саме необхідно надіслати до індексу. Robots.txt це файл, за допомогою якого це можна реалізувати.

 

Що таке robots.txt?

Відповідаючи на запитання, що таке robots.txt, це інструкція, що зберігається у форматі тексту на сервері. Текст robots.txt це команди, створені з латинських символів. За допомогою цієї інформації пошукові роботи розуміють, які сторінки можна індексувати. Якщо не прописувати robots.txt, система індексуватиме всі сторінки, включаючи дублі або інше «сміття». Кожен рядок robots.txt має одну команду у формі директиви.

Что такое robots.txt?



Robots.txt можна редагувати у разі необхідності, щоб закрити окремі сторінки від індексації. Найчастіше це лендинги під тимчасові акції та розпродажі, версії для друку, системні файли та каталоги, порожні сторінки.

Важливо! 500 кб максимальний розмір файлу robots.txt, встановлений Google.

При обробці robots.txt, роботи отримують 3 правила для індексування:

  • Повний доступ дає дозвіл на сканування всього сайту.
  • Частковий доступ дозволяє сканувати окремі елементи.
  • При повній забороні Googlebot не зможе нічого просканувати.

 

Структура файлу robots.txt

Robots.txt це текстовий файл, який прописується в блокноті, будь-якому текстовому редакторі (Notepad++, Sublime). Його додають до кореневої частини сайту. Такі кодові інструкції для роботів задаються директивами з різними параметрами.

Структура robots.txt це:

  • user-agent назва робота, який має просканувати цю сторінку
  • allow/disallow директиви (команди) до виконання роботами

Що таке robots.txt та з чого він складається? Розберемо директиви robots.tx окремо.

User-agent

Потрібно зазначити робота, для якого будуть актуальні описані правила robots.txt. До популярних відносяться:

  • Googlebot основний бот Google.
  • Googlebot-Image бот зображень.
  • Googlebot-Mobile індексатор мобільної версії.
  • Googlebot-Video робот для сканування відео.

Готовий текстовий документ robots.txt слід завантажити в кореневу папку з назвою сайту, де знаходиться файл index.html та файли движку.

Пошукова система щоразу під час сканування буде звертатися до robots.txt. Це дає їй інформацію та розуміння, що можна індексувати, що ні.

Директива allow/disallow

Команда robots.txt дозволяє або забороняє сканування. Для кожного окремого розділу, папки чи URL-адреси потрібно прописувати правила за допомогою знака «/». Наприклад:

  • Для заборони папки сайту вказуємо таку послідовність у robots.txt: Disallow: /folder/
  • Для заборони лише одного файлу (в даному випадку зображення): Disallow: /folder/img.jpg

Директива sitemap

Директива Sitemap у robots.txt це напрямок ботам, де знайти карту сайту у форматі XML. Це допоможе їм швидше орієнтуватися у структурі ресурсу.

Что такое robots.txt?



Директива Clean-param

Правило robots.txt це заборона для індексації інформації, яка містить динамічні параметри. Це сторінки з однаковим контентом або дублі, що призводять до зниження позиції сайту у видачі.

Директива Crawl-delay

Команда robots.txt підходить для великих сайтів із великою кількістю сторінок, що може впливати на швидкість завантаження. Щоразу, коли роботи заходять на сайт, це також дає додаткове навантаження. 

Щоб зменшити тиск на сервер, слід використовувати в robots.txt директиву Crawl-delay, що обмежує кількість сканування. Час у секундах це параметр, який вказує роботам, скільки разів за певний період слід сканувати сторінки.

 

ТОП-6 помилок у robots.txt

Помилки у robots.txt це порушення, які призводять до наслідків. Як зазначає Google, пошукові роботи мають гнучкі алгоритми, тому невеликі помилки в robots.txt не позначаються на їх роботі. Однак якщо у robots.txt є неточності, краще їх виправити. Які найпоширеніші помилки існують у robots.txt?

  1. Неправильне розташування robots.txt. Де знаходиться robots.txt? Нагадаємо, що robots.txt це файл, який має бути розташований у кореневій папці. Інакше роботи не зможуть його знайти.
  2. Помилка назви. Завжди назву слід писати з маленької літери robots.txt.
  3. Перелік папок через кому. Кожне нове правило пишеться з нового рядка. При перелыку через кому директива robots.txt не спрацює.
  4. Відсутність посилання на файл sitemap.xml. За допомогою нього роботи отримують інформацію про структуру сайту та його головні розділи, які Googlebot сканують насамперед. Даний пункт robots.txt особливо важливий для SEO просування сайту.
  5. Порожні команди в robots.txt це папки та файли для індексування або закриття від індексації, які потрібно не забувати прописувати. Багато фахівців залишають відкриті (порожні) allow/disallow.
  6. Відсутність перевірок robots.txt. Якщо ви закриваєте окремі сторінки, слід періодично перевіряти встановлені правила. Для цього використовуйте валідатор.

 

Приклад robots.txt

Наводимо приклад, що таке robots.txt:

Что такое robots.txt?

 

Створення та валідація robots.txt

Як зробити robots.txt? Потрібен звичайний текстовий редактор, вбудований блокнот на комп’ютері або на будь-який інший сервіс. Robots.txt пишеться вручну.

Щоб знати, як правильно скласти robots.txt, можна скористатися онлайн-генераторами. Це сервіси, за допомогою яких можна автоматично швидко згенерувати robots.txt. Такий спосіб підходить для тих, хто має кілька сайтів. Після автоматичної генерації robots.txt необхідно перевірити правильність написання вручну, щоб уникнути помилок.

Ще один варіант, як створити robots.txt це використовувати готові шаблони. Інтернет має велику кількість файлів для популярних CMS, наприклад WordPress. Шаблон включає стандартні директиви, що спрощує процес написання, немає потреби створювати robots.txt з нуля.

Зважайте на те, що для написання robots.txt важливо володіти базовими знаннями синтаксису.

Як ми вказували вище у статті, перевірити robots.txt можна кількома способами. Виявити помилки допоможе Google Search Console, який показує, які сторінки не пройшли індексацію.

 

Сервіси та інструменти перевірки robots.txt

Важливо перевіряти правильність написання robots.txt, щоб сайт коректно сканувався роботами та потрапляв у пошуковий індекс. Для цього радимо використовувати додаткові сервіси:

Google Search Console головний інструмент для перевірки robots.txt, якщо говорити про систему Google. Сервіс включає окремий розділ, як налаштувати robots.txt. Якщо ваш сайт ще не підключений, тоді слід зареєструватися та додати його. Google Search Console виводить на екран результат перевірки robots.txt, де вказано кількість помилок та застережень.

Seositecheckup сторонній інструмент для перевірки robots.txt на помилки.

Можна також перевірити доступність robots.txt через браузер. Для цього до домену потрібно дописати /robots.txt. Слід провести перевірку у кількох браузерах.

Что такое robots.txt?



 

Що виключати з індексу за допомогою robots.txt?

Robots.txt це можливість керувати пошуковими алгоритмами та направити їх на головні сторінки сайту, які будуть бачити користувачі. Правильний robots.txt не повинен містити наступних пунктів:

  • Дублі сторінок. Кожна з них має індивідуальну URL-адресу з унікальним контентом;
  • Сторінки з унікальним контентом;
  • Дані із показниками сесій;
  • Файли, пов’язані із системою CMS та керуванням сайтом (шаблони, теми, панель адміністратора).

Виключати за допомогою robots.txt це означає закрити все, що не приносить користь, а також те, що ще знаходиться на стадії доопрацювання або розробки, дублюється нерелевантні сторінки.

 

Висновки

Googlebot періодично сканує та індексує сайт, щоб визначити його позицію у пошуковій видачі. Алгоритми знають, що таке robots.txt та зчитують правила, вказані у файлі. Текстовий документ robots.txt включає директиви або команди, за допомогою яких роботи визначають, які сторінки доступні для індексації.

Последние материалы рубрики

превью смм юа

Топ-9 трендів SMM у 2023 році, які ви маєте знати

Дізнайтеся, які тренди SMM у 2023 році допоможуть вам просунути компанію, обігнати конкурентів та отримати нових клієнтів

Google for Startups оголосив 25 переможців. Які українські компанії...

Google оголосив переможців третьої групи на підтримку стартапів в Україні

ErsteBank preview ua

Реклама дня: Erste Bank зробив різдвяний анімаційний ролик про...

Віденська банківська група Erste Bank у своєму новому різдвяному ролику «Вірю в Різдво» порушила тему енергетичної кризи.

Чорна п'ятниця

Black Friday: підсумки щорічного розпродажу від Фокстроту за 2022...

Лідери продажів та списки найпопулярніших товарів у 2022 році. Найбільший рітейлер України опублікував результати розпродажу

Підпишіться на нашу розсилку
Будьте в курсі останніх новин та спецпропозицій
Підписка на розсилку в Telegram
Залишились питання?
Наші експерти готові відповісти на них

 

Зв’яжіться за вказаним нижче телефоном з нашим менеджером або скористайтеся послугою «Зателефонуйте мені». Ми зв’яжемося з вами найближчим часом.

Кожен в команді— майстер своєї справи
Ціную Webpromo за гнучкість
Команда Webpromo, як продовження нашого відділу маркетингу
Спокійний за просування своїх проєктів в інтернеті

Ми використовуємо cookie-файли для надання найбільш актуальної інформації.

Продовжуючи використовувати сайт, Ви погоджуєтесь з використанням файлів cookie.

Політика конфіденційності