Що таке robots.txt?

20.10.2022

4321

9хв

SEO

Редактор-журналіст

Оля Сомова

Результати пошукової видачі містять релевантні ресурси у відповідь на запит користувача. Перед тим, як дати інформацію, пошукові роботи сканують сайт і відправляють в індекс. Як керувати Google ботами? У статті розбираємо, що таке robots.txt, з чого він складається і які інструменти для створення файлу існують? Навіщо потрібний файл robots.txt?

Зміст:

Як пошукові роботи сканують сторінки?
Що таке robots.txt?
Структура файлу robots.txt
ТОП-6 помилок у robots.txt
Приклад robots.txt
Створення та валідація robots.txt
Сервіси та інструменти для перевірки robots.txt
Що виключати з індексу за допомогою robots.txt?
Висновки

Что такое robots.txt?

Читайте також: Веб-архів. Що це та як ним користуватися?

Пошукові роботи — це системні алгоритми, які перевіряють усі доступні сторінки в інтернеті. Google індексує інформацію, яку ви публікуєте. Чи можна керувати ботами? Є можливість спрямувати системні алгоритми. Для цього потрібно створити файл robots.txt і показати, які сторінки варто індексувати, а які ні.

Як пошукові роботи сканують сторінки?

Робота пошукових ботів полягає у пошуку нового контенту, які вони додають у пошуковий індекс. Їх також називають алгоритмами, краулерами. Боти переходять за посиланнями на сторінках в інтернеті і сканують інформацію, що вони містять. Коли користувач вводить запит у пошуковий рядок, релевантні результати витягуються з індексу та ранжуються згідно з рейтингом.

Завдання пошукових роботів — надати користувачам найкращі варіанти відповідей на їхні запити. Чому це важливо? Розуміння того, як боти знаходять, індексують та ранжують контент, допоможе вплинути на позиції сайту в органічних результатах пошукової видачі. Вищі позиції залучають більше трафіку, кліків та конверсій відповідно.

Як пошукові системи сканують сторінку? Розглянемо найпопулярнішу пошукову систему у світі Google, частка ринку якої становить 92%.

Google містить індекс, де знаходиться більше трильйона веб-сторінок. Тому система завжди зможе знайти будь-яке посилання, ресурс тощо. Алгоритми починають індексувати з URL-адреси. Далі Googlebot сканує та обробляє сторінки згідно з прописаним алгоритмом і після цього відправляє до цифрової бібліотеки під назвою пошуковий індекс.

Існує поняття як краулінговий бюджет. Це обмежена кількість сторінок, яку боти можуть проіндексувати за один раз, та визначається в індивідуальному порядку. Тому важливо виключати непотрібні дані та вказувати, що саме необхідно надіслати до індексу. Robots.txt — це файл, за допомогою якого це можна реалізувати.

Що таке robots.txt?

Відповідаючи на запитання, що таке robots.txt, це інструкція, що зберігається у форматі тексту на сервері. Текст robots.txt — це команди, створені з латинських символів. За допомогою цієї інформації пошукові роботи розуміють, які сторінки можна індексувати. Якщо не прописувати robots.txt, система індексуватиме всі сторінки, включаючи дублі або інше «сміття». Кожен рядок robots.txt має одну команду у формі директиви.

Что такое robots.txt?

Читайте також: Рейтинг популярних пошукових систем у світі та Україні за 2022. Порівнюємо результати минулого та поточного року

Robots.txt можна редагувати у разі необхідності, щоб закрити окремі сторінки від індексації. Найчастіше це лендинги під тимчасові акції та розпродажі, версії для друку, системні файли та каталоги, порожні сторінки.

Важливо! 500 кб — максимальний розмір файлу robots.txt, встановлений Google.

При обробці robots.txt, роботи отримують 3 правила для індексування:

Повний доступ дає дозвіл на сканування всього сайту.
Частковий доступ дозволяє сканувати окремі елементи.
При повній забороні Googlebot не зможе нічого просканувати.

Структура файлу robots.txt

Robots.txt це текстовий файл, який прописується в блокноті, будь-якому текстовому редакторі (Notepad++, Sublime). Його додають до кореневої частини сайту. Такі кодові інструкції для роботів задаються директивами з різними параметрами.

Структура robots.txt це:

user-agent — назва робота, який має просканувати цю сторінку
allow/disallow — директиви (команди) до виконання роботами

Що таке robots.txt та з чого він складається? Розберемо директиви robots.tx окремо.

User-agent

Потрібно зазначити робота, для якого будуть актуальні описані правила robots.txt. До популярних відносяться:

Googlebot — основний бот Google.
Googlebot-Image — бот зображень.
Googlebot-Mobile — індексатор мобільної версії.
Googlebot-Video — робот для сканування відео.

Готовий текстовий документ robots.txt слід завантажити в кореневу папку з назвою сайту, де знаходиться файл index.html та файли движку.

Пошукова система щоразу під час сканування буде звертатися до robots.txt. Це дає їй інформацію та розуміння, що можна індексувати, що ні.

Директива allow/disallow

Команда robots.txt дозволяє або забороняє сканування. Для кожного окремого розділу, папки чи URL-адреси потрібно прописувати правила за допомогою знака «/». Наприклад:

Для заборони папки сайту вказуємо таку послідовність у robots.txt: Disallow: /folder/
Для заборони лише одного файлу (в даному випадку зображення): Disallow: /folder/img.jpg

Директива sitemap

Директива Sitemap у robots.txt це напрямок ботам, де знайти карту сайту у форматі XML. Це допоможе їм швидше орієнтуватися у структурі ресурсу.

Что такое robots.txt?

Читайте також: Як перевірити індексацію сайту в Google і що робити, якщо сторінок немає у видачі?

Директива Clean-param

Правило robots.txt — це заборона для індексації інформації, яка містить динамічні параметри. Це сторінки з однаковим контентом або дублі, що призводять до зниження позиції сайту у видачі.

Директива Crawl-delay

Команда robots.txt підходить для великих сайтів із великою кількістю сторінок, що може впливати на швидкість завантаження. Щоразу, коли роботи заходять на сайт, це також дає додаткове навантаження.

Щоб зменшити тиск на сервер, слід використовувати в robots.txt директиву Crawl-delay, що обмежує кількість сканування. Час у секундах — це параметр, який вказує роботам, скільки разів за певний період слід сканувати сторінки.

Підпишись на гарячі

Маркетинг-новини

МАРКЕТОЛОГ 2.0 >

Підпишись на щомісячний

Дайджест новин

ТОП-6 помилок у robots.txt

Помилки у robots.txt це порушення, які призводять до наслідків. Як зазначає Google, пошукові роботи мають гнучкі алгоритми, тому невеликі помилки в robots.txt не позначаються на їх роботі. Однак якщо у robots.txt є неточності, краще їх виправити. Які найпоширеніші помилки існують у robots.txt?

Неправильне розташування robots.txt. Де знаходиться robots.txt? Нагадаємо, що robots.txt це файл, який має бути розташований у кореневій папці. Інакше роботи не зможуть його знайти.
Помилка назви. Завжди назву слід писати з маленької літери — robots.txt.
Перелік папок через кому. Кожне нове правило пишеться з нового рядка. При перелыку через кому директива robots.txt не спрацює.
Відсутність посилання на файл sitemap.xml. За допомогою нього роботи отримують інформацію про структуру сайту та його головні розділи, які Googlebot сканують насамперед. Даний пункт robots.txt особливо важливий для SEO просування сайту.
Порожні команди в robots.txt — це папки та файли для індексування або закриття від індексації, які потрібно не забувати прописувати. Багато фахівців залишають відкриті (порожні) allow/disallow.
Відсутність перевірок robots.txt. Якщо ви закриваєте окремі сторінки, слід періодично перевіряти встановлені правила. Для цього використовуйте валідатор.

Приклад robots.txt

Наводимо приклад, що таке robots.txt:

Створення та валідація robots.txt

Як зробити robots.txt? Потрібен звичайний текстовий редактор, вбудований блокнот на комп’ютері або на будь-який інший сервіс. Robots.txt пишеться вручну.

Щоб знати, як правильно скласти robots.txt, можна скористатися онлайн-генераторами. Це сервіси, за допомогою яких можна автоматично швидко згенерувати robots.txt. Такий спосіб підходить для тих, хто має кілька сайтів. Після автоматичної генерації robots.txt необхідно перевірити правильність написання вручну, щоб уникнути помилок.

Ще один варіант, як створити robots.txt це використовувати готові шаблони. Інтернет має велику кількість файлів для популярних CMS, наприклад WordPress. Шаблон включає стандартні директиви, що спрощує процес написання, немає потреби створювати robots.txt з нуля.

Зважайте на те, що для написання robots.txt важливо володіти базовими знаннями синтаксису.

Як ми вказували вище у статті, перевірити robots.txt можна кількома способами. Виявити помилки допоможе Google Search Console, який показує, які сторінки не пройшли індексацію.

Сервіси та інструменти перевірки robots.txt

Важливо перевіряти правильність написання robots.txt, щоб сайт коректно сканувався роботами та потрапляв у пошуковий індекс. Для цього радимо використовувати додаткові сервіси:

Google Search Console — головний інструмент для перевірки robots.txt, якщо говорити про систему Google. Сервіс включає окремий розділ, як налаштувати robots.txt. Якщо ваш сайт ще не підключений, тоді слід зареєструватися та додати його. Google Search Console виводить на екран результат перевірки robots.txt, де вказано кількість помилок та застережень.

Seositecheckup — сторонній інструмент для перевірки robots.txt на помилки.

Можна також перевірити доступність robots.txt через браузер. Для цього до домену потрібно дописати /robots.txt. Слід провести перевірку у кількох браузерах.

Что такое robots.txt?

Читайте також: Як Google ранжує сайти? Ключові слова як фактор

Що виключати з індексу за допомогою robots.txt?

Robots.txt — це можливість керувати пошуковими алгоритмами та направити їх на головні сторінки сайту, які будуть бачити користувачі. Правильний robots.txt не повинен містити наступних пунктів:

Дублі сторінок. Кожна з них має індивідуальну URL-адресу з унікальним контентом;
Сторінки з унікальним контентом;
Дані із показниками сесій;
Файли, пов’язані із системою CMS та керуванням сайтом (шаблони, теми, панель адміністратора).

Виключати за допомогою robots.txt це означає закрити все, що не приносить користь, а також те, що ще знаходиться на стадії доопрацювання або розробки, дублюється нерелевантні сторінки.

Висновки

Googlebot періодично сканує та індексує сайт, щоб визначити його позицію у пошуковій видачі. Алгоритми знають, що таке robots.txt та зчитують правила, вказані у файлі. Текстовий документ robots.txt включає директиви або команди, за допомогою яких роботи визначають, які сторінки доступні для індексації.

Сподобалася стаття?

ТАК

НІ