Использование файла robots.txt
Robots.txt — это текстовый файл, который содержит параметры индексирования сайта для роботов поисковых систем. В robots.txt можно ограничить индексирование роботами страниц сайта, что может снизить нагрузку на сайт и ускорить его работу.
Яндекс поддерживает стандарт исключений для роботов (Robots Exclusion Protocol) с расширенными возможностями.
Требования к файлу robots.txt
Размер файла не превышает 500 КБ.
- Это TXT-файл с названием robots — robots.txt.
- Файл размещен в корневом каталоге сайта.
Файл доступен для роботов — сервер, на котором размещен сайт, отвечает HTTP-кодом со статусом 200 OK. Проверьте ответ сервера
Если файл не соответствует требованиям, сайт считается открытым для индексирования.
Яндекс поддерживает редирект с файла robots.txt, расположенного на одном сайте, на файл, который расположен на другом сайте. В этом случае учитываются директивы в файле, на который происходит перенаправление. Такой редирект может быть удобен при переезде сайта.
Рекомендации по наполнению файла
Яндекс поддерживает следующие директивы:
Директива | Что делает |
---|---|
User-agent * | Указывает на робота, для которого действуют перечисленные в robots.txt правила. |
Disallow | Запрещает обход разделов или отдельных страниц сайта. |
Sitemap | Указывает путь к файлу Sitemap, который размещен на сайте. |
Clean-param | Указывает роботу, что URL страницы содержит параметры (например, UTM-метки), которые не нужно учитывать при индексировании. |
Allow | Разрешает индексирование разделов или отдельных страниц сайта. |
Crawl-delay | Задает роботу минимальный период времени (в секундах) между окончанием загрузки одной страницы и началом загрузки следующей. Рекомендуем вместо директивы использовать настройку скорости обхода в Яндекс Вебмастере. |
Директива | Что делает |
---|---|
User-agent * | Указывает на робота, для которого действуют перечисленные в robots.txt правила. |
Disallow | Запрещает обход разделов или отдельных страниц сайта. |
Sitemap | Указывает путь к файлу Sitemap, который размещен на сайте. |
Clean-param | Указывает роботу, что URL страницы содержит параметры (например, UTM-метки), которые не нужно учитывать при индексировании. |
Allow | Разрешает индексирование разделов или отдельных страниц сайта. |
Crawl-delay | Задает роботу минимальный период времени (в секундах) между окончанием загрузки одной страницы и началом загрузки следующей. Рекомендуем вместо директивы использовать настройку скорости обхода в Яндекс Вебмастере. |
* Обязательная директива.
Наиболее часто вам могут понадобиться директивы Disallow, Sitemap и Clean-param. Например: