Использование файла robots.txt

Robots.txt — это текстовый файл, который содержит параметры индексирования сайта для роботов поисковых систем. В robots.txt можно ограничить индексирование роботами страниц сайта, что может снизить нагрузку на сайт и ускорить его работу.

Примечание. Ограниченные в robots.txt страницы могут участвовать в поиске Яндекса. Чтобы удалить страницы из поиска, укажите директиву noindex в HTML-коде страницы или настройте HTTP-заголовок. Не ограничивайте такие странице в robots.txt, чтобы робот Яндекса смог их проиндексировать и обнаружить ваши указания. Подробно см. в разделе Как удалить страницы из поиска.

Яндекс поддерживает стандарт исключений для роботов (Robots Exclusion Protocol) с расширенными возможностями.


	Урок Как управлять индексированием сайта.

Требования к файлу robots.txt

Роботы Яндекса корректно обрабатывают robots.txt, если:

Размер файла не превышает 500 КБ.
Это TXT-файл с названием robots — robots.txt.
Файл размещен в корневом каталоге сайта.
Файл доступен для роботов — сервер, на котором размещен сайт, отвечает HTTP-кодом со статусом 200 OK или выполняет перенаправление другой файл robots.txt, который который возвращает код 200 ОК. Подробно см. Проверка ответа сервера.

Если файл не соответствует требованиям, сайт считается открытым для индексирования.

Яндекс поддерживает редирект с файла robots.txt, расположенного на одном сайте, на файл, который расположен на другом сайте. В этом случае учитываются директивы в файле, на который происходит перенаправление. Такой редирект может быть удобен при переезде сайта.

Рекомендации по наполнению файла

Яндекс поддерживает следующие директивы:


Директива	Что делает
User-agent *	Указывает на робота, для которого действуют перечисленные в robots.txt правила.
Disallow	Запрещает обход разделов или отдельных страниц сайта.
Sitemap	Указывает путь к файлу Sitemap, который размещен на сайте.
Clean-param	Указывает роботу, что URL страницы содержит параметры (например, UTM-метки), которые не нужно учитывать при индексировании.
Allow	Разрешает индексирование разделов или отдельных страниц сайта.
Crawl-delay	Задает роботу минимальный период времени (в секундах) между окончанием загрузки одной страницы и началом загрузки следующей. Рекомендуем вместо директивы использовать настройку скорости обхода в Яндекс Вебмастере.


Директива	Что делает
User-agent *	Указывает на робота, для которого действуют перечисленные в robots.txt правила.
Disallow	Запрещает обход разделов или отдельных страниц сайта.
Sitemap	Указывает путь к файлу Sitemap, который размещен на сайте.
Clean-param	Указывает роботу, что URL страницы содержит параметры (например, UTM-метки), которые не нужно учитывать при индексировании.
Allow	Разрешает индексирование разделов или отдельных страниц сайта.
Crawl-delay	Задает роботу минимальный период времени (в секундах) между окончанием загрузки одной страницы и началом загрузки следующей. Рекомендуем вместо директивы использовать настройку скорости обхода в Яндекс Вебмастере.

* Обязательная директива.

Наиболее часто вам могут понадобиться директивы Disallow, Sitemap и Clean-param. Например:

User-agent: * #указывает, для каких роботов установлены директивы
Disallow: /bin/ # запрещает ссылки из "Корзины с товарами".
Disallow: /search/ # запрещает ссылки страниц встроенного на сайте поиска
Disallow: /admin/ # запрещает ссылки из панели администратора
Sitemap: http://example.com/sitemap # указывает роботу на файл Sitemap для сайта
Clean-param: ref /some_dir/get_book.pl

Роботы других поисковых систем и сервисов могут иначе интерпретировать директивы.

Примечание. Робот учитывает регистр в написании подстрок (имя или путь до файла, имя робота) и не учитывает регистр в названиях директив.

Использование кириллицы

Использование кириллицы запрещено в файле robots.txt и HTTP-заголовках сервера.

Для указания имен доменов используйте Punycode. Адреса страниц указывайте в кодировке, соответствующей кодировке текущей структуры сайта.

Пример файла robots.txt:

#Неверно:
User-agent: Yandex
Disallow: /корзина
Sitemap: сайт.рф/sitemap.xml

#Верно:
User-agent: Yandex
Disallow: /%D0%BA%D0%BE%D1%80%D0%B7%D0%B8%D0%BD%D0%B0
Sitemap: http://xn--80aswg.xn--p1ai/sitemap.xml

Как создать robots.txt

В текстовом редакторе создайте файл с именем robots.txt и укажите в нем нужные вам директивы.
Проверьте файл в Вебмастере.
Положите файл в корневую директорию вашего сайта.

Пример файла. Данный файл разрешает индексирование всего сайта для всех поисковых систем.

Вопросы и ответы

В Вебмастере на странице «Диагностика сайта» возникает ошибка «Сервер отвечает редиректом на запрос /robots.txt»

Чтобы файл robots.txt учитывался роботом Яндекса, он должен находиться в корневом каталоге сайта и отвечать кодом HTTP 200. Если ваш файл robots.txt перенаправляет на другой файл robots.txt (например, при переезде сайта), Яндекс будет учитывать файл, на который происходит перенаправление.

Для правильной настройки директив в файле robots.txt убедитесь, что файл содержит верную информацию. Для проверки файла добавьте сайт, который является целью перенаправления, в Вебмастер и подтвердите права на управление сайтом.

Чтобы проверить доступность файла robots.txt для робота, проверьте ответ сервера.