Как проверить, что робот принадлежит Яндексу

Иногда роботы могут маскироваться под роботов Яндекса путем указания соответствующего User-agent. Вы можете проверить, что робот является тем, за кого себя выдает используя идентификацию, основанную на обратных DNS-запросах (reverse DNS lookup).

Для этого необходимо выполнить следующее:

  1. Для интересующего User-agent определите IP-адрес по логам вашего сервера.
  2. По IP-адресу определите доменное имя хоста с помощью обратного DNS-запроса.
  3. Проверьте, принадлежит ли хост Яндексу. Имена всех роботов Яндекса заканчиваются на yandex.ru, yandex.net или yandex.com. Если имя хоста имеет другое окончание, это означает, что робот не принадлежит Яндексу.
  4. Удостоверьтесь в корректности полученного имени. Для этого нужно использовать прямой DNS-запрос (forward DNS lookup), чтобы получить IP-адрес, соответствующий имени хоста. Он должен совпадать с IP-адресом, использованным при обратном DNS запросе. Если IP-адреса не совпадают, это означает, что полученное имя хоста поддельное.
    1. Роботы Яндекса в логах сервера
    2. Вопросы и ответы

Роботы Яндекса в логах сервера

Некоторые роботы Яндекса скачивают документы не для их последующей индексации, а для других специфичных целей. Для избежания непреднамеренной блокировки владельцами сайтов они могут не учитывать ограничивающие директивы файла robots.txt, предназначенные для произвольных роботов (User-agent: *).

Также частичное игнорирование ограничений robots.txt определенных сайтов возможно при наличии соответствующей договоренности между компанией «Яндекс» и владельцами этих сайтов.

Примечание. Если такой робот скачает документ, недоступный основному роботу Яндекса, этот документ никогда не будет проиндексирован и не попадет в поисковую выдачу.

Чтобы ограничить доступ таких роботов к сайту, используйте директивы специально для них, например:

User-agent: YandexCalendar
Disallow: /

User-agent: YandexMobileBot
Disallow: /private/*.txt$

Роботы используют автономную сеть: AS13238 и AS208722, а также IP-адреса, которые часто меняются, поэтому их список не разглашается.

При обращениях робота в логах вашего сервера может отображаться User-agent и версия браузера, которая используется при обходе сайта. Например, Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.268.

Примечание. Версия браузера может меняться, поэтому рекомендуем при поиске User-agent в логах сервера не указывать конкретную версию.
Полное имя робота, включая User-agent Назначение робота Учитывает общие правила, указанные в robots.txt
Mozilla/5.0 (compatible; YandexAccessibilityBot/3.0; +http://yandex.com/bots)

Скачивает страницы для проверки их доступности пользователям.

Его максимальная частота обращений к сайту составляет 3 обращения в секунду. Робот игнорирует настройку в интерфейсе Яндекс Вебмастера.

Нет
Mozilla/5.0 (compatible; YandexAdNet/1.0; +http://yandex.com/bots) Робот Рекламной сети Яндекса. Да
Mozilla/5.0 (compatible; YandexBlogs/0.99; robot; +http://yandex.com/bots) Робот поиска по блогам, индексирующий комментарии постов. Да
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) Основной индексирующий робот. Да
Mozilla/5.0 (compatible; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots) Определяющий зеркала сайтов. Да
Mozilla/5.0 (compatible; YandexCalendar/1.0; +http://yandex.com/bots) Робот Яндекс Календаря. Скачивает файлы календарей по инициативе пользователей, которые часто располагаются в запрещенных для индексации каталогах. Нет
Mozilla/5.0 (compatible; YandexDialogs/1.0; +http://yandex.com/bots) Отправляет запросы в навыки Алисы. Нет
Mozilla/5.0 (compatible; YandexDirect/3.0; +http://yandex.com/bots) Скачивает информацию о контенте сайтов-партнеров Рекламной сети Яндекса, чтобы уточнить их тематику для подбора релевантной рекламы. Нет
Mozilla/5.0 (compatible; YandexDirectDyn/1.0; +http://yandex.com/bots Генерирует динамические баннеры. Нет
Mozilla/5.0 (compatible; YandexFavicons/1.0; +http://yandex.com/bots) Скачивает файл фавиконки сайта для отображения в результатах поиска. Нет
Mozilla/5.0 (compatible; YaDirectFetcher/1.0; Dyatel; +http://yandex.com/bots) Скачивает целевые страницы рекламных объявлений для проверки их доступности и уточнения тематики. Это необходимо для размещения объявлений в поисковой выдаче и на сайтах-партнерах. Нет. Робот не использует файл robots.txt, поэтому игнорирует директивы, установленные для него.
Mozilla/5.0 (compatible; YandexForDomain/1.0; +http://yandex.com/bots) Робот почты для домена, используется при проверке прав на владение доменом. Да
Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots) Индексирует изображения для показа на Яндекс Картинках. Да
Mozilla/5.0 (compatible; YandexImageResizer/2.0; +http://yandex.com/bots) Робот мобильных сервисов. Да
Mozilla/5.0 (iPhone; CPU iPhone OS 8_1 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12B411 Safari/600.1.4 (compatible; YandexMobileBot/3.0; +http://yandex.com/bots) Определяет страницы с версткой, подходящей под мобильные устройства. Нет
Mozilla/5.0 (compatible; YandexMarket/1.0; +http://yandex.com/bots) Робот Яндекс Маркета. Да
Mozilla/5.0 (compatible; YandexMarket/2.0; +http://yandex.com/bots) Нет
Mozilla/5.0 (compatible; YandexMedia/3.0; +http://yandex.com/bots) Индексирует мультимедийные данные. Да
Mozilla/5.0 (compatible; YandexMetrika/2.0; +http://yandex.com/bots yabs01) Скачивает страницы сайта для проверки их доступности, в том числе проверяет целевые страницы объявлений Яндекс Директа. Нет. Робот не использует файл robots.txt, поэтому игнорирует директивы, установленные для него.
Mozilla/5.0 (compatible; YandexMetrika/2.0; +http://yandex.com/bots) Робот Яндекс Метрики. Нет
Mozilla/5.0 (compatible; YandexMetrika/3.0; +http://yandex.com/bots) Нет
Mozilla/5.0 (compatible; YandexMetrika/4.0; +http://yandex.com/bots)