Как проверить, что робот принадлежит Яндексу
Иногда роботы могут маскироваться под роботов Яндекса путем указания соответствующего User-agent. Вы можете проверить, что робот является тем, за кого себя выдает используя идентификацию, основанную на обратных DNS-запросах (reverse DNS lookup).
Для этого необходимо выполнить следующее:
- Для интересующего User-agent определите IP-адрес по логам вашего сервера.
- По IP-адресу определите доменное имя хоста с помощью обратного DNS-запроса.
- Проверьте, принадлежит ли хост Яндексу. Имена всех роботов Яндекса заканчиваются на yandex.ru, yandex.net или yandex.com. Если имя хоста имеет другое окончание, это означает, что робот не принадлежит Яндексу.
- Удостоверьтесь в корректности полученного имени. Для этого нужно использовать прямой DNS-запрос (forward DNS lookup), чтобы получить IP-адрес, соответствующий имени хоста. Он должен совпадать с IP-адресом, использованным при обратном DNS запросе. Если IP-адреса не совпадают, это означает, что полученное имя хоста поддельное.
Роботы Яндекса в логах сервера
Некоторые роботы Яндекса скачивают документы не для их последующей индексации, а для других специфичных целей. Для избежания непреднамеренной блокировки владельцами сайтов они могут не учитывать ограничивающие директивы файла robots.txt, предназначенные для произвольных роботов (User-agent: *).
Также частичное игнорирование ограничений robots.txt определенных сайтов возможно при наличии соответствующей договоренности между компанией «Яндекс» и владельцами этих сайтов.
Чтобы ограничить доступ таких роботов к сайту, используйте директивы специально для них, например:
User-agent: YandexCalendar
Disallow: /
User-agent: YandexMobileBot
Disallow: /private/*.txt$
Роботы используют автономную сеть: AS13238 и AS208722, а также IP-адреса, которые часто меняются, поэтому их список не разглашается.
При обращениях робота в логах вашего сервера может отображаться User-agent и версия браузера, которая используется при обходе сайта. Например, Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.268.
Полное имя робота, включая User-agent | Назначение робота | Учитывает общие правила, указанные в robots.txt |
---|---|---|