Как проверить, что робот принадлежит Яндексу

Иногда роботы могут маскироваться под роботов Яндекса путем указания соответствующего User-agent. Вы можете проверить, что робот является тем, за кого себя выдает используя идентификацию, основанную на обратных DNS-запросах (reverse DNS lookup).

Для этого необходимо выполнить следующее:

  1. Для интересующего User-agent определите IP-адрес по логам вашего сервера.
  2. По IP-адресу определите доменное имя хоста с помощью обратного DNS-запроса.
  3. Проверьте, принадлежит ли хост Яндексу. Имена всех роботов Яндекса заканчиваются на yandex.ru, yandex.net или yandex.com. Если имя хоста имеет другое окончание, это означает, что робот не принадлежит Яндексу.
  4. Удостоверьтесь в корректности полученного имени. Для этого нужно использовать прямой DNS-запрос (forward DNS lookup), чтобы получить IP-адрес, соответствующий имени хоста. Он должен совпадать с IP-адресом, использованным при обратном DNS запросе. Если IP-адреса не совпадают, это означает, что полученное имя хоста поддельное.
    1. Роботы Яндекса в логах сервера
    2. Вопросы и ответы

Роботы Яндекса в логах сервера

Некоторые роботы Яндекса скачивают документы не для их последующей индексации, а для других специфичных целей. Для избежания непреднамеренной блокировки владельцами сайтов они могут не учитывать ограничивающие директивы файла robots.txt, предназначенные для произвольных роботов (User-agent: *).

Также частичное игнорирование ограничений robots.txt определенных сайтов возможно при наличии соответствующей договоренности между компанией «Яндекс» и владельцами этих сайтов.

Примечание. Если такой робот скачает документ, недоступный основному роботу Яндекса, этот документ никогда не будет проиндексирован и не попадет в поисковую выдачу.

Чтобы ограничить доступ таких роботов к сайту, используйте директивы специально для них, например:

User-agent: YandexCalendar
Disallow: /

User-agent: YandexMobileBot
Disallow: /private/*.txt$

Роботы используют автономную сеть: AS13238 и AS208722, а также IP-адреса, которые часто меняются, поэтому их список не разглашается.

При обращениях робота в логах вашего сервера может отображаться User-agent и версия браузера, которая используется при обходе сайта. Например, Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.268.

Примечание. Версия браузера может меняться, поэтому рекомендуем при поиске User-agent в логах сервера не указывать конкретную версию.
Полное имя робота, включая User-agent Назначение робота Учитывает общие правила, указанные в robots.txt
Mozilla/5.0 (compatible; YandexAccessibilityBot/3.0; +http://yandex.com/bots)

Скачивает страницы для проверки их доступности пользователям.

Его максимальная частота обращений к сайту составляет 3 обращения в секунду. Робот игнорирует настройку в интерфейсе Яндекс Вебмастера.

Нет
Mozilla/5.0 (compatible; YandexAdNet/1.0; +http://yandex.com/bots) Робот Рекламной сети Яндекса. Да
Mozilla/5.0 (compatible; YandexBlogs/0.99; robot; +http://yandex.com/bots) Робот поиска по блогам, индексирующий комментарии постов. Да
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) Основной индексирующий робот. Да
Mozilla/5.0 (compatible; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots) Определяющий неглавные адреса сайтов. Да
Mozilla/5.0 (compatible; YandexCalendar/1.0; +http://yandex.com/bots) Робот Яндекс Календаря. Скачивает файлы календарей по инициативе пользователей, которые часто располагаются в запрещенных для индексации каталогах. Нет
Mozilla/5.0 (compatible; YandexDialogs/1.0; +http://yandex.com/bots) Отправляет запросы в навыки Алисы. Нет
Mozilla/5.0 (compatible; YandexDirect/3.0; +http://yandex.com/bots) Скачивает информацию о контенте сайтов-партнеров Рекламной сети Яндекса, чтобы уточнить их тематику для подбора релевантной рекламы. Нет
Mozilla/5.0 (compatible; YandexDirectDyn/1.0; +http://yandex.com/bots Генерирует динамические баннеры. Нет
Mozilla/5.0 (compatible; YandexFavicons/1.0; +http://yandex.com/bots) Скачивает файл фавиконки сайта для отображения в результатах поиска. Нет
Mozilla/5.0 (compatible; YaDirectFetcher/1.0; Dyatel; +http://yandex.com/bots) Скачивает целевые страницы рекламных объявлений для проверки их доступности и уточнения тематики. Это необходимо для размещения объявлений в поисковой выдаче и на сайтах-партнерах. Нет. Робот не использует файл robots.txt, поэтому игнорирует директивы, установленные для него.
Mozilla/5.0 (compatible; YandexForDomain/1.0; +http://yandex.com/bots) Робот почты для домена, используется при проверке прав на владение доменом. Да
Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots) Индексирует изображения для показа на Яндекс Картинках. Да
Mozilla/5.0 (compatible; YandexImageResizer/2.0; +http://yandex.com/bots) Робот мобильных сервисов. Да
Mozilla/5.0 (iPhone; CPU iPhone OS 8_1 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12B411 Safari/600.1.4 (compatible; YandexMobileBot/3.0; +http://yandex.com/bots) Определяет страницы с версткой, подходящей под мобильные устройства. Нет
Mozilla/5.0 (compatible; YandexMarket/1.0; +http://yandex.com/bots) Робот Яндекс Маркета. Да
Mozilla/5.0 (compatible; YandexMarket/2.0; +http://yandex.com/bots) Нет
Mozilla/5.0 (compatible; YandexMedia/3.0; +http://yandex.com/bots) Индексирует мультимедийные данные. Да
Mozilla/5.0 (compatible; YandexMetrika/2.0; +http://yandex.com/bots yabs01) Скачивает страницы сайта для проверки их доступности, в том числе проверяет целевые страницы объявлений Яндекс Директа. Нет. Робот не использует файл robots.txt, поэтому игнорирует директивы, установленные для него.
Mozilla/5.0 (compatible; YandexMetrika/2.0; +http://yandex.com/bots) Робот Яндекс Метрики. Нет
Mozilla/5.0 (compatible; YandexMetrika/3.0; +http://yandex.com/bots) Нет
Mozilla/5.0 (compatible; YandexMetrika/4.0; +http://yandex.com/bots) Робот Яндекс Метрики. Скачивает и кэширует CSS-стили для воспроизведения страниц сайта в Вебвизоре. Нет. Робот не использует файл robots.txt, поэтому игнорирует директивы, установленные для него.
Mozilla/5.0 (compatible; YandexMobileScreenShotBot/1.0; +http://yandex.com/bots) Делает снимок мобильной страницы. Нет
Mozilla/5.0 (compatible; YandexNews/4.0; +http://yandex.com/bots) Робот Яндекс Новостей. Да
Mozilla/5.0 (compatible; YandexOntoDB/1.0; +http://yandex.com/bots) Робот объектного ответа. Да
Mozilla/5.0 (compatible; YandexOntoDBAPI/1.0; +http://yandex.com/bots) Робот объектного ответа, скачивающий динамические данные. Нет
Mozilla/5.0 (compatible; YandexPagechecker/1.0; +http://yandex.com/bots) Обращается к странице при валидации микроразметки через форму Валидатор микроразметки. Да
Mozilla/5.0 (compatible; YandexPartner/3.0; +http://yandex.com/bots) Скачивает информацию о контенте сайтов-партнеров Яндекса Нет
Mozilla/5.0 (compatible; YandexRCA/1.0; +http://yandex.com/bots) Собирает данные для формирования превью. Например, для расширенного отображения сайта в поиске. Нет
Mozilla/5.0 (compatible; YandexRenderResourcesBot/1.0; +http://yandex.com/bots)

Загружает ресурсы для рендеринга страницы с JavaScript.

Игнорирует указания в robots.txt, если HTML-страница, на которой эти ресурсы размещены, доступна для робота Яндекса.

Робот не обращается к ресурсам, если в robots.txt запрещены HTML-страницы, где эти ресурсы используются.

Нет
Mozilla/5.0 (compatible; YandexSearchShop/1.0; +http://yandex.com/bots) Скачивает YML-файлы каталогов товаров (по инициативе пользователей), которые часто располагаются в запрещенных для индексации каталогах. Нет
Mozilla/5.0 (compatible; YandexSitelinks; Dyatel; +http://yandex.com/bots) Проверяет доступность страниц, которые используются в качестве быстрых ссылок. Да
Mozilla/5.0 (compatible; YandexSpravBot/1.0; +http://yandex.com/bots) Робот Яндекс Бизнеса. Да
Mozilla/5.0 (compatible; YandexTracker/1.0; +http://yandex.com/bots) Робот Яндекс Трекера. Нет
Mozilla/5.0 (compatible; YandexTurbo/1.0; +http://yandex.com/bots) Обходит RSS-канал, созданный для формирования Турбо-страниц. Его максимальная частота обращений к сайту составляет 3 обращения в секунду. Робот игнорирует настройку в интерфейсе Яндекс Вебмастера и директиву Crawl-delay. Да
Mozilla/5.0 (compatible; YandexUserproxy; robot; +http://yandex.com/bots) Проксирует действия пользователей на сервисах Яндекса: отправляет запросы в ответ на нажатие кнопок, скачивает страницы для перевода онлайн и т. д. Нет
Mozilla/5.0 (compatible; YandexVertis/3.0; +http://yandex.com/bots) Робот поисковых вертикалей. Да
Mozilla/5.0 (compatible; YandexVerticals/1.0; +http://yandex.com/bots) Робот Яндекс Вертикалей: Авто.ру, Янекс.Недвижимость, Яндекс Работа, Яндекс Отзывы. Да
Mozilla/5.0 (compatible; YandexVideo/3.0; +http://yandex.com/bots) Индексирует видео для показа в поиске Яндекса по видео. Да
Mozilla/5.0 (compatible; YandexVideoParser/1.0; +http://yandex.com/bots) Индексирует видео для показа в поиске Яндекса по видео. Нет
Mozilla/5.0 (compatible; YandexWebmaster/2.0; +http://yandex.com/bots) Робот Яндекс Вебмастера. Да
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z* Safari/537.36 (compatible; YandexScreenshotBot/3.0; +http://yandex.com/bots) Делает снимок страницы. Нет
  • "YandexAdditionalBot", "YandexAdditionalBot/1.0", UserAgentFrom, "Mozilla/5.0 (compatible; YandexAdditionalBot/1.0; +http://yandex.com/bots)"

  • "YandexAdditional", "YandexAdditional/1.0", UserAgentFrom, "Mozilla/5.0 (compatible; YandexAdditional/1.0; +http://yandex.com/bots)"

Учитывается при обработке robots.txt для ограничения отображения контента страницы в быстрых ответах с YandexGPT и в ответах Нейро. Применяется к страницам, проиндексированным основным индексирующим роботом для поиска. Не совершает запросов для индексирования. Нет

* Сочетание символов W.X.Y.Z является меткой-заполнителем для версии браузера Chrome, которую использует агент пользователя. Например: 41.0.2272.96.

Вопросы и ответы

Как оградиться от мошеннических роботов, представляющихся роботами Яндекса

Если вы хотите оградиться от мошеннических роботов, представляющихся роботами Яндекса, вы можете использовать фильтрацию, основанную на обратных DNS запросах, как описано выше. Такая схема более предпочтительна по сравнению с управлением доступом на основе IP-адресов, так как она устойчива к изменениям внутренних сетей Яндекса.

Объем трафика между моим веб-сервером и вашим роботом слишком большой. Существует ли поддержка скачивания страниц в сжатом виде?

Да, существует. Поисковый робот Яндекса при каждом запросе страницы говорит: «Accept-Encoding: gzip,deflate» . Это означает, что настроив соответствующим образом свой веб-сервер, вы сможете снизить объем передаваемого трафика между ним и нашим роботом. Однако следует иметь в виду — передача контента в сжатом виде увеличивает нагрузку на CPU вашего сервера, и, если он сильно загружен, могут возникнуть проблемы. Поддерживая gzip и deflate, робот придерживается стандарта rfc2616, раздел 3.5 .