Дублирование страниц

Если страницы сайта доступны по разным адресам, но имеют одинаковое содержимое, робот Яндекса может посчитать их дублями и объединить в группу дублей.

Примечание. Дублями признаются страницы в рамках одного сайта. Например, страницы на региональных поддоменах с одинаковым содержимым не считаются дублями.

Если на сайте есть страницы-дубли:

  • Из результатов поиска может пропасть нужная вам страница, так как робот выбрал другую страницу из группы дублей.

    Также в некоторых случаях страницы могут не объединяться в группу и участвовать в поиске как разные документы. Таким образом конкурировать между собой. Это может оказать влияние на сайт в поиске.

  • В зависимости от того, какая страница останется в поиске, адрес документа может измениться. Это может вызвать трудности при просмотре статистики в сервисах веб-аналитики.
  • Индексирующий робот дольше обходит страницы сайта, а значит данные о важных для вас страницах медленнее передаются в поисковую базу. Кроме этого, робот может создать дополнительную нагрузку на сайт.
  1. Как определить, есть ли страницы-дубли на сайте
  2. Как избавиться от страниц-дублей

Как определить, есть ли страницы-дубли на сайте

Страницы-дубли появляются по разным причинам:

  • Естественным. Например, если страница с описанием товара интернет-магазина присутствует в нескольких категориях сайта.
  • Связанным с особенностями работы сайта или его CMS (например, версией для печати, UTM-метки для отслеживания рекламы и т. д.)
Чтобы узнать, какие страницы исключены из поиска из-за дублирования:
  1. Перейдите в Вебмастер на страницу Страницы в поиске и выберите Исключённые страницы.
  2. Нажмите значок и выберите статус «Удалено: Дубль».

Также вы можете выгрузить архив — внизу страницы выберите формат файла. В файле дублирующая страница имеет статус DUPLICATE. Подробно о статусах

Если дубли появились из-за добавления GET-параметров в URL, об этом появится уведомление в Вебмастере на странице Диагностика.

Примечание. Страницей-дублем может быть как обычная страница сайта, так и ее быстрая версия, например AMP-страница.

Как избавиться от страниц-дублей

Чтобы оставить в поисковой выдаче нужную страницу, укажите роботу Яндекса на нее . Это можно сделать несколькими способами в зависимости от вида адреса страницы.

Пример для обычного сайта:

http://example.com/page1/ и http://example.com/page2/

Пример для сайта с AMP-страницами:

http://example.com/page/ и http://example.com/AMP/page/

В этом случае:

  • Установите редирект с HTTP-кодом 301 с одной дублирующей страницы на другую. В этом случае в поиске будет участвовать цель установленного редиректа.

  • Укажите предпочитаемый (канонический) адрес страницы, который будет участвовать в поиске.

  • Добавьте в файл robots.txt директиву Disallow, чтобы запретить индексирование страницы-дубля.

    Если вы не можете ограничить такие ссылки в robots.txt, запретите их индексирование при помощи мета-тега noindex. Тогда поисковой робот сможет исключить страницы из базы по мере их переобхода.

    Также вы можете ограничить AMP-страницы, которые дублируют контент страниц другого типа.

Чтобы определить, какая страница должна остаться в поиске, ориентируйтесь на удобство посетителей вашего сайта. Например, если речь идет о разделе с похожими товарами, вы можете выбрать в качестве страницы для поиска корневую или страницу этого каталога — откуда посетитель сможет просмотреть остальные страницы. В случае дублирования обычных HTML и AMP-страниц, рекомендуем оставлять в поиске обычные HTML.

https://example.com и https://example.com/index.php

В этом случае:

Рекомендуем устанавливать перенаправление с внутренних страниц на главную. Если вы настроите редирект со страницы https://example.com/ на https://example.com/index.php, контент страницы https://example.com/index.php будет отображаться по адресу https://example.com/ — согласно правилам обработки редиректов.

http://example.com/page/ и http://example.com/page

В этом случае установите редирект с HTTP-кодом 301 с одной дублирующей страницы на другую. Тогда в поиске будет участвовать цель установленного редиректа.

Не рекомендуем в этом случае использовать атрибут rel=canonical, так как он может игнорироваться. При редиректе пользователи будут попадать сразу на нужный URL страницы.

Если проблема на главной странице, настраивать на ней ничего не нужно. Поисковая система распознает страницы http://example.com и http://example.com/ как одинаковые.

Яндекс индексирует ссылки со слешем на конце и без одинаково. При выборе URL, который останется в поиске, нужно учесть, по какому адресу сейчас индексируются страницы, если редирект еще не был установлен. Например, если в поиске уже участвуют страницы без слеша, стоит настроить перенаправление со страниц со слешем на ссылки без слеша. Это позволит избежать дополнительной смены адреса страниц в поиске.

http://example.com/page////something/

В этом случае поисковая система убирает дублирующиеся символы. Страница будет индексироваться по адресу http://example.com/page/something/.

Если в URL есть \ (например, http://example.com/page/something/\\\\), поисковая система воспринимает такую страницу как отдельную. Она будет индексироваться по адресу http://example.com/page/something/\\\\.

В этом случае:
  • Установите редирект с HTTP-кодом 301 с одной страницы на другую. В этом случае в поиске будет участвовать цель установленного редиректа.

  • Укажите предпочитаемый (канонический) адрес страницы, который будет участвовать в поиске.
  • Добавьте в файл robots.txt директиву Disallow, чтобы запретить индексирование страницы.

    Если вы не можете ограничить такие ссылки в robots.txt, запретите их индексирование при помощи мета-тега noindex. Тогда поисковой робот сможет исключить страницы из базы по мере их переобхода.

Используйте рекомендации, если различия есть в тех параметрах, которые не влияют на контент. Например, такими параметрами могут быть UTM-метки:

https://example.com/page?utm_source=instagram&utm_medium=cpc

В этом случае добавьте в файл robots.txt директиву Clean-param, чтобы робот не учитывал параметры в URL. Если в Вебмастере отображается уведомление о дублировании страниц из-за GET-параметров, этот способ исправит ошибку. Уведомление пропадет, когда робот узнает об изменениях.

Пример директивы Clean-param
#для адресов вида:
example.com/page?utm_source=instagram&utm_medium=cpc
example.com/page?utm_source=link&utm_medium=cpc&utm_campaign=new

#robots.txt будет содержать:
User-agent: Yandex
Disallow:
Clean-param: utm /page
#таким образом указываем роботу, что нужно оставить в поиске адрес https://example.com/page

#чтобы директива применялась к параметрам на страницах по любому адресу, не указывайте адрес:
User-agent: Yandex
Disallow:
Clean-param: utm

Если у вас нет возможности изменить robots.txt, укажите предпочитаемый (канонический) адрес страницы, который будет участвовать в поиске.

http://example.com/page/ и http://example.com/page?AMP

В этом случае добавьте директиву Clean-param в файл robots.txt, чтобы робот не учитывал параметры в URL.

Если AMP-страницы формируются не GET-параметром, а при помощи директории формата /AMP/, их можно рассматривать как обычные контентные дубли.

Робот узнает об изменениях, когда посетит ваш сайт. После посещения страница, которая не должна участвовать в поиске, будет исключена из него в течение трех недель. Если на сайте много страниц, этот процесс может занять больше времени.

Проверить, что изменения вступили в силу, можно в Яндекс.Вебмастере на странице Страницы в поиске.

Если вы следовали рекомендациям выше, но через три недели изменения не отобразились в результатах поиска, заполните форму ниже. В форме укажите примеры страниц.

Страницы с разным содержанием могут считаться дублями, если отвечали роботу сообщением об ошибке (например, на сайте была установлена заглушка). Проверьте, как отвечают страницы сейчас. Если страницы отдают разное содержимое, отправьте их на переобход — так они смогут быстрее вернуться в результаты поиска.

Чтобы избежать исключения страниц из поиска в случае кратковременной недоступности сайта, настройте HTTP-код ответа 503.