Как избежать дублей контента: краткий чек-лист

9.09.16 09.09.16 Нет 3630

Автор: Стефани ЛеВон (Stephanie LeVonne) — SEO-аналитик Elite SEM, специалист в области performance-маркетинга.

Дублированный контент на странице зачастую можно сравнить с перерасходом бюджета. Только в данном случае расходуется «бюджет доверия» к сайту поискового робота.

Предположим, что в пределах одного домена есть страницы, содержащие повторяющийся контент. В этом случае поисковый робот будет пытаться выяснить, какая страница является первоисточником информации, а какая — дублем. Определить источник информации со 100-процентной достоверностью удаётся далеко не всегда. Как следствие, в результатах поиска будет отображаться не оригинальная страница ресурса, а случайно появившийся её дубль.

Если же подобных повторов много, сайт и вовсе рискует быть понижен в результатах выдачи за нарушение требований Google к качеству. К сожалению, сегодня повторяющееся содержимое страниц — одна из самых распространенных проблем в SEO. Нередко она бывает вызвана техническими аспектами, к примеру, особенностями CMS или недостаточной грамотностью вебмастеров и администраторов сайта.

Осложняет ситуацию еще и то, что ни панель вебмастера в Google Search Console, ни ряд других сторонних инструментов не способны с высокой достоверностью предоставить вебмастеру информацию о наличии на сайте дублей. Искать такие страницы чаще всего приходится вручную.

Ниже приводится 8 причин, способных вызвать появление дублей на сайте.

1. Переезд с HTTP на HTTPS

Часто проблема возникает из-за неграмотного перевода сайта с HTTP на HTTPS. Самый быстрый способ отыскать дубли — ввести в адресную строку URL страницы с HTTP и с HTTPS. Если доступ разрешен к обеим версиям, значит, в процессе переезда вебмастер не использовал 301 редирект или реализовал перенаправление неграмотно.

Есть и другой нюанс: на безопасный протокол может быть переведён не весь сайт, а его отдельные страницы. Ещё до того как Google начал активно подталкивать вебмастеров к переводу своих ресурсов на HTTPS, они включали протокол шифрования лишь для отдельных страниц. К примеру, для страницы входа на сайт или страницы, предназначенной для проведения транзакций. В случае, когда по отношению к таким страницам применяются относительные ссылки, система автоматически дополняет недостающие компоненты. Всякий раз в процессе обхода сайта поисковый робот будет индексировать такую страницу как новую. Это значит, что со временем в индексе поисковой системы появятся дубли.

Аналогичным образом следует проверить наличие в индексе версий страниц сайта с www и без www. Эта проблема с лёгкостью может быть устранена за счёт использования кода состояния HTTP 301. Полезно будет указать в Google Search Console основной домен.

2. Сайты, копирующие контент

Поскольку в интернете до сих пор не сформировалась политика регулирования отношений между сайтами в плане заимствования чужого контента, имеет смысл использовать все возможные способы защиты содержимого своего ресурса. Делать это нужно на уровне кода. Кроме того, как уже говорилось выше, лучше применять постоянные URL-ы вместо динамических.

Почему это важно? В случаях, если используются относительные ссылки, браузер каждый раз пытается перейти по ним и открыть страницу. Таким образом, пользователь видит перед собой одну и ту же страницу, но с разными URL. Нетрудно догадаться, что с точки зрения индексирования в Google применять такой подход крайне нежелательно. В то же время, отдельные разработчики до сих пор продолжают использовать динамические URL-ы.

Если разработчик отказывается переписать код сайта, так чтобы он был выполнен надлежащим образом (с указанием предпочитаемой версии URL для страницы и с добавлением rel="canonical"), то копирования контента другими ресурсами не избежать. Если же в коде сайта указана каноническая страница, то при перепечатывании его содержимого сторонними сайтами теги «подскажут» Google, на какой именно канонический адрес ссылаются дубликаты. Немаловажный момент: показатель PageRank и все связанные сигналы также будут перенесены с дублированных страниц на каноническую.

Отыскать собственный контент на сторонних сайтах помогут инструменты Siteliner и Copyscape.

3. Давно забытые домены

Предположим, что вебмастер решил отказаться от использования поддомена и работать с подкаталогом. Ещё один вариант: компания создала новый сайт, перенесла на него контент со старого ресурса, и вся жизнь теперь кипит только на нём. Как бы то ни было, не стоит забывать о том, что содержимое старого ресурса до сих пор существует в интернете и может сыграть злую шутку с новым сайтом. Лучшим вариантом для выхода из ситуации будет использование 301 редиректа на страницах старого сайта. Это особенно важно, если на старой версии есть много качественных входящих ссылок.

4. Содержимое среды разработки

Очень важно закрывать от индексации содержимое среды разработки сайта, когда ресурс находится в стадии реконструкции. Поисковые роботы Google заходят на сайт регулярно и могут сканировать содержимое страницы, даже если она находится в разработке. Аналогичным образом следует закрывать от индексации любой внутренний контент сайта, который ни в коем случае не должен попадать в результаты выдачи. Сделать это можно при помощи <meta name="robots" content="noindex"> или в файле robots.txt.

Только после того, как все компоненты сайта и его контент будут перенесены из среды разработки на домен, содержимое страниц можно будет сделать доступным для индексации.

5. Динамически генерируемые параметры в адресах страниц

Зачастую популярные CMS автоматически «плодят дубли», добавляя параметры в URL. Как результат, на сайте обнаруживается до нескольких страниц с одним и тем же содержимым. Выявив адреса страниц с идентичным контентом, алгоритм Google объединяет их в общую группу. После этого система на своё усмотрение выбирает одну из них для отображения в результатах поиска. Затем на основании имеющейся информации об этой группе URL Google присваивает выбранной ссылке определённые атрибуты, чтобы уточнить рейтинг страницы в результатах поиска.

Чтобы избежать негативного сценария, вебмастерам рекомендуется задавать канонический URL, а также указывать системе, как нужно обрабатывать URL с определёнными параметрами, в Google Search Console. Сделать это можно при помощи инструмента Параметры URL.

Содержимое отдельных страниц можно закрыть от индексации в файле robots.txt, применяя в шаблонах запрета символ «*». Это позволит избежать индексации любого содержимого, размещённого в указанной поддиректории. Например: Disallow: /chocolate-recipes/cake $(".popup").click(function(event){ event.preventDefault(); var href = $(this).attr("href"); var width = $(this).attr("data-width"); var height = $(this).attr("data-height"); var popup = window.open (href, "popup", "height=" + height +", width=" + width + ", top="+((screen.height-height)/2)+",left="+((screen.width-width)/2)+", resizable=yes, scrollbars=no, status=yes"); }); });