Миф о наказании за дублированный контент

  1. Что такое дублированный контент?
  2. Сколько в Интернете дублируется?
  3. Что думают Google по поводу дублированного контента?
  4. Причины дублирования контента
  5. TL; DR

Многие люди больше боятся дублирования контента, чем спам-ссылок.

Существует так много мифов о дублирующемся контенте, что люди на самом деле думают, что это повлечет за собой наказание, и что их страницы будут конкурировать друг с другом и причинять вред их сайту. Я вижу сообщения на форумах, темы Reddit, технический аудит, инструменты и даже новостные сайты SEO, публикующие статьи, которые показывают, что люди явно не понимают, как Google относится к дублирующемуся контенту.

Google пытался уничтожить мифы о дублированном контенте много лет назад. Сьюзан Моска разместила в блоге Google для веб-мастеров в 2008 году :

Давайте уложим это раз и навсегда, ребята: нет такого понятия, как «штраф за дублирование контента». По крайней мере, не так, как большинство людей подразумевают, когда говорят это.

Вы можете помочь своим коллегам-вебмастерам, не увековечивая миф о штрафах за дублирование контента!

Извини, мы подвели тебя, Сьюзен.

Что такое дублированный контент?

По данным Google :

Дублированный контент обычно относится к существенным блокам контента внутри или между доменами, которые либо полностью совпадают с другим контентом, либо заметно схожи. Главным образом, это не обманчиво по происхождению.

Люди ошибочно принимают дублированный контент за то, как Google его обрабатывает. Действительно, дубликаты просто фильтруются в результатах поиска. Вы можете убедиться в этом сами, добавив & filter = 0 в конец URL и удалив фильтрацию.

Добавление & filter = 0 в конец URL-адреса страницы в поиске «raleigh seo meetup» покажет мне одну и ту же страницу дважды. Я не говорю, что Meetup проделал хорошую работу с этим, поскольку они фактически указывают на то, что обе версии (в данном случае HTTP и HTTPS) являются правильными в использовании канонических тегов, но я думаю, что это показывает, что одна и та же страница (или аналогичные страницы) фактически индексируются, и показывается только наиболее релевантное. Дело не в том, что страница обязательно конкурирует или наносит какой-либо вред самому сайту.

Сколько в Интернете дублируется?

По словам Мэтта Каттса, От 25 до 30 процентов Интернета - дублированный контент , Недавнее исследование, проведенное Raven Tools на основе данных их инструмента аудита сайта, показало аналогичный результат: 29 процентов страниц имели дублирующийся контент ,

Что думают Google по поводу дублированного контента?

Многие замечательные посты были опубликованы Googlers. Я собираюсь дать вам краткое изложение лучших частей, но я также рекомендую прочитать посты.

  • Дублированный контент не приводит к наказанию вашего сайта.
  • Гуглеры знают, что пользователи хотят разнообразить результаты поиска, а не одну и ту же статью снова и снова, поэтому они решили объединить и показать только одну версию.
  • Google на самом деле разработал алгоритмы, чтобы предотвратить влияние дублирующего контента на веб-мастеров. Эти алгоритмы группируют различные версии в кластер, отображается «лучший» URL в кластере, и они фактически объединяют различные сигналы (например, ссылки) со страниц в этом кластере на отображаемый. Они даже дошли до поговорка «Если вы не хотите беспокоиться о сортировке дубликатов на вашем сайте, вы можете позволить нам беспокоиться об этом».
  • Дублированный контент не является основанием для действий, если он не предназначен для манипулирования результатами поиска.
  • Самое худшее, что может случиться при такой фильтрации, - это то, что менее желательная версия страницы будет отображаться в результатах поиска.
  • Google пытается определить первоначальный источник контента и отобразить его.
  • Если кто-то копирует ваш контент без разрешения, вы можете запросить его удаление подача запроса в соответствии с законом об авторском праве цифрового тысячелетия.
  • Не блокируйте доступ к дублированному контенту. Если они не могут сканировать все версии, они не могут объединить сигналы.

Источники:

Ловко иметь дело с дублированным контентом
Дублированный контент из-за скребков
Google, дублированный контент, вызванный параметрами URL, и вы
Встреча на высшем уровне с дублированием контента в SMX Advanced
Узнайте влияние дубликатов URL
Дублированный контент (Справка консоли поиска)

Причины дублирования контента

  • HTTP и HTTPS
  • www и не www
  • Параметры и граненая навигация
  • Идентификаторы сессии
  • Конечные косые черты
  • Индексные страницы
  • Альтернативные версии страницы, такие как m. или AMP страниц или распечатать
  • Среды разработки / хостинга
  • пагинация
  • Скреперы
  • Страновые / языковые версии

Решения для дублирования контента

Решение будет зависеть от конкретной ситуации:

  • Ничего не делайте и надеюсь, что Google все сделает правильно Хотя я бы не рекомендовал этот курс действий, вы, возможно, уже читали, что Google будет кластеризовать страницы и объединять сигналы, эффективно обрабатывая проблемы с дублирующимся контентом для вас.
  • Канонические метки. Эти теги используются для объединения сигналов и выбора предпочтительной версии. Моя любимая мозоль, когда на сайте правильно установлены канонические теги, и я вижу аудит, который говорит, что есть проблемы с дублированием контента. Это не проблема в этот момент, так что не говорите, что это так.
  • 301 перенаправляет. Это предотвратит большинство проблем с дублированием страниц, поскольку некоторые альтернативные версии не будут отображаться.
  • Скажите Google, как обрабатывать параметры URL. Их настройка сообщает Google, что на самом деле делают параметры, вместо того, чтобы позволить им попытаться выяснить это.
  • Rel =»альтернативный». Используется для консолидации альтернативных версий страницы, таких как мобильные или страницы разных стран / языков. В частности, для страны / языка hreflang используется для отображения правильной страницы страны / языка в результатах поиска. Несколько месяцев назад Google Джон Мюллер , отвечая на вопрос в видеовстрече для веб-мастеров сказал, что исправление hreflang не повысит рейтинг, а только поможет показать правильную версию. Вероятно, это связано с тем, что Google уже определил альтернативные версии и объединил сигналы для разных страниц.
  • Rel = ”prev” и rel = ”next”. Используется для нумерации страниц.
  • Следуйте рекомендациям синдикации ,

TL; DR

Есть некоторые вещи, которые на самом деле могут вызвать проблемы, такие как очистка / спам, но по большей части проблемы будут вызваны самими веб-сайтами. Не запрещайте в robots.txt, не делайте nofollow, noindex, не канонизируйте страницы, предназначенные для длинных хвостов, и страницы обзорного типа, но используйте упомянутые выше сигналы для решения ваших конкретных проблем, чтобы указать, как вы хочу, чтобы содержимое было обработано. Проверять, выписываться Раздел справки Google по дублированному контенту ,

Мифы о штрафах за дублированный контент должны умереть. Аудитам, инструментам и недоразумениям нужна правильная информация, иначе этот миф может существовать еще 10 лет. Существует множество способов объединить сигналы на нескольких страницах, и даже если вы их не используете, Google попытается объединить сигналы для вас.

Мнения, выраженные в этой статье, принадлежат автору гостя и не обязательно относятся к Search Engine Land. Штатные авторы перечислены Вот ,


Об авторе

Что такое дублированный контент?
Сколько в Интернете дублируется?
Что думают Google по поводу дублированного контента?
Что такое дублированный контент?
Сколько в Интернете дублируется?