Как поисковые системы обрабатывают мета-теги Robots и Robots.txt

О теге Meta robots и robots.txt все еще существует множество вопросов, несмотря на популярность этих терминов среди специалистов по поисковой оптимизации. В этой серии из двух частей мы попытаемся ответить на эти вопросы с научной точки зрения, выполняя эксперимент и собирая данные.

Это не простые вопросы. Например, ведут ли себя другие поисковые системы так же, как Google, при сканировании страницы с тегом <meta name = "robots" content = "noindex, nofollow">? Другими словами, они не индексируют это? И идет ли робот Googlebot по гиперссылке на страницу, заблокированную robots.txt?

Это лишь некоторые из дразнящих вопросов, для ответа на которые может потребоваться лишь «здравый смысл», но на самом деле они могут не соответствовать действительности. Мнения экспертов заставляют профессионалов думать как философы, поэтому, если кто-то спросит: «Есть ли вероятность проиндексировать страницу, заблокированную robots.txt?», Ответ здравого смысла - НЕТ… но так ли это? Это правда во всех сценариях? Иногда в факты трудно поверить, но это остается «фактом», а не просто мнением. Факты приходят из фактического тестирования.

Еще один сложный вопрос, на который можно ответить здравым смыслом, но который может не быть правдой, заключается в следующем: «Идет ли робот Googlebot по ссылке на странице <META NAME =" ROBOTS "CONTENT =" NOINDEX ">?" Ответ здравого смысла - нет, так как страница не будет проиндексирована Google. Опять же, это не было тщательно протестировано, чтобы определить, верно ли это во всех случаях, особенно с разными ботами поисковых систем.

Это цель этого учебника, состоящего из двух частей, чтобы вы знали, как боты поисковой системы в настоящее время ведут себя при различных условиях тега meta robots и robots.txt. Эти двое очень мощные инструменты для SEO и безопасности / конфиденциальности веб-контента. Они используются для предотвращения дублирования контента, дают некоторую подсказку о том, как роботы поисковых систем могут сканировать страницы, и предотвращают сканирование роботами поисковых систем конфиденциальных страниц, не подходящих для индексации или показа на страницах результатов поиска.

Подход к поиску ответов заключается в проведении контролируемого эксперимента для проверки поведения роботов поисковых систем.

{mospagebreak title = Цели исследования}

Целью исследования является изучение фактических ответов на следующие вопросы в трех основных поисковых системах, а именно в Google, Yahoo и Bing:

Иллюстрация 1 :

Ссылка на страницу 1 (домашняя страница) с атрибутом REL = ”NOFOLLOW” на страницу 2 (просматриваемая и индексируемая страница)

Вопрос 1 : три основных бота поисковой системы не сканируют и не индексируют страницу («Страница 2», как показано выше), на которую ссылается гиперссылка атрибута «rel = nofollow»?

Иллюстрация 2 :

Страница 1 (домашняя страница) ссылается на -> страницу 2 (тег с <meta name = "robots" content = "noindex">) -> ссылкой на страницу 3 (просматриваемая и индексируемая страница)

Вопрос 2 : Обрабатывают ли три основных робота поисковых систем ссылки на странице, которая содержит тег <meta name = "robots" content = "noindex"> и в конечном итоге индексирует «Страница 3»?

Вопрос 3 Используя иллюстрацию 2 выше, все ли основные поисковые системы сканируют и индексируют страницу 2?

Иллюстрация 3 :

Страница 1 (домашняя страница) ссылается на ——–> страницу 2 (тег с <meta name = "robots" content = "noindex, nofollow">) ссылается на ——> страницу 3 (просматриваемая и индексируемая страница)

Вопрос 4 : Обрабатывают ли боты основной поисковой системы ссылки на «Странице 2», которая включает тег <meta name = "robots" content = "noindex, nofollow">? Это похоже на приведенный выше вопрос, но включает в себя «nofollow» в теге.

Вопрос 5 : Используя иллюстрацию 3 выше, все ли основные поисковые системы сканируют и индексируют «страницу 3»?

Иллюстрация 4 :

Страница 1 (домашняя страница) ссылается на ——–> страницу 2 (эта страница заблокирована файлом robots.txt), затем ссылка на ——> страницу 3 (просматриваемая и индексируемая страница)

Вопрос 6 : Сканируются ли некоторые боты двигателя и индексируют «Страница 2»?

Вопрос 7 : Используя рисунок 4 выше, сканируют ли некоторые поисковые роботы и индексируют «Страница 3»?

{mospagebreak title = Методология исследования и экспериментальный план}

Домен, на котором будет проводиться эксперимент, - http://www.php-developer.org/; этот домен часто индексируется Google, в среднем сканируется 16 страниц в день. Высокая скорость сканирования желательна, так как результаты могут быть получены в более короткие сроки.

Чтобы максимально увеличить вероятность сканирования и индексации тестовых страниц роботами поисковых систем, настоятельно рекомендуется размещать ссылки как часть согласованного навигационного меню, особенно начиная с домашней страницы.

Чтобы ответить на семь вопросов выше, необходимо создать тестовые страницы (с использованием расширения .php по причинам, рассмотренным ниже) со следующей настройкой:

php по причинам, рассмотренным ниже) со следующей настройкой:

Реализация вышеуказанных тестовых страниц требует специальной системы отслеживания. Сценарий, используемый для обнаружения посещений поисковых роботов: Crawl Track »Сценарий веб-аналитики с открытым исходным кодом. Все коды отслеживания должны быть встроены в тестовые страницы. Эти коды отслеживания требуют, чтобы страницы использовали расширение .php для легкой интеграции.

Кроме того, чтобы предотвратить ложную тревогу спама от поисковых роботов, тестовые страницы должны быть заполнены полезным содержимым с целью обучения читателей и краткого ознакомления с экспериментом. Содержание уникально, и тестовые страницы должны также использовать уникальные и точные заголовки. Это гарантирует, что роботы поисковых систем будут видеть их как подлинные и важные URL, которые будут сканироваться и индексироваться.

Мы также не должны разрешать ссылки на эти страницы из других доменов или включать URL-адреса в карту сайта (как текстовую / html, так и XML-версию). Это обеспечит полную независимость страниц от других факторов сканирования / индексации, ЗА ИСКЛЮЧЕНИЕМ исключительно навигационной ссылки (см. Скриншот ниже; начиная с домашней страницы и размещая ее во всем меню навигации веб-сайта). Как и предполагалось в этом эксперименте, это будет единственным мотивационным фактором для поисковых роботов, посещающих тестовые страницы. Это устранит предубеждения.

В красной рамке ниже находятся навигационные ссылки на всех страницах http://www.php-developer.org/, указывающие на тестовые страницы, использованные в этом эксперименте. Существует четыре гиперссылки с использованием следующих URL-адресов и текста привязки:

Цель первой гиперссылки - ответить на наш первый вопрос.

Используемый текст привязки: ссылка, ссылка, эксперимент

Целевой URL: http://www.php-developer.org/Linkrelnofollow.php

Задача второй гиперссылки - ответить на второй и третий вопросы.

Используемый якорный текст: мета-роботы noindex tag

Целевой URL: http://www.php-developer.org/noindexexperiment.php

Текст привязки к внутренней гиперссылке: другая страница

Целевой URL (внутренняя вторая гиперссылка): http://www.php-developer.org/noindexlinktarget.php

Третья гиперссылка предназначена для ответа на наши четвертый и пятый вопросы.

Используемый текст привязки: тег Noindex Nofollow

Целевой URL: http://www.php-developer.org/noindexnofollow.php

Внутренний текст ссылки гиперссылки: страница

Целевой URL (внутренняя вторая гиперссылка): http://www.php-developer.org/noindexnofollowtarget.php

Четвертая гиперссылка предназначена для ответа на наши шестой и седьмой вопросы.

Используемый якорный текст: заблокирован роботами

Целевой URL: http://www.php-developer.org/blockedbyrobots.php

Внутренний текст ссылки гиперссылки: страница

Целевой URL (вторая внутренняя гиперссылка): http://www.php-developer.org/blockedrobotslink.php

Что касается четвертой гиперссылки, то перед тем, как тестовые страницы были загружены на тестовый сервер, файл robots.txt был сформулирован и тщательно протестирован с использованием инструмента анализа robots.txt в Инструментах Google для веб-мастеров. Только когда страница была надежно заблокирована, она была окончательно загружена; это предотвратит случайное индексирование ботов поисковой системы на четвертой тестовой странице гиперссылки из-за неправильного синтаксиса robots.txt.

{mospagebreak title = Стратегия реализации, получение правильных данных}

Теперь, когда тестовая страница полностью настроена, ей нужно больше месяца, чтобы полностью захватить результаты. Это связано с тем, что, хотя сайт сканируется часто, нам нужно выделить больше времени для других медленных сканеров поисковых систем.

Чтобы получить правильные данные, нам нужно как можно раньше определить различия между сканированием и индексированием. Сканирование - это когда поисковые системы действительно посещают страницу, чтобы получить контент; это будет обнаружено скриптом отслеживания Crawltrack, встроенным в страницы.

Различные сканеры поисковых систем используют разные имена пользовательских агентов, которые можно легко различить в отчете. Важно отметить правильный пользовательский агент для сбора правильной информации о сканировании. Вот список фактических имен пользовательских агентов основных ботов поисковой системы:

Поисковая система Google: http://www.google.com

Mozilla / 5.0 (совместимо; Googlebot / 2.1; + http: //www.google.com/bot.html)

Поисковая система Yahoo: http://www.yahoo.com

Mozilla / 5.0 (совместимо; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)

Mozilla / 5.0 (совместимо; Yahoo! Slurp / 3.0; http://help.yahoo.com/help/us/ysearch/slurp)

Поисковая система Bing: http://www.bing.com/

msnbot / 1.1 (+ http: //search.msn.com/msnbot.htm)

Индексирование - это когда просканированные страницы (страницы, извлеченные в процессе сканирования) фактически помещаются в индекс поисковой системы, готовые для отображения в любое время на страницах результатов поисковой системы, когда соответствующий документ соответствует этому документу.

Во второй части мы представим результаты этого теста.

Например, ведут ли себя другие поисковые системы так же, как Google, при сканировании страницы с тегом <meta name = "robots" content = "noindex, nofollow">?
Другими словами, они не индексируют это?
Txt?
Txt?
», Ответ здравого смысла - НЕТ… но так ли это?
Это правда во всех сценариях?