robots.txt

  1. Если у вас нет robots.txt
  2. Не используйте robots.txt для предотвращения индексации!
  3. Совет!
  4. пример
  5. Пример сопоставления с образцом
  6. Реальные примеры:
  7. Список распространенных пауков для использования с robots.txt
  8. Мой опыт работы в качестве SEO-консультанта

Файл robots.txt представляет собой простой текстовый файл в корневом каталоге вашего домена, www.dindomän.se / robots.txt, в котором содержатся инструкции для поисковых систем о том, как создавать шпиндели.

Если у вас нет robots.txt

  • Все поисковые системы и другие приложения, которые работают в Интернете, могут свободно просматривать и индексировать весь контент на вашем сайте.
  • Многие люди запрашивают этот файл, и если он этого не делает, это может негативно повлиять на производительность вашего сайта.

Всегда рекомендуется иметь такой файл, даже если он пустой (разрешить все), потому что поисковые системы будут запрашивать его.

Все основные поисковые системы (Google, Yahoo, Live) и, возможно, большинство небольших из них согласовали общий стандарт и следуют инструкциям, которые содержатся в вашем файле robots.txt.

Не используйте robots.txt для предотвращения индексации!

Сканирование и индексирование не совпадают. Если к URL-адресу можно получить доступ по внутренней или внешней ссылке, он, безусловно, будет проиндексирован, даже если он не является шпинделем. Facebook получил миллионы секретных URL-адресов, содержащих адреса электронной почты, проиндексированные в Google в 2012 году, которые были заблокированы robots.txt ( информация ).

Вместо этого используйте следующее для предотвращения индексации:

  • Meta noindex
  • Заголовок X-Robots-Tag HTTP. ( информация )
  • Реализуйте htpasswd на сервере.
  • Блокировать в противном случае.

Совет!

Джим Вестергрен разработал   Доменные Статистика   , потрясающий сервис в SEO, где вы можете увидеть входящие ссылки и многое другое Джим Вестергрен разработал Доменные Статистика , потрясающий сервис в SEO, где вы можете увидеть входящие ссылки и многое другое.

пример

Заблокируйте весь сайт со всех поисковых систем:

Пользовательский агент: * Disallow: /

Темп блокировки папки:

Пользовательский агент: * Disallow: / temp /

Заблокировать все URL, начиная с учетной записи :

Пользовательский агент: * Disallow: / account

Комментарии помечены вводным #:

# Здесь приходит комментарий

Блокировать только определенные части от Google:

Пользовательский агент: Googlebot Disallow: / temp / Disallow: / ненужный / нежелательная директория / Disallow: /privat_file.html

Заблокируйте и удалите все изображения из Поиска картинок Google:

Пользовательский агент: Googlebot-Image Disallow: /

Заставьте роботов ждать 10 секунд между запросами в их пауке:

Пользовательский агент: * Задержка сканирования: 10

Утвердите определенный файл в неутвержденной папке:

Пользовательский агент: * Disallow: / mapp1 / Allow: /mapp1/fil.html

Заблокировать всех роботов, кроме Google:

Пользовательский агент: * Disallow: / User-agent: Googlebot Разрешить: /

Покажите, где существует ваш XML-сайт (вы можете указать несколько):

Карта сайта: http: //www.din-domain.com/sitemap.xml Карта сайта: http: //www.din-domain.com/sitemap2.xml

Пример сопоставления с образцом

Звездочка (*) соответствует последовательности символов, а знак доллара ($) обозначает конец URL-адреса.

Заблокировать все каталоги, начиная с private :

Пользователь-агент: * Disallow: / private * /

Заблокируйте все URL в вашем домене, заканчивающиеся на .gif:

Пользовательский агент: * Disallow: /*.gif$

Заблокировать все URL, содержащие знак вопроса (?):

Агент пользователя: * Disallow: / *?

Заблокировать все URL, содержащие sessionid, но разрешить /hur-du-fix-sessionid.html :

Пользовательский агент: * Разрешить: /hur-du-fixar-sessionid.html Disallow: / * sessionid

Больше примеров:

# Относится ко всем пользовательским агентам: * # Блокировать все, что находится в папке учетной записи, но не URL / account / Disallow: / account / * # Блокировать все URL, начиная с / checkout Disallow: / checkout

Реальные примеры:

Пример для WordPress

Пользовательский агент: * Disallow: / cgi-bin / Disallow: / wp-admin / Disallow: / wp-includes / Disallow: / wp-content / plugins / Disallow: / wp-content / cache / Disallow: / wp-content / themes / Disallow: / trackback / Disallow: / feed / Disallow: * / trackback / Disallow: * / feed / # Всегда следите за тем, чтобы CSS и Javascript не блокировались: Разрешить: /*.css$ Разрешить: /*.js $ Sitemap: http://www.example.com/sitemap.xml

Список распространенных пауков для использования с robots.txt

  • Googlebot - главный бот Google для своей поисковой системы
  • Slurp - Yahoo!
  • msnbot - Live Search
  • Media Partners - Google - бот от Google, используемый для AdSense
  • Googlebot Image - бот Google, используемый для поиска картинок Google

Несколько советов и предупреждений

  • Вы не должны блокировать CSS и Javascript, потому что тогда робот Googlebot не сможет правильно отобразить страницу, что может привести к наказанию Panda вашим сайтом.
  • Не используйте robots.txt для блокировки секретных сайтов, потому что любой, у кого есть веб-браузер, может увидеть ваш robots.txt, который открыт для всех, и затем может найти места, которые вы хотите сохранить в секрете. Если это так, используйте его META роботы или заблокировать на уровне сервера, как с .htaccess ,
  • Обязательно включите / закройте папки, которые вы хотите заблокировать, иначе вы заблокируете все файлы, начинающиеся с этих букв. Например, / temp / folder блокирует temp, в то время как / temp блокирует все файлы, которые начинаются с temp, такие как template.php .
  • Существует разница между заглавными и строчными буквами.
  • Освещенные днища и пауки, такие как те, которые ищут адреса электронной почты для спама, игнорируют ваш robots.txt.
  • Если вы используете сложные правила, например, для сопоставления с образцом, я рекомендую вам протестировать файл robots.txt в Инструменты Google для веб-мастеров в разделе Crawl -> Blocked URLs, чтобы вы не ошиблись.
  • Страницы результатов поиска из внутреннего поиска почти всегда должны быть заблокированы с помощью robots.txt

субдоменов

Пример файла example.com/robots.txt недопустим для blog.example.com/robots.txt. Каждый поддомен должен иметь свой собственный файл robots.txt.

Мой опыт работы в качестве SEO-консультанта

Наиболее распространенные ошибки, которые я видел за годы работы консультантом по SEO:

  • Нет robots.txt
  • Путь к карте сайта XML отсутствует.
  • Вещи, которые должны быть заблокированы, не блокируются.