«

»

Ноя 20 2014

Файл robots.txt — что за зверь?

Как составить robots.txtДобрый день, уважаемые посетители и читатели. Я рад снова видеть вас на страницах блога boqdanov.ru. Речь сегодня пойдет о том, как составить правильный robots.txt. Каждый день сотни поисковых роботов (еще их называют пауками, ботами) бороздят просторы интернета, заходят на все веб-ресурсы, сканируют и забирают в индекс новую информацию, чтобы в дальнейшем показать ее в результатах поиска. Ваш сайт в этом отношении тоже не исключение. Это могут быть роботы Яндекса или Гула, а могут спам — боты, которые пытаются найти адреса электронной почты, чтобы использовать для рассылки спам — писем. Чтобы показать поисковым системам, в какие каталоги вашего сайта можно ходить, а в какие нет или закрыть от спам ботов важную информацию, используют файл роботс.тхт.

Что такое robots.txt?

Robots.txt (протокол исключения роботов) — представляет из себя обычный текстовый файл, в котором прописаны указания для поисковых роботов, какие разделы вашего сайта можно индексировать, а какие нет. Верите или нет, это один из самых важных файлов с точки зрения SEO. Например, вы не хотите чтобы поисковые системы индексировали каталог W- admin, который в основном предназначен для внутреннего использования и не несет какой-либо информации для поискового продвижения.

Файл роботс.тхт размещается в корневом каталоге на вашем сервере, это там, где находятся все файлы и папки сайта. Файл обязательно должен быть назван robots.txt, в противном случае он просто не будет работать. Набрав в адресной строке «Название вашего сайта/ robots.txt», можно увидеть, как настроен этот файл. Если при переходе выдает 404 ошибку, это значит, что файл настроен неправильно или его вообще нет.

Как работает robots.txt?

Когда поисковый робот посещает ваш сайт, он в первую очередь ищет файл роботс.тхт  и воспринимает его как инструкцию.

Чем полезен файл robots.txt?

Important!

  • Если вы хотите чтобы поисковые системы игнорировали любые дублированные страницы сайта.
  • Если вы хотите чтобы поисковики не индексировали определенные области сайта или весь сайт в целом.
  • Если вы хотите чтобы роботы не индексировали определенные файлы на вашем сайте (изображения, PDF и т.д.).
  • Если вы хотите сообщить поисковым ботам где расположена карта сайта (sitemap.xml).

 

 

Создание файла robots.txt.

Pоботс.тхт  для WordPress создается за пару шагов. С помощью текстового редактора Notepad ++ создайте пустой документ и при сохранении дайте ему имя robots.txt. Далее с помощью ftp-клиента, соединитесь со своим хостингом и поместите данный файл в корень вашего сайта. Если вы используете поддомены, то файл создается для каждого отдельно.

Настройка файла robots.txt.

Разберем настройку на примере моего файла и узнаете почему я собираюсь отредактировать его.Правильный роботс.тхт

Каждая запись файла начинается с User-Agent, которая обозначает, для какого поискового «паука» выставлены правила. Звездочка, которая ставится далее (*) означает, что правила выставлены для всех поисковых ботов.  Для Яндекса принято указывать отдельный набор правил, (User-agent: Yandex). Потому что только для Яндекса указывается расположение карты сайта и зеркало сайта. Далее с каждой строчки выставляется запрет (Disallow:)  или разрешение  (Allow: ) для индексации областей сайта. Например:

Notice

Запретить Яндексу сканировать каталог wp-admin вашего сайта.

robots.txt-0

 

Notice

Разрешить все к индексации.
robots.txt-1

Или

robots.txt-2


Notice

Запретить индексацию сайта.

robots.txt-3

 

Notice

Запрет индексации определенной папки.

robots.txt-4

Думаю понятно. Едим дальше.

Что включить в файл robots.txt?

Здесь каждый решает сам, какую область сайта закрывать от индексации.  Однозначного ответа нет. Я, частенько гуляя по сайтам и блогам, интересуюсь файлом роботс.тхт. У всех свой правильно настроенный протокол. Тут главное одно, убедиться, что ничего не мешает поисковым системам индексировать основное содержимое вашего сайта.  И помните, этот файл только консультирует ботов что индексировать, а что нет. Не все роботы будут соблюдать эти инструкции.

Ошибки при использовании роботс.тхт.

Error!

  • Если вы впервые настраиваете файл robots.txt, то могли допустить ряд ошибок.
  • Полностью запретили ваш сайт к индексации. Когда вы ставите Disallow: / по ошибке, то вы запрещаете паукам индексировать сайт. Робот приходит, видит красный свет и уходит. Это приводит к тому, что сайт мало того что не обновляется, так еще и со временем полностью выпадает из выдачи.
  • Не всегда запрещает к индексации. Как я уже упомянул выше, для некоторых роботов этот файл уже не преграда, дубликаты страниц все ровно залетают в выдачу.
  • Вся ценная информация выставляется напоказ. Бытует мнение, что любой желающий может открыть yoursite.com/robots.txt и посмотреть всю информацию о ваших файлах. Такой информацией могут заинтересоваться хакеры.
  • Размещение нескольких каталогов в одну строчку. Если в одну линию вы выставляете несколько каталогов на запрет, то файл robots.txt работать должным образом не будет. Одна линия — один каталог.

Как проверить robots.txt?

После того как вы закончили настройку файла, его естественно нужно проверить.

Проверять будем  с помощью панели вебмастера Гугл и Яндекс.

Проверка через Яндекс. Заходим сюда , указываем имя сайта и нажимаем на кнопку «Загрузить robots.txt с сайта».  После загрузки, внизу, после слов «Список URL» жмем «Добавить». В открывшуюся форму вводим url адреса, которые вы закрыли от индексации и нажимаем кнопку «Проверить». Смотрим, разрешен или запрещен файл правилами.Яндекс проверка

Проверка через Google. Находясь в панели вебмастера, идем по пути: «Сканирование — Инструмент проверки файла robots.txt». На этой странице сразу подгружается ваш протокол, который можно редактировать. Проверка на запрет или разрешение проводится так же, как в Яндексе.

Гугл проверка

Что будет, если у вас нет файла роботс.тхт?

Без этого файла поисковые системы будут свободно гулять по всем каталогам вашего сайта, сканировать и индексировать все, что там найдут.

Почему я собираюсь отредактировать файл robots.txt?

Недавно я изучил курс Александра Борисова "Как стать блогером — тысячником 3.0". Кстати, делаю хорошую скидку при покупке по моей ссылке. Обращайтесь. Так вот, Александр предлагает свой вариант настройки robots.txt. Вот она:

robots.txt

Разрешить все и указать расположение карты сайта — это лучший вариант для большинства веб- сайтов, что позволяет всем поисковым системам сканировать и индексировать все данные. Запрет ставит только на основные каталоги:

robots.txt-6

Выше я говорил, что некоторые поисковики игнорируют правила, прописанные в файле роботс.тхт. Одним из таких поисковиков является Google. Хоть закрывай, хоть не закрывай, он все равно сканирует и забирает на индексацию всю информацию. Так появляются различного рода дубли, которые могут в конечном итоге привести к гибели вашего ресурса. После изучения курса, я сразу не стал настраивать файл robots.txt.

Действительно в выдачу попали дубли некоторых страниц, хотя я изначально правильно настраивал протокол запрета для роботов. Теперь в скором порядке буду настраивать файл. В этом курсе Александр все подробно рассказывает, как, что, куда нажимать для правильной настройки. Все секреты выдавать не буду. Скажу одно — это действительно работает. Если вы еще не приобрели курс, то советую в ближайшее время сделать это.

Вы просто не можете назвать себя СЕО специалистом или интернет-маркетологом, если еще не знаете, что такое файл роботс.тхт. Он определяет, как поисковые системы видят ваш сайт. Когда настраиваете файл robots. txt, отдавайте себе отчет, что именно делаете. В противном случае ваш сайт может просто исчезнуть из интернета, а вы даже не будете знать почему. Если вы не знаете, как составить правильный robots.txt, то обратитесь за помощью к специалисту. На этом у меня все. Удачи в делах!

С уважением, Богданов Антон!

 

 

Интересные материалы по теме:

13 комментариев

Перейти полю для комментария

  1. Юрий Йосифович

    История еще та... Я также смотрел КСБТ3. Прикольный курс. Что же касается робот тхт — то по моему мнению лучше оставить его по умолчанию.

    1. Антон Богданов

      Привет, Юр. После изучения курса я месяца не менял «robots.txt». Яндекс вообще молодец, весь мусор выкидывает. Гугл забирает в дополнительную выдачу «/feed». По всем остальным дублям – норма. Решил поменять, посмотрим в дальнейшем на ситуацию.

      1. Юрий Йосифович

        Антон, мудреная штука эти поисковики. Ты только посмотри сколько исходящих ссылок у меня с главной, на сайте если оставляю ссылки — также не скрываю их мудреными способами. Робот ТХТ также удалил (посмотреть что будет с этого) — максимум что случилось — трастовость потерял. Трафик какой был — такой остался. Даже если прям настрою как положено Робот ТХТ — всеравно это не даст прироста трафика.

        Вывод для себя я сделал — нужно определенно собирать ссылочный профиль (самому активничать везде где только возможно, чтобы люди начали упоминать имя, назву блога и так далее — не обьязательно в ссылочной форме), работать над качественным контентом (в моем понимании 10 000 знаков + 10 картинок на это количество знаков), и конечно же заморачиваться ПФ (конкурсы, конркурсы и еще раз конкурсы).

        А все эти дубли, настройки для роботов, СЕО-шмео — ерунда все это. Классный сайт если сделаешь, когда приятно будет на нем находиться — несколько недель в соц сетях посидишь и будешь получать трафик оттуда (теми же конкурсами привлечешь) — так что выбор собственно каждый делает сам. Просто вот Борисов так все у себя подчистил — молодцом. И что из этого? Как трафик бы, так и есть — сезонные увеличения и спады как были — так и остались. Более того, работает же он над контентом серьезно, столько комментов люди оставляют — и почему же планка с каждым днем резко не поднимается?

        Файл роботс.тхт — это максимум рекомендация. Увы, кроме гугла и яндекса есть еще другие поисковики (яндекс нельзя считать вообще даже одним из мировых поисковиков — в десятку по рейтингам не входит) — что ж так все им заморочились, и не стараются напрягаться для продвижения в других поисковиках (а ведь роботсы под них также можно настраивать...).

        Вот такой словесный набор получился...

  2. Николай+Кудрявцев

    Не ерунда Юра если траф. с поиска нужен

    1. Юрий Йосифович

      Вернемся в изначальную точку — робот.тхт у меня нет. С какого перепугу поисковики дают 200-300 хостов в сутки на мой блог?

  3. Азик

    Антон, помню, у меня роботс был в порядке, хотя дублей все равно не было!) Сам Борисов проверял!)

    Но в Гугле у меня многовато страниц почему-то!)

    1. Антон Богданов

      Азик у тебя 464 страницы в основной выдаче и 560 в дополнительной. Дубли у тебя в основном «trackback» и «feed». У меня тоже «feed» лезут в выдачу. Сейчас поменял robots.txt и поставил редирект. Буду смотреть, что получится. У тебя в robots.txt прописано Disallow: */trackback, а я вот так закрывал

      Disallow: /trackback

      Disallow: */trackback

      Disallow: */*/trackback

      и дублей не было.

      А с «feed» не знаю, что делать.

      Думаю, нужно время, чтобы все дубли ушли.

      1. Азик

        Исправил!!! Теперь буду ждать!!!))

        1. Антон Богданов

          Азик, а ты изучал курс Борисова?

          1. Азик

            Нет! Нет ни времени, ни денег на эти курсы!)

          2. Антон Богданов

            Сейчас в твоем robots.txt прописаны правила для Яндекса (User-agent: Yandex). А для остальных поисковиков, в том числе и Гугл, у тебя все открыто для индексации. Гугл приходит и все сканирует и забирает все в выдачу. Если в файле .htaccess не ставил редиректы( например, RewriteRule (.+)/trackback /$1 [R=301,L]), то лучше указать следующий файл robots.txt:

            User-agent: *

            Disallow: /wp-admin

            Disallow: /wp-includes

            Disallow: /wp-content/plugins

            Disallow: /wp-content/cache

            Disallow: /wp-content/themes

            Disallow: /trackback

            Disallow: */trackback

            Disallow: */*/trackback

            Disallow: */*/feed/*/

            Disallow: */feed

            Disallow: */comments

            Disallow: /comments

            Disallow: /*?*

            Disallow: /*?

            Disallow: /tag

            User-agent: Yandex

            Disallow: /wp-admin

            Disallow: /wp-includes

            Disallow: /wp-content/plugins

            Disallow: /wp-content/cache

            Disallow: /wp-content/themes

            Disallow: /trackback

            Disallow: */trackback

            Disallow: */*/trackback

            Disallow: */*/feed/*/

            Disallow: */feed

            Disallow: */comments

            Disallow: /comments

            Disallow: /*?*

            Disallow: /*?

            Disallow: /tag

            Host: свой сайт

            Sitemap:

          3. Азик

            Погоди, а как же

            Disallow: /*?*

            Disallow: /*?

            они же создают дубли, Борисов писал в статье!

          4. Антон Богданов

            Этим правилом Disallow: /*?* и Disallow: /*? ты закрываешь от индексации дубли типа «/?p=591». У тебя же проблема с этими дублями «trackback» и «feed». Борисов в курсе предлагает вот такой вариант. Прописываем вот этот robots.txt

            User-agent: *

            Disallow: /wp-includes

            Disallow: /wp-feed

            Disallow: /wp-content/plugins

            Disallow: /wp-content/cache

            Disallow: /wp-content/themes

            Host: site.ru

            Sitemap:

            User-agent: Googlebot-Image

            Allow: /wp-content/uploads/

            User-agent: YandexImages

            Allow: /wp-content/uploads/

            А в файле .htaccess указываем:

            # BEGIN WordPress

            RewriteEngine On

            RewriteBase /

            RewriteRule (.+)/feed /$1 [R=301,L]

            RewriteRule (.+)/comment-page /$1 [R=301,L]

            RewriteRule (.+)/trackback /$1 [R=301,L]

            RewriteRule (.+)/comments /$1 [R=301,L]

            RewriteRule (.+)/attachment /$1 [R=301,L]

            RewriteCond %{QUERY_STRING} ^replytocom= [NC]

            RewriteRule (.*) $1? [R=301,L]

            RewriteCond %{QUERY_STRING} ^attachment_id= [NC]

            RewriteRule (.*) $1? [R=301,L]

            RewriteBase /

            RewriteRule ^index\.php$ — [L]

            RewriteCond %{REQUEST_FILENAME} !-f

            RewriteCond %{REQUEST_FILENAME} !-d

            RewriteRule . /index.php [L]

            # END WordPress

            Все открыть и поставить редирект.

            Я сделал по его методу, теперь буду смотреть уходят дубли «feed» или нет. Если все будет по прежнему, тогда вернусь к изначальному варианту и буду экпериментировать с дублями «feed» Попробуй поэкспериментируй.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: