«

»

Ноя 20 2014

Файл robots.txt — что за зверь?

Как составить robots.txtДобрый день, уважаемые посетители и читатели. Я рад снова видеть вас на страницах блога boqdanov.ru. Речь сегодня пойдет о том, как составить правильный robots.txt. Каждый день сотни поисковых роботов (еще их называют пауками, ботами) бороздят просторы интернета, заходят на все веб-ресурсы, сканируют и забирают в индекс новую информацию, чтобы в дальнейшем показать ее в результатах поиска. Ваш сайт в этом отношении тоже не исключение. Это могут быть роботы Яндекса или Гула, а могут спам — боты, которые пытаются найти адреса электронной почты, чтобы использовать для рассылки спам — писем. Чтобы показать поисковым системам, в какие каталоги вашего сайта можно ходить, а в какие нет или закрыть от спам ботов важную информацию, используют файл роботс.тхт.

Что такое robots.txt?

Robots.txt (протокол исключения роботов) — представляет из себя обычный текстовый файл, в котором прописаны указания для поисковых роботов, какие разделы вашего сайта можно индексировать, а какие нет. Верите или нет, это один из самых важных файлов с точки зрения SEO. Например, вы не хотите чтобы поисковые системы индексировали каталог W- admin, который в основном предназначен для внутреннего использования и не несет какой-либо информации для поискового продвижения.

Файл роботс.тхт размещается в корневом каталоге на вашем сервере, это там, где находятся все файлы и папки сайта. Файл обязательно должен быть назван robots.txt, в противном случае он просто не будет работать. Набрав в адресной строке «Название вашего сайта/ robots.txt», можно увидеть, как настроен этот файл. Если при переходе выдает 404 ошибку, это значит, что файл настроен неправильно или его вообще нет.

Как работает robots.txt?

Когда поисковый робот посещает ваш сайт, он в первую очередь ищет файл роботс.тхт  и воспринимает его как инструкцию.

Чем полезен файл robots.txt?

Important!

  • Если вы хотите чтобы поисковые системы игнорировали любые дублированные страницы сайта.
  • Если вы хотите чтобы поисковики не индексировали определенные области сайта или весь сайт в целом.
  • Если вы хотите чтобы роботы не индексировали определенные файлы на вашем сайте (изображения, PDF и т.д.).
  • Если вы хотите сообщить поисковым ботам где расположена карта сайта (sitemap.xml).

 

 

Создание файла robots.txt.

Pоботс.тхт  для WordPress создается за пару шагов. С помощью текстового редактора Notepad ++ создайте пустой документ и при сохранении дайте ему имя robots.txt. Далее с помощью ftp-клиента, соединитесь со своим хостингом и поместите данный файл в корень вашего сайта. Если вы используете поддомены, то файл создается для каждого отдельно.

Настройка файла robots.txt.

Разберем настройку на примере моего файла и узнаете почему я собираюсь отредактировать его.Правильный роботс.тхт

Каждая запись файла начинается с User-Agent, которая обозначает, для какого поискового «паука» выставлены правила. Звездочка, которая ставится далее (*) означает, что правила выставлены для всех поисковых ботов.  Для Яндекса принято указывать отдельный набор правил, (User-agent: Yandex). Потому что только для Яндекса указывается расположение карты сайта и зеркало сайта. Далее с каждой строчки выставляется запрет (Disallow:)  или разрешение  (Allow: ) для индексации областей сайта. Например:

Notice

Запретить Яндексу сканировать каталог wp-admin вашего сайта.

robots.txt-0

 

Notice

Разрешить все к индексации.
robots.txt-1

Или

robots.txt-2


Notice

Запретить индексацию сайта.

robots.txt-3

 

Notice

Запрет индексации определенной папки.

robots.txt-4

Думаю понятно. Едим дальше.

Что включить в файл robots.txt?

Здесь каждый решает сам, какую область сайта закрывать от индексации.  Однозначного ответа нет. Я, частенько гуляя по сайтам и блогам, интересуюсь файлом роботс.тхт. У всех свой правильно настроенный протокол. Тут главное одно, убедиться, что ничего не мешает поисковым системам индексировать основное содержимое вашего сайта.  И помните, этот файл только консультирует ботов что индексировать, а что нет. Не все роботы будут соблюдать эти инструкции.

Ошибки при использовании роботс.тхт.

Error!

  • Если вы впервые настраиваете файл robots.txt, то могли допустить ряд ошибок.
  • Полностью запретили ваш сайт к индексации. Когда вы ставите Disallow: / по ошибке, то вы запрещаете паукам индексировать сайт. Робот приходит, видит красный свет и уходит. Это приводит к тому, что сайт мало того что не обновляется, так еще и со временем полностью выпадает из выдачи.
  • Не всегда запрещает к индексации. Как я уже упомянул выше, для некоторых роботов этот файл уже не преграда, дубликаты страниц все ровно залетают в выдачу.
  • Вся ценная информация выставляется напоказ. Бытует мнение, что любой желающий может открыть yoursite.com/robots.txt и посмотреть всю информацию о ваших файлах. Такой информацией могут заинтересоваться хакеры.
  • Размещение нескольких каталогов в одну строчку. Если в одну линию вы выставляете несколько каталогов на запрет, то файл robots.txt работать должным образом не будет. Одна линия — один каталог.

Как проверить robots.txt?

После того как вы закончили настройку файла, его естественно нужно проверить.

Проверять будем  с помощью панели вебмастера Гугл и Яндекс.

Проверка через Яндекс. Заходим сюда , указываем имя сайта и нажимаем на кнопку «Загрузить robots.txt с сайта».  После загрузки, внизу, после слов «Список URL» жмем «Добавить». В открывшуюся форму вводим url адреса, которые вы закрыли от индексации и нажимаем кнопку «Проверить». Смотрим, разрешен или запрещен файл правилами.Яндекс проверка

Проверка через Google. Находясь в панели вебмастера, идем по пути: «Сканирование — Инструмент проверки файла robots.txt». На этой странице сразу подгружается ваш протокол, который можно редактировать. Проверка на запрет или разрешение проводится так же, как в Яндексе.

Гугл проверка

Что будет, если у вас нет файла роботс.тхт?

Без этого файла поисковые системы будут свободно гулять по всем каталогам вашего сайта, сканировать и индексировать все, что там найдут.

Почему я собираюсь отредактировать файл robots.txt?

Недавно я изучил курс Александра Борисова "Как стать блогером — тысячником 3.0". Кстати, делаю хорошую скидку при покупке по моей ссылке. Обращайтесь. Так вот, Александр предлагает свой вариант настройки robots.txt. Вот она:

robots.txt

Разрешить все и указать расположение карты сайта — это лучший вариант для большинства веб- сайтов, что позволяет всем поисковым системам сканировать и индексировать все данные. Запрет ставит только на основные каталоги:

robots.txt-6

Выше я говорил, что некоторые поисковики игнорируют правила, прописанные в файле роботс.тхт. Одним из таких поисковиков является Google. Хоть закрывай, хоть не закрывай, он все равно сканирует и забирает на индексацию всю информацию. Так появляются различного рода дубли, которые могут в конечном итоге привести к гибели вашего ресурса. После изучения курса, я сразу не стал настраивать файл robots.txt.

Действительно в выдачу попали дубли некоторых страниц, хотя я изначально правильно настраивал протокол запрета для роботов. Теперь в скором порядке буду настраивать файл. В этом курсе Александр все подробно рассказывает, как, что, куда нажимать для правильной настройки. Все секреты выдавать не буду. Скажу одно — это действительно работает. Если вы еще не приобрели курс, то советую в ближайшее время сделать это.

Вы просто не можете назвать себя СЕО специалистом или интернет-маркетологом, если еще не знаете, что такое файл роботс.тхт. Он определяет, как поисковые системы видят ваш сайт. Когда настраиваете файл robots. txt, отдавайте себе отчет, что именно делаете. В противном случае ваш сайт может просто исчезнуть из интернета, а вы даже не будете знать почему. Если вы не знаете, как составить правильный robots.txt, то обратитесь за помощью к специалисту. На этом у меня все. Удачи в делах!

С уважением, Богданов Антон!

 

 

Интересные материалы по теме: