Важный файл robots.txt: как правильно его составить

ee7f81c334a3f51523e338d8c1350ff9.jpeg

Поисковые роботы индексируют всё, что находят. Даже админпанель с личной информацией. Robots.txt — это специальный файл для ботов с правилами, по которым они начинают работать с вашим сайтом. В этом файле вы и прописываете всё, что разрешаете или запрещаете им делать.

Важный файл robots.txt

Для чего нужен

Для того, чтобы ваш сайт быстрее индексировался, в поиск не попадали ненужные страницы или приватная информация. «Ненужные страницы» — это дубликаты товарных категорий, личная информация, формы отправки данных, страницы с результатами поиска и т.п. Robots.txt устанавливает строгие правила для поисковиков, если же эти правила не указать, то вся ваша информация окажется в сети и удалить её из архивов интернета будет практически нереально.

Где писать этот файл и где его располагать

Писать можно в любом удобном для вас редакторе — в обычном встроенном блокноте для Windows, NotePad или Word — не суть. Главное, чтобы этот файл был сохранён в текстовом формате, то есть с расширением .txt.

В нашей системе вставить инструкцию для поисковых ботов на сайт очень просто: выберите в левой панели управления сайтом раздел «Реклама/SEO → Управление robots.txt».

Управление robots.txt находится в разделе «Реклама/SEO»Управление robots.txt находится в разделе «Реклама/SEO»

И в открывшееся поле вы просто вставляете готовую инструкцию (с помощью функции «копировать — вставить»).

На нашем сервисе файл robots.txt автоматически генерируется системой. В большинстве случаев он полностью отвечает всем требованиям поисковых роботов и закрывает от индексации те страницы, которые не должны быть на виду. Но вы можете создать свою инструкцию или внести любые изменения в готовый файл. В случае необходимости всегда можно восстановить первоначальный вариант.

Правила синтаксиса robots.txt

Поисковый робот учитывает только определённые выражения и алгоритмы. Поэтому инструкция составляется на понятном ему «языке». Вот основные команды, которые «понимает» робот:

  • User-Agent: Имя бота поисковой системы. Для Яндекса это Yandex, для Google — Google-bot, для Mail.ru — Mail.ru. Весь список названий роботов-поисковиков перечислен на этой странице.
  • Allow — команда «разрешить».
  • Disallow — команда «запретить».
  • Host — имя вашего хостера

Директива Allow не является обязательной, а вот Disallow нужно указывать. По умолчанию файл robots.txt разрешает всё, поэтому прописывать нужно только запрещающие команды.

Правильный синтаксис написания: команда → двоеточие → пробел → слеш (/) → точное наименование страницы.

Точное наименование страницы — это весь путь, который ведёт на указанную страницу, начиная с главной: мойсайт.рф — мода — женская мода — верхняя одежда — пальто — чёрное пальто в горошек.

Пример:

  • Вы разрешаете поисковому боту Яндекс индексировать всё, кроме страницы «Контакты»:
    • User-Agent: Yandex
    • Allow:
    • Disallow: /contacts
  • Если вы разрешаете индексировать сайт всем поисковым системам, то после User-Agent нужно поставить знак *:
  • Если вы ничего не запрещаете к индексации, то после disallow ничего не ставите:
  • Если вы запрещаете какому-то определённому боту индексировать свой сайт, то ставите его имя и запрещающую команду disallow вместе со слешем:
    • User-Agent: googlebot-image (робот-поисковик по картинкам в Гугл)
    • Disallow: /

Disallow относится только к тому боту, который указан перед командой. Для каждого робота нужно прописывать команды индивидуально.

Как не запутаться в названиях ботов и командах

Есть удобная функция «комментарий», которую вы можете использовать при составлении robots.txt. Всё, что вы хотите прокомментировать, оставить какое-либо уточнение, отмечайте символом #. Всё, что будет написано после этого знака, роботом не учитывается.

User-Agent: Yandex

Disallow: /Price/ #Не индексировать каталог с ценами.

Как установить период захода на сайт робота-поисковика

Чтобы уменьшить нагрузку на сервер, нужно использовать директиву (команду для робота-поисковика) Crawl-delay. Она устанавливает период, за который робот-поисковик должен обойти сайт, или время, за которое робот просмотрит все страницы сайта и внесёт их в индекс. Другими словами, эта директива позволяет ускорить обход сайта роботом. Обычно устанавливается на сайт-многостраничник. Если у вас страниц ещё немного, не больше двухсот, то этот параметр можно не указывать.

Прописывается это так:

  • User-Agent: Yandex
  • Disallow: /contacts
  • Craw-delay: 2 #Тайм-аут обхода 2 секунды

Тайм-аут обхода вы можете указать любой. Это не гарантирует, что на ваш сайт робот будет заходить каждые 2 (3, 4, 5…) секунд, вы просто даёте ему приблизительное время обхода. Если ваш сайт уже хорошо ранжируется, то роботы будут заходить на него чаще, если сайт ещё молод, то реже. В справке Яндекс об этом параметре написано подробней.

Ошибки при составлении robots.txt

Рассмотрим самые популярные ошибки, которые совершают пользователи при создании файла.

Ошибки Правильно
Путаница в инструкциях

User-Agent: /

Disallow: Googlebot

User-Agent: Googlebot

Disallow: /

Несколько каталогов в одной строке Disallow

Disallow: /moda/ hat/ images

Disallow: /moda/

Disallow: /hat/

Disallow: /images/

Пустая строка в указании имени поискового робота

User-Agent:

Disallow:

User-Agent: *

Disallow:

Заглавные буквы

USER-AGENT: YANDEX

ALLOW:

User-Agent: Yandex

Allow:

Перечисление каждого файла в категории

User-Agent: Googlebot

Disallow: / moda/ krasnoe-palto.html

Disallow: /moda/ sinee-palto.html

Disallow: /moda/ zelenoe-palto.html

Disallow: /moda/ seroe-palto.html

Disallow: /price/ women.html

Disallow: /price/ men.html

User-Agent: Googlebot

Disallow: / moda/

Disallow: /price/

Не забывайте про знак слеш (/). Если его не будет, то робот запретит к индексации все файлы и категории с таким же названием. Например, если вы не укажете слеш в директиве: “Disallow: moda”, то из индекса выпадут все страницы, рубрики и категории, где встречается это название.

Правила написания robots.txt

  • Каждую команду надо писать с новой строки.
  • В одной строке — одна директива.
  • В начале строки не должно быть пробела.
  • Команды не берут в кавычки.
  • В конце директивы не ставится точка с запятой, запятая или точка.
  • Disallow: равнозначно Allow: / (всё разрешено).
  • Поисковые роботы чувствительны к регистру букв — прописывайте имена файлов и категорий точно так же, как они указаны на вашем сайте.
  • Если у вас нет robots.txt, это сигнал для поисковиков, что запрещений нет, индексировать можно всё.
  • В robots.txt используется только английский язык. Все другие языки игнорируются.

Как проверить robots.txt на правильность написания

Есть специальные сервисы, которые проверяют, правильно ли составлен разрешающий файл. Проверьте свой robots.txt на сайте Яндекс или в Гугл.

Если для вас сложно самостоятельно написать инструкцию для ботов, то создайте её автоматически. На сайте pr-cy файл будет сгенерирован за 10 секунд, просто укажите нужные вам параметры, потом скопируйте текст и вставьте его в поле для robots.txt на нашем сервисе.

Robots.txt напрямую влияет на индексацию сайта, поэтому обязательно установите свои правила для поисковых ботов.

Успешного вам продвижения!

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *