Топ-100 Как написать robots.txt - Разработка сайтов на WordPress
Как написать robots.txt

Что такое файл robots.txt и как его создать для своего сайта

Для поисковых систем и роботов

При поиске в интернете интересующей темы вы, вероятно, пользуетесь услугами одной из поисковых систем: Google, Яндекс, Yahoo, Рамблер и т. д. У вас уже сложилось впечатление, как быстро приходят ответы на ваши вопросы? Однако, страница результатов, которую вы получаете за считанные секунды, создается не сразу. Поисковые системы терпеливо перемещались по миллионам веб-сайтов в Интернете, собирая информацию о том, на каком сайте они находятся (этот процесс называется индексацией страниц), и сортировали эти данные в таблицы – по ключевым словам. Именно из этих таблиц поисковые системы извлекают URL-адреса страниц, которые лучше всего соответствуют ключевым словам, которые вы задали для поиска.

Программы, которые выполняют эту колоссальную работу в Интернете, называются роботами или пауками. Каждая поисковая система использует своего собственного робота: для Google это Googlebot, для Yahoo: Yahoo Slurp и т. д. Если вы хотите, чтобы ваши страницы отображались в результатах поиска в этих поисковых системах, вы должны сообщить им о своем существовании: вы можете узнать больше из статьи на вашем сайте: Продвижение сайта – SEO.

Здесь мы поговорим о том, как отключить роботов, чтобы он обходил ваш сайт – его части или в полном объеме. Почему вы хотите ограничить доступ роботов, поскольку они так важны для ранжирования вашего сайта в результатах поиска? Вот несколько причин:

  • Вы не хотите, чтобы роботы индексировали содержимое вашей галереи. Там вы, возможно, поместили личные фотографии, которые не хотите показывать в поиске картинок Google, например.
  • У вас есть папка с очень большими файлами (изображения являются лишь одним примером), индексация которых не только не приносит вам пользы, но и снижает месячный лимит пропускной способности.
  • Вы оставили на сайте временные файлы, которые вскоре будут удалены, и вы не хотите, чтобы их содержимое было доступно в течение длительного времени после их удаления. Например, поисковые системы часто делают архивные копии страниц, которые они индексируют. Эти копии доступны пользователям в виде «кэшированных страниц» даже после удаления или изменения оригиналов вашего сайта.
  • Вы не хотите, чтобы кто-то одним щелчком мыши загрузил весь ваш сайт на свой компьютер. Есть программы (например, HTTPTrack), которые делают именно это. В дополнение к нагрузке на ваш сервер и предоставлению ненужной полосы пропускания, программы также позволяют недобросовестному веб-дизайнеру быстро создать свой зеркальный сайт. Если он ворует (вы действительно не можете его остановить) – пусть он работает немного усерднее.

Каковы правила написания robots.txt

Файл robots.txt является по существу запретительным. Если вы не напишите, по умолчанию все роботы смогут свободно перемещаться по вашему сайту. Вы должны сохранить файл с таким точным именем: robots.txt и сохранить его в корневом каталоге, где находятся файлы подкачки на вашем сайте. Этот каталог обычно называется public_html или что-то в этом роде. Давайте рассмотрим пример файла robots.txt:

User-agent: *
Disallow: /gallery/
Disallow: /temporary/
Disallow: /dokumenti/star_dokument.html

Первая строка определяет, к какому роботу (роботам) будут применяться следующие команды. Команда User-agent: всегда используется, за которой следуют имена роботов. Если вы хотите, чтобы команды применялись ко всем роботам, используйте звездочку (*).

Во второй строке указывается, какой файл или галерею следует заблокировать. Используется команда Disallow: за ней следует имя папки или файла, доступ к которому будет запрещен. Если вы хотите отключить более одной папки, вы должны повторить команду Disallow в отдельной строке и ввести следующий адрес в папку или файл для отключения.

В приведенном выше примере мы запрещаем всем роботам перемещаться по галерее и временным папкам, а также по любым папкам и файлам, которые могут содержаться в них. В последней строке мы отключаем индексирование файла star_dokument.html в папке / documents. Если в этом каталоге есть другие файлы, они будут свободны для индексации.

Если вы хотите отключить доступ ко всем файлам и папкам, используйте «/». Например

User-agent: *
Disallow: /

запретит любому роботу доступ ко всему вашему сайту.

User-agent: Googlebot-Image
Disallow: /

это также не позволит сканеру изображений Google проиндексировать ваш сайт.

Вы можете разрешить доступ только одному роботу (в следующем примере это робот Google), сначала разрешив ему обходить все страницы, а затем отключить доступ всех роботов к сайту:

User-agent: Google
Disallow:
User-agent: *
Disallow: /

Некоторые из основных роботов также соответствуют команде «Allow», которая позволяет индексировать указанный файл, находящийся в другом отключенном каталоге. Стандарт robots определяет первую команду, найденную для папки, и передает все последующие команды, относящиеся к тому же каталогу или содержащимся в нем файлам. Поэтому, чтобы использовать Allow для файла, команда должна быть сохранена перед командой Disallow для папки, в которой он находится. Например, чтобы разрешить индексацию index.html и в то же время отключить индексацию всех других файлов в его папке “nachalo”, вы должны напечатать robots.txt следующим образом:

Allow: /nachalo/index.html
Disallow: /nachalo/

Может ли robots.txt защитить вас от плохих роботов?

Ответ, к сожалению, нет. Файл robots.txt рекомендуется, но не обязателен, и если робот не хочет его соблюдать, вы не сможете его заставить. Поэтому, если у вас есть важные документы, которые вы не хотите обнародовать, рекомендуется поместить их в ограниченные папки. Для того, чтобы посетить её – человеку или роботу, в эти папки вам нужно будет ввести свой пароль.

Наконец, создание файла robots.txt не является обязательным, и ваш сайт будет работать без него, но вы можете значительно оптимизировать производительность вашего сайта за счет сокращения ненужного трафика.

Акция! Сайт + логотип + продвижение всего за 29000!

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Получить предложение

Pin It on Pinterest

Открыть чат
1
Задать вопрос
Здравствуйте! 👋
У вас возникли вопросы?
Powered by