При поиске в интернете интересующей темы вы, вероятно, пользуетесь услугами одной из поисковых систем: Google, Яндекс, Yahoo, Рамблер и т. д. У вас уже сложилось впечатление, как быстро приходят ответы на ваши вопросы? Однако, страница результатов, которую вы получаете за считанные секунды, создается не сразу. Поисковые системы терпеливо перемещались по миллионам веб-сайтов в Интернете, собирая информацию о том, на каком сайте они находятся (этот процесс называется индексацией страниц), и сортировали эти данные в таблицы — по ключевым словам. Именно из этих таблиц поисковые системы извлекают URL-адреса страниц, которые лучше всего соответствуют ключевым словам, которые вы задали для поиска.
Программы, которые выполняют эту колоссальную работу в Интернете, называются роботами или пауками. Каждая поисковая система использует своего собственного робота: для Google это Googlebot, для Yahoo: Yahoo Slurp и т. д. Если вы хотите, чтобы ваши страницы отображались в результатах поиска в этих поисковых системах, вы должны сообщить им о своем существовании: вы можете узнать больше из статьи на вашем сайте: Продвижение сайта — SEO.
Здесь мы поговорим о том, как отключить роботов, чтобы он обходил ваш сайт — его части или в полном объеме. Почему вы хотите ограничить доступ роботов, поскольку они так важны для ранжирования вашего сайта в результатах поиска? Вот несколько причин:
Файл robots.txt является по существу запретительным. Если вы не напишите, по умолчанию все роботы смогут свободно перемещаться по вашему сайту. Вы должны сохранить файл с таким точным именем: robots.txt и сохранить его в корневом каталоге, где находятся файлы подкачки на вашем сайте. Этот каталог обычно называется public_html или что-то в этом роде. Давайте рассмотрим пример файла robots.txt:
User-agent: *
Disallow: /gallery/
Disallow: /temporary/
Disallow: /dokumenti/star_dokument.html
Первая строка определяет, к какому роботу (роботам) будут применяться следующие команды. Команда User-agent: всегда используется, за которой следуют имена роботов. Если вы хотите, чтобы команды применялись ко всем роботам, используйте звездочку (*).
Во второй строке указывается, какой файл или галерею следует заблокировать. Используется команда Disallow: за ней следует имя папки или файла, доступ к которому будет запрещен. Если вы хотите отключить более одной папки, вы должны повторить команду Disallow в отдельной строке и ввести следующий адрес в папку или файл для отключения.
В приведенном выше примере мы запрещаем всем роботам перемещаться по галерее и временным папкам, а также по любым папкам и файлам, которые могут содержаться в них. В последней строке мы отключаем индексирование файла star_dokument.html в папке / documents. Если в этом каталоге есть другие файлы, они будут свободны для индексации.
Если вы хотите отключить доступ ко всем файлам и папкам, используйте «/». Например
User-agent: *
Disallow: /
запретит любому роботу доступ ко всему вашему сайту.
User-agent: Googlebot-Image
Disallow: /
это также не позволит сканеру изображений Google проиндексировать ваш сайт.
Вы можете разрешить доступ только одному роботу (в следующем примере это робот Google), сначала разрешив ему обходить все страницы, а затем отключить доступ всех роботов к сайту:
User-agent: Google
Disallow:
User-agent: *
Disallow: /
Некоторые из основных роботов также соответствуют команде «Allow», которая позволяет индексировать указанный файл, находящийся в другом отключенном каталоге. Стандарт robots определяет первую команду, найденную для папки, и передает все последующие команды, относящиеся к тому же каталогу или содержащимся в нем файлам. Поэтому, чтобы использовать Allow для файла, команда должна быть сохранена перед командой Disallow для папки, в которой он находится. Например, чтобы разрешить индексацию index.html и в то же время отключить индексацию всех других файлов в его папке «nachalo», вы должны напечатать robots.txt следующим образом:
Allow: /nachalo/index.html
Disallow: /nachalo/
Ответ, к сожалению, нет. Файл robots.txt рекомендуется, но не обязателен, и если робот не хочет его соблюдать, вы не сможете его заставить. Поэтому, если у вас есть важные документы, которые вы не хотите обнародовать, рекомендуется поместить их в ограниченные папки. Для того, чтобы посетить её — человеку или роботу, в эти папки вам нужно будет ввести свой пароль.
Наконец, создание файла robots.txt не является обязательным, и ваш сайт будет работать без него, но вы можете значительно оптимизировать производительность вашего сайта за счет сокращения ненужного трафика.