Файл robots.txt используется для управления поведением сканирующих роботов поисковой системы (подробнее о том, как работает поисковая система). На первый взгляд может показаться странным – зачем может понадобиться скрывать от поискового робота определенную информацию. Однако, необходимость сокрытия определенной информации присутствует практически для каждого сайта. Так, например, нельзя допускать чтобы в выдачу поисковой системы попадали страницы, предназначенные для администрирования сайта. Также имеет смысл закрывать от индексации страницы, которые содержат личные данные пользователей, зарегистрированных на вашем сайте.

Причины для сокрытия некоторых страниц сайта

  1. Так просят. Представители поисковых систем сами настоятельно просят закрывать от индексации страницы, которые не несут никакой информации и не представляют для пользователей никакой ценности. Таким образом, робот будет тратить меньше времени на обход сайта и, в целом, количество ресурсов, затрачиваемых поисковой системой, сократиться.
  2. Дублирование контента. Некоторые системы управления сайтом позволяют обратиться к одной и той же странице по различным URL адресам. Это приводит к дублированию контента, т.к. поисковый робот не в состоянии выбрать один из вариантов, в индексе поисковой системы остаются две страницы с одинаковым текстом. С точки зрения SEO это может стать негативным фактором, из-за которого сайт будет трудно продвигать, т.к. дублированный контент является одним из признаков сайтов-сателитов, создаваемых только для продажи ссылок и влияния на статический вес веб сайта.
  3. Малозначимые страницы. Еще один негативный фактор, который может помешать продвижению сайта в ТОП10 – наличие большого количества пустых или почти пустых страниц на сайте. Такие страницы считаются малозначимыми. Наличие такого рода страниц на сайте может привести к тому, что ПС будет расценивать ваш сайт как спамный.
  4. Безопасность. Обязательно следует закрывать от индексации администраторскую часть сайта, т.к. попадание такой информации в поисковую выдачу может стать подсказкой для злоумышленников, которые хотят взломать ваш сайт.

Сокрытие и разрешение на индексацию страниц описывается при помощи директив Allow и Disallow. Подробнее об этом механизме можно прочитать, например, в справке Яндекс – http://help.yandex.ru/webmaster/?id=996567 или на специализированном ресурсе, посвященном файлу robots – robotstxt.org.ru.

Кроме того, файл позволяет указать роботу Яндекса на главное зеркало сайта, что является весьма важным на первом этапе продвижения молодого сайта в ПС Яндекс. Также при помощи файла robots.txt можно указать роботам-индексаторам на карту сайта в формате .xml (sitemap.xml).