Заказать звонок
Оставьте телефон, мы перезвоним вам.
блог SEO
05 ноября 2016 г.

Как использовать файл robots. txt

Позволяет улучшить качество сканирования роботами вашего сайта, поэтому лучше не игнорировать такой инструмент.
Файл robots. txt лежит в корневом каталоге вашего сайта и представляет собой некую «инструкцию» для поисковых роботов, относительно того, какие разделы и страницы сайта нужно или не нужно индексировать.

Важный момент — эта «инструкция» не является обязательной для поисковых роботов. Большинство из них действительно смотрит содержимое этого файла и принимает его во внимание, но не факт, что все указанные в нем команды будут действительно выполнены.

Тем не менее, в большинстве случаев файл robots.txt действительно позволяет улучшить качество сканирования роботами вашего сайта, поэтому лучше не игнорировать такой инструмент.

Другой немаловажный аспект – часто содержимое этого файла «управляется» из админки сайта либо через какой-то плагин, который установлен на back-end сайта. Какие-то конфликты или неработоспособность или выключение таких плагинов может привести к тому, что в файле robots.txt будет написано не совсем то, что бы вы действительно хотели там видеть. Поэтому любому специалисту, занимающемуся продвижением сайта важно хотя бы быть в состоянии прочитать содержимое этого файла, и убедиться, что там нет каких-то нежелательных команд.

Итак –

Команда User-Agent

Указывает на специфического поискового робота, которому предлагаются следующие инструкции.

Типичный пример:

User-agent: YandexBot – все, что ниже этой команды и до следующей команды «User-Agent» в файле будет использоваться основным роботом Яндекса.

Списки возможных значений необходимо искать в документации к различным сервисам. А также, имейте в виду, что у одной поисковой системы может быть много разных роботов, например, у Яндекса разных роботов с десяток штук, посмотреть их можно здесь (ссылка - http://help.yandex.ru/webmaster/controlling-robot/robots-txt.xml).

Вообще говоря, настраивать отдельные параметры под различных роботов – это уже весьма тонкая настройка, которая не всегда нужна. Как правило можно обойтись командой:

User-Agent: * - что означает «для всех поисковых роботов».

При этом, если в файле есть команда для определенного робота, то этот робот будет игнорировать команду «User-Agent: *» (для всех), потому что увидел специфическую команду именно для себя.

Команды Disallow и Allow

Указывают страницы, которые вы хотите разрешить (allow) и запретить (disallow) индексировать.

Типичный пример:

User-agent: *

Disallow: /

Эта инструкция «просит» поисковых роботов НЕ индексировать все страницы сайта.

Это очень важно делать на этапе разработки сайта, когда у вас полно черновых страниц, не наполненных контентом, либо новая версия сайта находится на другом домене. Если вы не закроете таким образом сайт от индексации, то с большой долей вероятности рискуете получить полную копию вашего тестового или не готового сайта в поиске.

С другой стороны – случается, что разработчик забывает убрать эту конструкцию при переносе тестовой версии сайта на основной домен, и со скоростью индексации будут проблемы.

В настройке файла можно использовать регулярные выражения: символ звездочки «*» означает любую последовательность символов, а «$» (доллар) – конец строки.

Например, если вы напишете так:

User-agent: *

Disallow: /*.doc$

это запретит индексацию файлов типа .doc на вашем сайте. Может пригодиться на случай, если у вас в них лежат обновления прайс-листов или коммерческих предложений, которые вы хотите хранить на сайте, но не хотели бы, чтобы их видел «весь мир». Хотя, как мы и говорили, эти инструкции – это «пожелания» для роботов, если вы действительно не хотите, чтобы файл видели все, уберите его из открытого доступа.

Команда Host

указывает на главное зеркало сайта. Если у вашего сайта несколько зеркал, то желательно указать главное из них в файле, чтобы в поиске были страницы только с него.

Пример:

User-Agent: *

Disallow:

Host: www.myhost.ru

Команда Sitemap

Если у вас есть карта сайта в формате xml, желательно ее указать здесь.

Команда Crawl-delay

Устанавливает для поискового робота минимальный предел (в секундах), который он должен «подождать» перед тем, как загрузить следующую страницу.

Это достаточно экзотическая команда и ее стоит применять только на сильно нагруженных серверах, которые тем не менее находятся на относительно слабом хостинге. Почему так – это другой вопрос, и вообще-то так быть не должно, но если да, то эта команда пригодится. Суть здесь в том, что поисковый робот, который решил проиндексировать тысячи страниц большого сайта может создать нежелательную нагрузку, которая может привести к отказам для реальных посетителей.

Пример использования:

User-agent: *

Disallow:

Crawl-delay: 10

Команда Clean-Param

Применяется для случаев, когда у вас на сайте есть страницы типа «http://my-site.ru/page.html?ref=123» с разными параметрами ref, но не отличающимися страницами, которые нет смысла индексировать отдельно.

Пример:

User-agent: Yandex

Disallow:

Clean-param: ref /page.html

Это дает команду «убрать» все параметры ref из индексации этой страницы. Если на сайте есть несколько страниц page.html с параметром ref, то робот будет индексировать ту, которую нашел первой. А если эта страница доступна без параметра, то будет проиндексирована именно она.

Делается это и в том числе, чтобы ускорить индексацию страниц. Робот не будет повторно индексировать страницы с другими параметрами ref, и на крупном сайте, где таких страниц может быть несколько тысяч, это повлияет на скорость реиндексации сайта.

В заключение скажем, что с помощью robots.txt лучше всего закрывать результаты поиска по сайту, а также админку сайта. И конечно помните, что эти команды являются скорее пожеланиями для роботов. Поисковые роботы в большинстве случаев прислушиваются к ним, но 100% гарантии эти команды не дают.