Файл robots.txt содержит перечень инструкций для роботов поисковых систем, которые разрешают, но чаще – запрещают роботам-паукам просматривать отдельные документы на сайте или целые разделы. Например, не просматривать страницы из архива или версии документов для печати.

Правильная настойка robots.txt позволяет:

  1. Закрыть от индексации конфиденциальные документы на сайте;
  2. Решить проблему дублей, закрыв их от роботов-пауков поисковых систем.

Если robots.txt отсутствует, то роботы поисковых систем будут просматривать любой документ сайта.

Имя файла должно быть в нижнем регистре (robots.txt, а не Robots.txt или ROBOTS.TXT)

Правила настройки файла robots.txt:

Файл состоит из специальных команд для поисковых роботов – директив, а именно:

Директива User-agent используется для обращения к роботам, то есть в ней прописывается имя робота, для которого указываются команды ниже. Но директиву User-agent, адресованную конкретному роботу, нужно обязательно указывать до User-agent для всех роботов. Поэтому структура robots.txt будет выглядеть так:

User-agent: Yandex (основной робот Yandex)

User-agent: Googlebot (основной робот Google)

User-agent: (имя любого другого робота ПС)

User-agent: * (означает: для всех остальных роботов)

 

Необходимо строго соблюдать правила написания директив. А именно: перед каждой директивой User-agent должна быть пустая строка, а все остальные директивы, относящиеся к данному блоку – идти после нее (каждая директива должна прописываться с заглавной буквы с новой строки, при этом содержать не более одного правила). Содержимое директивы (то что идет через пробел после «:» прописывается в нижнем регистре, за исключением названия роботов).

Пример:

User-agent: Yandex
Allow: (адрес файла или папки, который нужно разрешить для индексации)
Disallow: /

User-agent: *
Allow: (адрес файла или папки, который нужно разрешить для индексации)
Disallow: /

Директива Disallow используется для запрета роботам индексации файлов.

Пример:

Disallow: /cgi-bin/ (запрещаем индексировать все, что лежит в папке cgi-bin)
Disallow: *.php (запрещает индексировать все файлы содержащие .php)
Disallow: / (запрещает индексировать все файлы)

Директива Allow разрешает индексировать файлы. Ставить ее нужно перед директивой Disallow.

Директива Host используется для робота Яндекса, для указания главного зеркала сайта. При этом очень важно знать, что в директиве Host прописывается тот url, который Вы собираетесь продвигать. То есть, если Вы продвигаете свой сайт без www, то и в директиве Host необходимо прописывать его без www.

Пример:

User-agent: Yandex
Host: adblogger.ru

Директиву Host необходимо указывать в конце, а url сайта в ней пишется без http:// и без закрывающего слеша /.

Директива Sitemap содержит адрес карты сайта, которая необходима для более быстрой индексации новых страниц. Директива Sitemap указывается в конце блока, после директивы Host.

Директива Crawl-delay необходима для того, чтобы задать роботу минимальную паузу между закачкой двух документов с сайта. Это необходимо, если сайт находится на медленном сервере, который может «упасть» из-за частого обращения робота поисковой системы. Время указывается в секундах.

Пример:

Crawl-delay: 2

Робот будет делать паузы в 2 секунды между закачиваем двух документов. Робот Яндекса поддерживает дробные значения параметра (0.5 2.5 и т.д.), Однако далеко не все поисковые системы следуют данной инструкции. Директиву Crawl-delay необходимо ставить после директив Allow и Disallow

Использование спецсимволов * и $ в файлах robots.txt:

При указании содержимого директив Allow и Disallow можно использовать спецсимволы * и $. Спецсимвол * заменяет любую последовательность символов, а спецсимвол $ указывает на конец url (то есть после него уже ничего не подразумевается).

Пример:

Disallow: .php$

Данная директива запретит к индексации документ с адресом file.php, но не будет распространяться на файл file.php&=param_pam_pam

Еще хочется отметить, что сайты могут быть написаны на различных движках (CMS). Поэтому при написании robots.txt следует уделить этому большое внимание, и прочитать про особенности именно вашей CMS, чтобы правильно закрыть от индексации документы сайта.

Закрытие дублей и «мусора» через файл robots.txt:

Для большинства сайтов имеет смысл закрывать:

  1. Дубль главной страницы через команду Disallow: /index.php$
  2. Дубли, возникающие при переходе на сайт по объявлениям с контекстной рекламы (в этом случае к адресу страницы примешиваются различные параметры).
  3. Сессии, если они есть в адресах страниц.
  4. Страницы версий для печати (часто используются в новостях)
  5. Разделы с персональными данными, например, личные кабинеты пользователей.
  6. В интернет-магазинах — корзину товаров, разделы с помощью для покупателей (как сделать заказ, способы оплаты и доставки), в ряде случаев в интернет-магазинах стоит закрыть от индексации раздел с новостями, акциями – любые страницы, которые не будут давать трафик из поисковых систем.
  7. На форумах – профили пользователей (если они не дают трафик из поисковых систем), страницу регистрации нового пользователя, страницу для восстановления пароля, раздел помощи для пользователей, иные технические страницы.
  8. На любых сайтах, где имеется функция поиска – страницу результатов поиска.
  9. Если на сайте установлен ЧПУ – имеет смысл закрыть от индексации все страницы с .php (т.к. скорее всего под такими страницами будут скрываться документы по старым адресам, полученным до внедрения ЧПУ). Но надо смотреть конкретный случай!
  10. RSS-ленты
Опубликовано в Оптимизация

Главная страница

Как правило, главная страница продвигается по самым конкурентным и высоко- частотным запросам. Для продвижения по таким запросам крайне важны поведенческие факторы, в том числе – качество сниппета. Поэтому TITLE для главной должен быть не только оптимизированным к запросам, но и максимально привлекательным и стимулирующим перейти на ваш сайт. Рассматривается Тайтл как рекламный слоган.

Совет: составьте таблицу с Тайтлами сайтов-конкурентов из ТОП-10 и сделайте свой Тайтл таким, чтобы он выгодно отличался от тех, которые уже есть в выдаче.

Раздел или подраздел каталога

Для разделов и подразделов каталога оптимально разработать шаблон для генерации заголовков (особенно если у вас на сайте большой каталог). Как правило, шаблон TITLE включает название раздела + популярные слова в тематике (цена, фото, отзывы и т.д.). Если в разделе имеются страницы пагинации, сделайте разные заголовки на них. Например, у страниц пагинации используйте сокращенный заголовок с минимумом ключевых слов и добавляйте к нему фразы «Страница 2», «Страница 3», «Страница 4».

Важно, чтобы TITLE на страницах каталога не дублировались.

Карточки товаров

Здесь используется похожая схема: в начале тега Title выводится название товара, к которому добавляются популярные слова из запросов пользователей. Например, «цена», «акция», «купить со скидкой». В ряде тематик в TITLE имеет смысл добавлять артикул товара, его параметры (цвет), производителя, поскольку эти параметры также встречаются в запросах пользователей. Чтобы правильно заполнять тег TITLE на карточках товаров, нужно тщательно исследовать запросы пользователей и грамотно составить семантическое ядро.

Старайтесь сделать так, чтобы содержание тега TITLE на карточках товаров было максимально естественным и привлекательным для пользователей. Избегайте нагромождения ключевых слов.

Галерея

Галерея может продвигаться по запросам, включающим слова «фото», «фотографии», «картинки», «иллюстрации», «изображения», «обои для рабочего стола», «примеры работ» и множества других. Поэтому оптимизацией заголовков в галерее пренебрегать не стоит. Принципы заполнения тега TITLE такие же, как при разработке шаблонов для разделов каталога и карточек товаров. Только разделами служат альбомы, а карточками товаров – страницы с отдельными изображениями.

Информационные материалы

Информационными материалами часто делятся в социальных сетях через соответствующие кнопки. В социальных сетях TITLE используется как заголовок статьи. Поэтому заполняя Тайтл для статьи, постарайтесь избегать нагромождения ключевых слов. Старайтесь сделать TITLE статьи максимально естественным. Вы получите больше переходов из поисковых систем и сможете увеличить приток посетителей из социальных сетей.

Опубликовано в Оптимизация