Главная > Блого и сайтоводство > Оптимизация WordPress – как составить правильный robots.txt? Часть 2-я

Оптимизация WordPress – как составить правильный robots.txt? Часть 2-я

Seo-woman-robots.txtВ прошлой заметке об оптимизации блогового движка вордпресс я коснулся вопроса очеловечивания гиперссылок, ведущих на страницы блога, а сегодня хочу поделиться опытом составления правильного файла robots.txt. Если в двух словах, то этот файл нужен для того, чтобы подсказать поисковым системам, какие страницы сайта не нужно индексировать. Располагается он всегда в корне сайта вместе с файлами блогового движка. На вопрос, – а что будет, если этого файла не будет? – отвечу, что практически ничего. Хуже, если он будет составлен неправильно, потому что в этом случае важные части сайта (статьи, разделы) могут не проиндексироваться поисковыми системами. Если так все сложно, нужно ли создавать и размещать этот файл? – спросите вы. Безусловно, нужно, и вот почему.

Одной из особенностей систем управления контентом, подобных CMS WordPress, является то, что текстовое наполнение разных страниц частично пересекается при их открытии по разным адресам (ссылкам). К примеру, анонсы статей будут одинаковыми на страницах архивов, авторов, тегов и категорий. Нежелательно, чтобы эти второстепенные страницы с дублированным (повторяющимся) контентом попадали в поисковый индекс, снижая ценность размещенных статей. Небольшой текстовый файл поможет нашему блогу показать паукам поисковых систем, какие страницы не нужно включать в индекс.

Не буду объяснять все премудрости его написания, а постараюсь коротко объяснить суть. Роботс-тхт пишется и читается роботами, как обычный текст: сверху – вниз, слева – направо. Читается и исполняется последовательно, как некий алгоритм действий, поэтому поисковым роботом учитываются только те правила, которые он сочтет «подходящими» для себя. В самом простом виде файл может выглядеть так:

User-agent: Yandex
Disallow: /figvam/

Или так:

User-agent: *
Disallow: /figvam/

В первом случае робот поисковой системы Яндекс прочитает, что ему не нужно индексировать раздел сайта figvam, а вторая запись отличается тем, что ее условия будут справедливы не только для паука Яндекса, а для всех поисковых пауков вообще. Предположим, мы хотим, чтобы Яндекс индексировал наш сайт, а все остальные поисковые системы нет. Правильный robots.txt будет таким:

User-agent: *
Disallow: /

User-agent: Yandex
Disallow:

Попутно замечу, что правила для разных поисковых роботов должны разделяться пустой строкой, а в блоке правил для одного паука пустых строк быть не должно. Косая черта означает полный запрет индексации сайтом, а ее отсутствие разрешит Яндексу индексировать сайт. Для чего могут понадобиться разные правила? Например, мы хотим, чтобы поисковики не индексировали второстепенные страницы, а реклама Гугл-адсенс «крутилась» бы на этих самых страницах. Но у сервиса Гугл-адсенс есть свой поисковый робот, помогающий подобрать рекламу для конкретных страниц. Поэтому правильный роботс-тхт будет выглядеть примерно так (возможны другие варианты, но суть одна):

User-agent: *
Disallow: /figvam/
Disallow: /*/ni-sebe-ni-ludyam

User-agent: Mediapartners-Google
Disallow:

Этими правилами мы запретим индексацию каталога figvam для всех поисковых роботов, а также статьи, ссылка на которую оканчивается такой строкой – ni-sebe-ni-ludyam. Звездочка перед косой чертой перед этой строкой заменяет все возможные комбинации символов в ссылках сайта (блога). То есть, будут закрыты от индексации все ссылки типа:

/category/ni-sebe-ni-ludyam
/arhive/ni-sebe-ni-ludyam
/vas-snimaet-skritaya-kamera/ni-sebe-ni-ludyam

Ну и т.д., а две последние строки разрешат роботу Адсенса беспрепятственно индексировать (читать) все страницы сайта для размещения релевантной рекламы. Как правило, для каждой системы управления контентом (CMS) есть свой «свод правил» для правильного составления robots.txt. Для вордпресс правильный роботс будет примерно таким:

User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */comments
Disallow: */trackback
Disallow: /*?*
Disallow: /?s=
Disallow: /tag/
Disallow: /page/

User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */comments
Disallow: */trackback
Disallow: /*?*
Disallow: /tag/
Disallow: /page/
Disallow: /?s=
Host: site.ru (адрес вашего сайта без приставки http://)

User-agent: Googlebot-Image
Disallow:
Allow: /*

User-agent: Mediapartners-Google
Disallow:
Allow: /*

Sitemap: http://site.ru(адрес вашего сайта)/sitemap.xml (если у вас есть отдельный файл – «карта сайта»)

Вот эта дополнительная строка – Host: site.ru укажет Яндексу, какой адрес сайта использовать в качестве основного, если он открывается по разным адресам. Например, вы можете создать дубликат своего блога по другому адресу, но желаете, чтобы «главным» был один (можно ведь указать и адрес другого своего блога, сайта), либо просто хотите, чтобы Яндекс считал «более главным» адрес вашего блога без приставки «www», т.к., по идее, сайт по адресу – www.site.ru считается поисковыми системами зеркалом сайта по адресу – site.ru. Большой беды не будет, если эту строку удалить, тогда можно будет удалить и весь блок правил для Яндекса. При его отсутствии он будет «читать» первый блок правил, который «для всех» (User-agent: *).

В первых двух больших блоках мы запретили поисковикам индексацию служебных разделов сайта (все, что начинается на «wp-…», ленты новостей (feed), страниц комментариев, тегов и поиска (?s=), а в последних шести строках мы разрешим паукам Googlebot-Image (поиск Гугл по картинкам) и Mediapartners-Google (робот Адсенс) индексировать содержимое блога.

Возвращаясь к теме прошлого поста, хочу заострить внимание на этой строчке в правилах – Disallow: /*?*. Изначально вордпресс генерирует страницы блога по адресам вида /p?=…, поэтому, если не включено ЧПУ (читайте здесь), то эту строку нужно удалить как из правил для всех поисковиков, так и из правил для Яндекса, иначе все страницы сайта будут закрыты от индексации. В любом случае, после создания или любой правки файла роботс-txt необходимо проверить его на работоспособность. Например, для Яндекса это можно сделать здесь – http://webmaster.yandex.ru/robots.xml. В панели веб-мастера Гугл есть аналогичный сервис, но он доступен только в личном кабинете после регистрации.

Как проверить работоспособность файла robots.txt? Очень просто: загружаете файл с сайта, либо копируете вручную в предназначенную для него форму, прописываете ниже несколько ссылок на свои статьи и те ссылки, которые не должны индексироваться: архивы, комментарии, теги и т.д. Нажимаете кнопку «проверить» и смотрите результат. Если что-то с индексацией не в порядке, корректируете правила и проверяете вновь. Таким образом легко откорректировать правила, которые помогут отсеять «ненужные страницы» из индекса поисковых систем.

Напоследок напишу, что иногда рекомендуют закрывать от индексации категории статей строкой вида – Disallow: /category/. До недавнего времени я так и поступал, но недавно узнал (с этим согласен, в принципе), что закрытие категорий в вордпресс от индексации ухудшает передачу веса страниц (PR) друг другу. То есть, уменьшая количество дублированного контента, мы одновременно с этим ухудшаем перетекание PR страниц. В связи с этим лучше все-таки категории оставлять открытыми для индексации, либо открывать для индексации теги (tag), либо страницы (page) блога при активированном плагине page-navi или другом подобном.

Вначале я упомянул, что лучше отсутствие «роботса», чем неправильно его составление. Это действительно так. Поисковые системы уже давно научились самостоятельно учитывать дублированный контент, как второстепенный и наличие этого файла необязательно. Однако если в вас присутствуют черты перфекционизма, делайте все согласно канонам сайтостроения, чтобы не было позже мучительно больно за бесцельно прожитые.

Берегите себя.

Автор – vituson

Блого и сайтоводство

  1. Night
    8 марта 2013 в 14:15 | #1

    О, девочка на Бьорк похожа.:)

  2. Night
    9 марта 2013 в 14:56 | #2

    Зачем комментарии закрывать от индексации? Или где-то есть отдельная страница со всеми комментариями, которая закрывается, а сами они индексируются вместе со статьей, к которой оставлены?

  3. 9 марта 2013 в 20:00 | #3

    @Night
    Комментарии индексируется вместе с «телом» статьи, то есть, на той же странице, где она размещена. Поэтому нет смысла в их (отдельной) индексации.

  4. 9 марта 2013 в 20:04 | #4

    @Night
    «Певица (Bjork), страстно ненавидящая папарацци, после концерта вполне мирно пообщалась с обычными журналистами. Поразила сообщением, что с 17 лет мечтает написать музыку к булгаковскому «Мастеру и Маргарите». Доверительно поведала, что татуировка в виде компаса на левом плече — старинный символ викингов. «Это чтобы не потеряться», — пояснила она.»

  5. Night
    9 марта 2013 в 20:18 | #5

    @vituson
    Ты смотри, сколько я уже знаю про Бьорк. В девочках вон узнаю. А пару месяцев назад даже не подозревала о ее существовании.:)))

    За ответ про комментарии спасибо, так и поняла.
    Значит, открыть категории?

  6. 9 марта 2013 в 21:03 | #6

    @Night
    Попробуй, — что еще ответить. 🙂 Я открыл, а плохо ли, хорошо ли, в свете последних событий изменений алгоритмов Яндекса и Гугла это уже малозначительно, наверное.

  7. 9 марта 2013 в 21:11 | #7

    @Night
    Посмотри фильм «Танцующая в темноте». О материнской любви.

  8. Night
    9 марта 2013 в 21:31 | #8

    Когда-то смотрела. Да и не хочу сейчас никаких драм. Вот если бы ты что-то веселое посоветовал, я бы может решилась на выходной. А то втянулась в работу, как кот в пылесос.:)

  9. Ангелиночка!
    19 декабря 2015 в 15:58 | #9

    Начинающие копирайтеры часто путают такие понятия, как база или словарь синонимов и синонимайзер.

  10. 1 августа 2016 в 10:14 | #10

    Начинающим копирайтерам можно дать некоторые советы относительно того, как стоит вести себя на биржах контента, чтобы не получить отрицательный рейтинг и не иметь проблем с заказчиками и администрацией.