Опрос: Meta-тега robots или robots.txt


 

Что выбрать: meta-тега robots или robots.txt

Категория: Статьи » Прочее | 8 сентября 2009 | Просмотров: 4811



Что выбрать: meta-тега robots или robots.txtСуществует два способа донести до поисковика, какие странички надо индексировать, а какие ненадо — это внедрение мета-тега «meta robots» либо создание в корне сайта файла «robots. txt». Так какой из способов лучше применять для запрета индексации определенных страничек сайта? В которых вариантах и почему нужно не индексировать некие странички сайта?

Может быть, на Вашем web-сайте имется версия страничек для печати либо же PDA версия сайта. Неувязка обстоит в том, что поисковые системы придают наименьшую значимость схожему тексту, который встречают на различных URL-адресах. В таковых вариантах имеет смысл заблокировать один из вариантов сайта для поисковых систем. Так же, ограничения поисковой системы в индексировании неких долей Вашего сайта дозволит ей (поисковой системе) проиндексировать больше полезной, вправду означаемой информации, тоесть страниц Вашего сайта.

Разберем по пунктам что и как нада делать


Пришло время рассмотреть метатег
<meta name="robots" content="..." />


Запрет индексации при помощи meta тега robots

Итак, первой метод воспретить поисковым системам регистрировать странички сайта — это применять «META ROBOTS». Пример применения:

<meta name="Description" content="Информационный портал города Волгограда" />
<meta name="robots" content="noindex,nofollow" />
<title>Каталог организаций Волгоград</title>


В данном случае, страничка будет закрыта для индексирования поисковыми системами. Примите во внимание - ВСЕМ поисковикам.

Допустим, у Вас на вебсайте имется возможность в администраторском разделе избирать странички либо категории, индексирование которых требуется воспретить. Можно программно создать метод, который при генерации HTML-шаблона странцы будет втавлять в код «meta robots». Теоретически, сходственную технику можнож воплотить и внедрением файла файл «robots. txt», но сложность содержится в том, что каждый раз необходимо будет пересобирать файл поновой, в то время, как при использовани meta тега robots, его необходимо лишь вставить в код подходящей Вам странички. Так же, при помощи meta тега robots невероятно обратиться к определеной поисковой системе.

Образцы применения meta тега robots
noidex,nofollow

Часто встречающийся вариант, это когда требуется воспретить регистрировать странички, а так же не следовать ссылкам, размещенным на ней. Вот каким кодом это можнож организовать:
<meta name="robots" content="noindex,nofollow" />


noindex,follow
В случае, ежели требуется воспретить индексирование, но разрешить передачу ссылочного веса ссылкам на страничке:
<meta name="robots" content="noindex,follow" />


В случае, ежели требуется разрешить индексирование странички, без передачи ссылочного веса ссылкам:
index,nofollow
<meta name="robots" content="index,nofollow" />



Так же можнож сочетать внедрение файла «robots.txt» с тегом meta robots. Это может отдать некие превосходства. Вопервых, это двойная гарантия, что подходящая станица не будет проиндексирована, желая ничто не может помешать поисковому боту проигнорировать как файл, так и META тег, и получить содержание странички.

meta тег robots имеет превосходство перед файлом robots.txt, при условии, что в файлике индексирование разрешено, а в meta теге воспрещено. Таковым образом, можно, к примеру, воспрещать индексацию способом исключений.


Итак, дторой вариант - запрет индексации при помощи файла «robots. txt»

Ниже приведен пример указаного файла (корень сайта!):
User-agent: *
Disallow: /admin/
Disallow: /map/
Disallow: /ad/search/
Disallow: /cat/search/
Host: www.fed.name
Sitemap: http://www.fed.name/sitemap.xml

User-agent: Yandex
Disallow: /admin/
Disallow: /map/
Disallow: /ad/search/
Disallow: /cat/search/
Host: www.fed.name
Sitemap: http://www.fed.name/sitemap.xml

User-agent: googlebot
Disallow: /admin/
Disallow: /map/
Disallow: /ad/search/
Disallow: /cat/search/
Host: www.fed.name
Sitemap: http://www.fed.name/sitemap.xml


Разберем все по пунктам!

Директива «User-agent»
Видите ли, файл содержит обращение к конкретному агенту поисковика через директиву «User-agent». Используя ее, Вы, скажем, сможете разрешить одному поисковику индексировать сайт, а иному (остальным) нет. Либо же разрешить индексировать различным поисковым системам различные странички сайта, тоесть каждый поисковик будет получать другу страничку для индексации и не сможет проиндексировать страницу, предназначенную для другого поискового бота). Так же можно обратиться сходу ко всем агентам поисковых систем указав в качестве значения для директивы «User-agent» знак «*». Таковым образом поисковой агент, прочитав файл «robots. txt» не найдя в нем указаний для себя, будет отыскивать указатели, описанные для «User-agent: *».

Ниже приведен перечень неких «User-agent» для различных поисковых систем:
«Yandex» — агент поисковика «Яндекс».
«Googlebot» — агент поисковика «Google».
«Googlebot-Mobile» — агент поисковика «Google», сканирует странички для включения в индекс для мобильных устройств.
«Googlebot-Image» — агент поисковика «Google», сканирует странички для индекса картинок.
«Mediapartners-Google» — агент поисковика «Google», сканирует странички для определения содержания «AdSense».
«Adsbot-Google» — агент поисковика «Google», сканирует странички, расценивая качество целевых страничек для «AdWords».
«StackRambler» — агент поисковика «Rambler».


Директива «Disallow»
Директива «Disallow» показывает поисковому агенту, какие разделы сайта воспрещены для индексации. Используя директивы «User-agent» и «Disallow» можнож воспретить предопределенной поисковой системе регистрировать Ваш сайт. Вот так, к примеру можнож воспретить «Google» регистрировать вполне весь сайт:
User-agent: googlebot
Disallow: /


А последующим образом можнож закрыть сайт для индексации всем поисковым системам:
User-agent: *
Disallow: /


В директиве «Disallow» идет указывать сборники сайта, которые нужно закрыть от индексации. К примеру, админ сайта не желает, чтоб индексировалась PDA версия сайта, расположенная по адресу www.example.ru/pda/. Это можнож сделать последующим образом:
User-agent: *
Disallow: /pda/


Достаточно нередко возникает мысль, надобно либо нет ставить «слеш» опосля наименования раздела, указанного в директиве «Disallow»? Дело в том, что для поисковой системы www.example.ru/pda/ и www.example.ru/pda являются безусловно различными страничками сайта, потому ежели программное обеспечение сайта выдает однообразное содержимое как для www.example.ru/pda/ так и для www.example.ru/pda, то в «robots. txt» необходимо указать:
User-agent: *
Disallow: /pda/
Disallow: /pda


Таковым образом, мы закроем два раздела от индексирования для всех поисковых систем.
Побочным эффектом заключительного способа готов стать то, что Disallow: /pda воспретит индексацию так же таковых страничек, как /pda.html, /pda-download.html и т. д. , т. е. всех страничек, которые начинаются с pda и лежат к корневой директории сайта.

Последующий код не воспрещает ничего, т. е. разрешает регистрировать все странички сайта для всех поисковых систем:
User-agent: *
Disallow:


Обратная по смыслу директиве «Disallow» является директива «Allow». «Allow» разрешает регистрировать указанный в ней раздел сайта. Допустим нам необходимо воспретить индексирование всего сайта, кроме раздела /info/. В данном варианте нам не надо перечислять все другие разделы в директивах «Disallow», чтоб закрыть их от индексации. Правильным решением будет последующий код:
User-agent: *
Allow: /info/
Disallow: /


Таковым образом мы разрешили всем поисковым системам регистрировать раздел сайта /info/, но воспретили регистрировать все другие разделы.


Директива «Host»

Директива «Host» описывает главной адресок сайта. Это актуально в случае, ежели Ваш сайт имеет несколько зеркал. Указав в директиве «Host» главное зеркало, Вы поможете поисковику сделать верный выбор. Директива «Host» для 1-го «User-agent» быть может лишь одна.


Директива «Sitemap»

Директива «Sitemap» показывает поисковому агенту размещение файла карты сайта «sitemap. xml». Это поможет поисковику прытче отыскать файл карты сайта. В случае, ежели на Вашем вебсайте употребляется несколько карт, то их можнож указать последующим образом:
User-agent: *
Sitemap: http://www.example.com/sitemap1.xml
Sitemap: http://www.example.com/sitemap2.xml


Проверить, верно ли составлен файл «robots.txt» можнож при помощи специальной службы «Яндекса».

Контролируйте свой index!

По материалам: codeisart.ru

Ключевые теги: seo, robots
 (голосов: 1)

Views Просмотров: 4811   Comms Комментарии (1)

#1 написал: Дмитрий (3 декабря 2009 00:38)
avator
Гости
Спасибо замечательная статья ! Стоял robots.txt но без дела теперь найду применение  smile
ICQ: --