Что выбрать: meta-тега robots или robots.txt
Категория: Статьи » Прочее | 8 сентября 2009 | Просмотров: 2807
Существует два способа донести до поисковика, какие странички надо индексировать, а какие ненадо — это внедрение мета-тега «meta robots» либо создание в корне сайта файла «robots. txt». Так какой из способов лучше применять для запрета индексации определенных страничек сайта? В которых вариантах и почему нужно не индексировать некие странички сайта? Может быть, на Вашем web-сайте имется версия страничек для печати либо же PDA версия сайта. Неувязка обстоит в том, что поисковые системы придают наименьшую значимость схожему тексту, который встречают на различных URL-адресах. В таковых вариантах имеет смысл заблокировать один из вариантов сайта для поисковых систем. Так же, ограничения поисковой системы в индексировании неких долей Вашего сайта дозволит ей (поисковой системе) проиндексировать больше полезной, вправду означаемой информации, тоесть страниц Вашего сайта.
Разберем по пунктам что и как нада делать
Пришло время рассмотреть метатег
<meta name="robots" content="..." />
Запрет индексации при помощи meta тега robots
Итак, первой метод воспретить поисковым системам регистрировать странички сайта — это применять «META ROBOTS». Пример применения:
<meta name="Description" content="Информационный портал города Волгограда" />
<meta name="robots" content="noindex,nofollow" />
<title>Каталог организаций Волгоград</title>
<meta name="robots" content="noindex,nofollow" />
<title>Каталог организаций Волгоград</title>
В данном случае, страничка будет закрыта для индексирования поисковыми системами. Примите во внимание - ВСЕМ поисковикам.
Допустим, у Вас на вебсайте имется возможность в администраторском разделе избирать странички либо категории, индексирование которых требуется воспретить. Можно программно создать метод, который при генерации HTML-шаблона странцы будет втавлять в код «meta robots». Теоретически, сходственную технику можнож воплотить и внедрением файла файл «robots. txt», но сложность содержится в том, что каждый раз необходимо будет пересобирать файл поновой, в то время, как при использовани meta тега robots, его необходимо лишь вставить в код подходящей Вам странички. Так же, при помощи meta тега robots невероятно обратиться к определеной поисковой системе.
Образцы применения meta тега robots
noidex,nofollow
Часто встречающийся вариант, это когда требуется воспретить регистрировать странички, а так же не следовать ссылкам, размещенным на ней. Вот каким кодом это можнож организовать:
<meta name="robots" content="noindex,nofollow" />
noindex,follow
В случае, ежели требуется воспретить индексирование, но разрешить передачу ссылочного веса ссылкам на страничке:
<meta name="robots" content="noindex,follow" />
В случае, ежели требуется разрешить индексирование странички, без передачи ссылочного веса ссылкам:
index,nofollow
<meta name="robots" content="index,nofollow" />
Так же можнож сочетать внедрение файла «robots.txt» с тегом meta robots. Это может отдать некие превосходства. Вопервых, это двойная гарантия, что подходящая станица не будет проиндексирована, желая ничто не может помешать поисковому боту проигнорировать как файл, так и META тег, и получить содержание странички.
meta тег robots имеет превосходство перед файлом robots.txt, при условии, что в файлике индексирование разрешено, а в meta теге воспрещено. Таковым образом, можно, к примеру, воспрещать индексацию способом исключений.
Итак, дторой вариант - запрет индексации при помощи файла «robots. txt»
Ниже приведен пример указаного файла (корень сайта!):
User-agent: *
Disallow: /admin/
Disallow: /map/
Disallow: /ad/search/
Disallow: /cat/search/
Host: www.fed.name
Sitemap: http://www.fed.name/sitemap.xml
User-agent: Yandex
Disallow: /admin/
Disallow: /map/
Disallow: /ad/search/
Disallow: /cat/search/
Host: www.fed.name
Sitemap: http://www.fed.name/sitemap.xml
User-agent: googlebot
Disallow: /admin/
Disallow: /map/
Disallow: /ad/search/
Disallow: /cat/search/
Host: www.fed.name
Sitemap: http://www.fed.name/sitemap.xml
Disallow: /admin/
Disallow: /map/
Disallow: /ad/search/
Disallow: /cat/search/
Host: www.fed.name
Sitemap: http://www.fed.name/sitemap.xml
User-agent: Yandex
Disallow: /admin/
Disallow: /map/
Disallow: /ad/search/
Disallow: /cat/search/
Host: www.fed.name
Sitemap: http://www.fed.name/sitemap.xml
User-agent: googlebot
Disallow: /admin/
Disallow: /map/
Disallow: /ad/search/
Disallow: /cat/search/
Host: www.fed.name
Sitemap: http://www.fed.name/sitemap.xml
Разберем все по пунктам!
Директива «User-agent»
Видите ли, файл содержит обращение к конкретному агенту поисковика через директиву «User-agent». Используя ее, Вы, скажем, сможете разрешить одному поисковику индексировать сайт, а иному (остальным) нет. Либо же разрешить индексировать различным поисковым системам различные странички сайта, тоесть каждый поисковик будет получать другу страничку для индексации и не сможет проиндексировать страницу, предназначенную для другого поискового бота). Так же можно обратиться сходу ко всем агентам поисковых систем указав в качестве значения для директивы «User-agent» знак «*». Таковым образом поисковой агент, прочитав файл «robots. txt» не найдя в нем указаний для себя, будет отыскивать указатели, описанные для «User-agent: *».
Ниже приведен перечень неких «User-agent» для различных поисковых систем:
«Yandex» — агент поисковика «Яндекс».
«Googlebot» — агент поисковика «Google».
«Googlebot-Mobile» — агент поисковика «Google», сканирует странички для включения в индекс для мобильных устройств.
«Googlebot-Image» — агент поисковика «Google», сканирует странички для индекса картинок.
«Mediapartners-Google» — агент поисковика «Google», сканирует странички для определения содержания «AdSense».
«Adsbot-Google» — агент поисковика «Google», сканирует странички, расценивая качество целевых страничек для «AdWords».
«StackRambler» — агент поисковика «Rambler».
Директива «Disallow»
Директива «Disallow» показывает поисковому агенту, какие разделы сайта воспрещены для индексации. Используя директивы «User-agent» и «Disallow» можнож воспретить предопределенной поисковой системе регистрировать Ваш сайт. Вот так, к примеру можнож воспретить «Google» регистрировать вполне весь сайт:
User-agent: googlebot
Disallow: /
Disallow: /
А последующим образом можнож закрыть сайт для индексации всем поисковым системам:
User-agent: *
Disallow: /
Disallow: /
В директиве «Disallow» идет указывать сборники сайта, которые нужно закрыть от индексации. К примеру, админ сайта не желает, чтоб индексировалась PDA версия сайта, расположенная по адресу www.example.ru/pda/. Это можнож сделать последующим образом:
User-agent: *
Disallow: /pda/
Disallow: /pda/
Достаточно нередко возникает мысль, надобно либо нет ставить «слеш» опосля наименования раздела, указанного в директиве «Disallow»? Дело в том, что для поисковой системы www.example.ru/pda/ и www.example.ru/pda являются безусловно различными страничками сайта, потому ежели программное обеспечение сайта выдает однообразное содержимое как для www.example.ru/pda/ так и для www.example.ru/pda, то в «robots. txt» необходимо указать:
User-agent: *
Disallow: /pda/
Disallow: /pda
Disallow: /pda/
Disallow: /pda
Таковым образом, мы закроем два раздела от индексирования для всех поисковых систем.
Побочным эффектом заключительного способа готов стать то, что Disallow: /pda воспретит индексацию так же таковых страничек, как /pda.html, /pda-download.html и т. д. , т. е. всех страничек, которые начинаются с pda и лежат к корневой директории сайта.
Последующий код не воспрещает ничего, т. е. разрешает регистрировать все странички сайта для всех поисковых систем:
User-agent: *
Disallow:
Disallow:
Обратная по смыслу директиве «Disallow» является директива «Allow». «Allow» разрешает регистрировать указанный в ней раздел сайта. Допустим нам необходимо воспретить индексирование всего сайта, кроме раздела /info/. В данном варианте нам не надо перечислять все другие разделы в директивах «Disallow», чтоб закрыть их от индексации. Правильным решением будет последующий код:
User-agent: *
Allow: /info/
Disallow: /
Allow: /info/
Disallow: /
Таковым образом мы разрешили всем поисковым системам регистрировать раздел сайта /info/, но воспретили регистрировать все другие разделы.
Директива «Host»
Директива «Host» описывает главной адресок сайта. Это актуально в случае, ежели Ваш сайт имеет несколько зеркал. Указав в директиве «Host» главное зеркало, Вы поможете поисковику сделать верный выбор. Директива «Host» для 1-го «User-agent» быть может лишь одна.
Директива «Sitemap»
Директива «Sitemap» показывает поисковому агенту размещение файла карты сайта «sitemap. xml». Это поможет поисковику прытче отыскать файл карты сайта. В случае, ежели на Вашем вебсайте употребляется несколько карт, то их можнож указать последующим образом:
User-agent: *
Sitemap: http://www.example.com/sitemap1.xml
Sitemap: http://www.example.com/sitemap2.xml
Sitemap: http://www.example.com/sitemap1.xml
Sitemap: http://www.example.com/sitemap2.xml
Проверить, верно ли составлен файл «robots.txt» можнож при помощи специальной службы «Яндекса».
Контролируйте свой index!
По материалам: codeisart.ru
Ключевые теги: seo, robots
Просмотров: 2807
Комментарии (1)
#1 написал: Дмитрий (3 декабря 2009 00:38)
ICQ: --
цитировать
цитировать




![Validate my RSS feed [Valid RSS]](http://validator.w3.org/feed/images/valid-rss.png)
Гости