Настройка robots.txt

Файл robots.txt представляет собой текстовый файл и находится в корневом каталоге сайта. Этот файл содержит инструкции для поисковых роботов относительно того, что им нужно индексировать, а что нет. Надо помнить, что не все содержимое сайта, а это различные файлы, директории и медиа, должно быть доступно для всеобщего обозрения, а также для роботов поисковых систем. Если не прописать определенные правила в файле роботс для этих ботов, то в индекс попадет большое количество страниц, не имеющих отношения к содержанию ресурса. Также может произойти многократное дублирование контента, т.е. по разным ссылкам будет доступен один и тот же контент, что поисковые системы очень не любят и что чревато санкциями с их стороны.Следовательно нужно запретить индексацию такого контента для поисковых систем. И поможет нам в этом правильно настроенный robots.txt.

Правила написания файла robots.txt: 
User-agent: - имя бота
Allow: - разрешение
Disallow: - запрет
Host: - имя хоста

Пример написания простого файла robots.txt:
User-Agent: *                                      
Disallow:                                
Sitemap: http://mysite.ru/sitemap.xml   
Host: mysite.ru                                   
Данные правила разрешают вход для всех ботов, ничего не запрещают, указывают путь к файлу sitemap и оповещают, что главное зеркало сайта это mysite.ru.

Для сайта сделанного на WordPress таких простых правил конечно же не достаточно. Здесь очень много директорий и файлов, которые обязательно нужно закрыть от поисковых роботов, иначе весь дублированный контент, которым изобилует CMS WordPress, попадет в индекс, а затем неминуемо и в так называемые сопли Google или supplemental results. Яндекс также наложит на многие страницы свои фильтры, что негативно скажется на продвижении всего сайта.

Пример файла robots.txt адаптированного именно под WordPress:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*

Sitemap: http://mysite.ru/sitemap.xml
Host: mysite.ru

Следует также проверить, не противоречат ли правила, прописанные в robots.txt открытым для индексации директориям в карте сайта sitemap.xml

1 Комментарий

  1. Royal

    That adesdrses several of my concerns actually.

Оставить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *