16.10.2012

Robots.txt для uCoz: что это и как изменить

Эта запись написана мною в 2012 году. В те времена деревья были высокими, а доллар стоил меньше 40 рублей. С тех пор прошло много времени и многое изменилось. Учитывайте это, читая.

Очень давно сюда не писал — сначала не знал о чём писать, потом как-то то было лень, то времени не было. В общем плохо это, забрасывать блог. В любом случае этот момент настал и я пишу очередной пост, на этот раз о файле robots.txt

Файл вы можете найти по ссылка ваш_сайт.ru/robots.txt (для моего блога — blweb.ru/robots.txt ). У системы uCoz по-умолчанию есть такой стандартный файл:

User-agent: *
Disallow: /a/
Disallow: /stat/
Disallow: /index/1
Disallow: /index/2
Disallow: /index/3
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /panel/
Disallow: /admin/
Disallow: /secure/
Disallow: /informer/
Disallow: /mchat
Disallow: /search
Disallow: /shop/order/
Disallow: /?ssid=
Sitemap: http://site.ru/sitemap.xml
Sitemap: http://site.ru/sitemap-forum.xml
Sitemap: http://site.ru/sitemap-shop.xml

Он вполне пригоден для большинства сайтов и если вы не полностью понимаете как и зачем менять robots.txt — лучше этого не делайте — можете только навредить.

Файл robots.txt создан специально для поисковых роботов. Они видят в нём инструкции по индексации сайта, вы можете в нём сообщить поисковику, к примеру, что можно индексировать, а что нельзя.

Теперь разберём стандартный юкозовский robots:

User-agent: * — это означает, что дальнейшие инструкции предназначены для всех поисковых роботов (на самом деле предназначены для всех остальных роботов, которые ещё не были указаны отдельно, но у нас в стандартном файле ни один из роботов отдельно не указывается). Можно указывать конкретного робота и указывать только ему. Для Яндекса это будет выглядеть так:

User-agent: Yandex

Другие роботы имеют другие названия: Для Google — Googlebot (инструкция User-agent: Googlebot), для Yahoo — Yahoo! Slurp и так далее.

Далее у нас идёт ряд инструкция с «Disallow«. Это означает запрет на индексацию определённых страниц.

Disallow / — запрещает индексировать весь сайт

Disallow /name — запрещает индексировать всё, что начинается c ‘/name’

Disallow /name/ — запрещает индексировать весь каталог name (т.е. если есть страницы site.ru/name/blablabla — они все запрещены к индексации)

Далее в стандартном файле есть команда Sitemap со ссылками на xml карты сайта:

Sitemap: http://site.ru/sitemap.xml
Sitemap: http://site.ru/sitemap-forum.xml
Sitemap: http://site.ru/sitemap-shop.xml

Это так же стандартные файлы в системе uCoz, для чего они нужны я напишу как-нибудь в другой раз. Впрочем название намекает на их значение.

На этом инструкции стандартного юкозовсокого robots.txt заканчиваются, тем не менее существуют и другие полезные вещи, которые вы можете использовать самостоятельно:

Allow — обратная инструкция Disallow. Разрешает индексацию. Т.е. если вы пропишите

Disallow: /
Allow: /blog/

Будет индексироваться только каталог blog

При указании путей можно использовать символы * и $

* означает любую последовательность символов (а так же пустую)

$ отменяет действие * (по умолчанию * приписывается к концу каждого пути. т.е. /name/ означает /name/*)

Host — эту инструкцию используют для указания главного зеркала сайта. Т.е. если ваш сайт доступен по адресам site1.ru, site2.ru и site3.ru, а вы хотите что бы в поиске виден был именно site1.ru, вы прописываете

Host: http://site1.ru

Есть ещё некоторые инструкции, но они вам вряд ли понадобятся.

Если вы хотите отредактировать ваш стандартный файл или написать свой, то создайте у себя на компьютере текстовый файл robots.txt, впишите все нужные инструкции и просто залейте в файловый менеджер вашего сайта.

Категория: Система uCoz Просмотров: 33305 6 комментариев twitter

Robots.txt для uCoz: что это и как изменить

Вам будет интересно:

Комментарии

Добавить комментарий