Эта запись написана мною в 2012 году. В те времена деревья были высокими, а доллар стоил меньше 40 рублей. С тех пор прошло много времени и многое изменилось. Учитывайте это, читая.
Очень давно сюда не писал — сначала не знал о чём писать, потом как-то то было лень, то времени не было. В общем плохо это, забрасывать блог. В любом случае этот момент настал и я пишу очередной пост, на этот раз о файле robots.txt
Файл вы можете найти по ссылка ваш_сайт.ru/robots.txt (для моего блога — blweb.ru/robots.txt ). У системы uCoz по-умолчанию есть такой стандартный файл:
User-agent: * Disallow: /a/ Disallow: /stat/ Disallow: /index/1 Disallow: /index/2 Disallow: /index/3 Disallow: /index/5 Disallow: /index/7 Disallow: /index/8 Disallow: /index/9 Disallow: /panel/ Disallow: /admin/ Disallow: /secure/ Disallow: /informer/ Disallow: /mchat Disallow: /search Disallow: /shop/order/ Disallow: /?ssid= Sitemap: http://site.ru/sitemap.xml Sitemap: http://site.ru/sitemap-forum.xml Sitemap: http://site.ru/sitemap-shop.xml
Он вполне пригоден для большинства сайтов и если вы не полностью понимаете как и зачем менять robots.txt — лучше этого не делайте — можете только навредить.
Файл robots.txt создан специально для поисковых роботов. Они видят в нём инструкции по индексации сайта, вы можете в нём сообщить поисковику, к примеру, что можно индексировать, а что нельзя.
Теперь разберём стандартный юкозовский robots:
User-agent: * — это означает, что дальнейшие инструкции предназначены для всех поисковых роботов (на самом деле предназначены для всех остальных роботов, которые ещё не были указаны отдельно, но у нас в стандартном файле ни один из роботов отдельно не указывается). Можно указывать конкретного робота и указывать только ему. Для Яндекса это будет выглядеть так:
User-agent: Yandex
Другие роботы имеют другие названия: Для Google — Googlebot (инструкция User-agent: Googlebot), для Yahoo — Yahoo! Slurp и так далее.
Далее у нас идёт ряд инструкция с «Disallow«. Это означает запрет на индексацию определённых страниц.
Disallow / — запрещает индексировать весь сайт
Disallow /name — запрещает индексировать всё, что начинается c ‘/name’
Disallow /name/ — запрещает индексировать весь каталог name (т.е. если есть страницы site.ru/name/blablabla — они все запрещены к индексации)
Далее в стандартном файле есть команда Sitemap со ссылками на xml карты сайта:
Sitemap: http://site.ru/sitemap.xml Sitemap: http://site.ru/sitemap-forum.xml Sitemap: http://site.ru/sitemap-shop.xml
Это так же стандартные файлы в системе uCoz, для чего они нужны я напишу как-нибудь в другой раз. Впрочем название намекает на их значение.
На этом инструкции стандартного юкозовсокого robots.txt заканчиваются, тем не менее существуют и другие полезные вещи, которые вы можете использовать самостоятельно:
Allow — обратная инструкция Disallow. Разрешает индексацию. Т.е. если вы пропишите
Disallow: / Allow: /blog/
Будет индексироваться только каталог blog
При указании путей можно использовать символы * и $
* означает любую последовательность символов (а так же пустую)
$ отменяет действие * (по умолчанию * приписывается к концу каждого пути. т.е. /name/ означает /name/*)
Host — эту инструкцию используют для указания главного зеркала сайта. Т.е. если ваш сайт доступен по адресам site1.ru, site2.ru и site3.ru, а вы хотите что бы в поиске виден был именно site1.ru, вы прописываете
Host: http://site1.ru
Есть ещё некоторые инструкции, но они вам вряд ли понадобятся.
Если вы хотите отредактировать ваш стандартный файл или написать свой, то создайте у себя на компьютере текстовый файл robots.txt, впишите все нужные инструкции и просто залейте в файловый менеджер вашего сайта.
с ucoz вообще заморочки
а как заливать-то? robot@cherniler.ucoz.ru
с помощью файлового менеджера или FTP
ЧТО ОЗНАЧАИТ Disallow: /a/
Добрый вечер!
А вы правы, это абсолютно бесполезная инструкция, я ошибся. Сегодня подредактирую статью. Спасибо
Здравствуйте, что означает строчка Disallow: /dir/all/ у других сайтов ни разу не видел, заранее спасибо!