Правильный Robots.txt для DLE

Как известно, в конце 2009 года в поисковой системе Яндекс был введен новый алгоритм индексации страниц под названием АГС-30. Он основывается более, чем на 100 новых параметрах.
Естественно, что никому не известно, как именно работают поисковые алгоритмы, но произвести некоторые наблюдения и получить свою картину происходящего мы можем и самостоятельно!
robots.txt — файл ограничения доступа к содержимому роботам на http-сервере. Файл должен находиться в корне сайта (то есть иметь путь относительно имени сайта сайт.ру/robots.txt). При наличии нескольких субдоменов файл должен располагаться в корневом каталоге каждого из них. Данный файл дополняет стандарт Sitemaps, который служит прямо противоположной цели: облегчать роботам доступ к содержимому.
Как известно, в конце прошлого года в поисковой системе Яндекс был введен новый алгоритм индексации страниц под названием АГС-30(АГС-30 – это новый алгоритм фильтрации некачественных сайтов, называемых в кругах оптимизаторов как ГС.). Он основывается более, чем на 100 новых параметрах.
Естественно, что никому не известно, как именно работают поисковые алгоритмы, но произвести некоторые наблюдения и получить свою картину происходящего мы можем и самостоятельно.
Можно сказать сразу, что данный алгоритм никак не затронул старые сайты, которым больше двух-трех лет. Но молодым сайтам, что мы можем видеть по расположенным на хостинге сайтам, попало от АГС по полной программе. Одни сайты лишились тысяч страниц в индексе Яши, некоторые выпали из выдачи почти полностью, другие сильно сдали позиции в поисковой выдаче. Но некоторое количество все же выстояли против новых алгоритмов и, более того, даже продолжают расти.
На основе данных наблюдений мы можем уделить внимание следующему аспекту: Яндекс ныне не терпит повторяющихся страниц на сайте (дублей), страниц без контента либо служебных. Такие страницы обязательно (!) нужно закрывать от индексации и следить за тем чтобы одна страница не могла быть доступна по другому адресу (URL). Часто подобную ситуацию позволяют CMS сайтов, например в DLE можно размещать одну новость в несколько разных категорий и получается, что статья-то одна и та же, а URL:
http://сайт.ру/категория-вторая/название_новости.html
...разный.
Если вам дорог ваш сайт, старайтесь не допускать такого.
Также подобную проблему могут вызвать календарь, теги, метки, архивы...
Но тут мы можем себе помочь:
Создаем текстовый файл robots.txt
Копируем туда следующий текст:
Код:
User-agent: *
Disallow: /engine/go.php
Disallow: /engine/download.php
Disallow: /user/
Disallow: /newposts/
Disallow: /statistics.html
Disallow: /*subaction=userinfo
Disallow: /*subaction=newposts
Disallow: /*do=lastcomments
Disallow: /*do=feedback
Disallow: /*do=register
Disallow: /*do=lostpassword
Disallow: /*do=addnews
Disallow: /*do=stats
Disallow: /*do=pm
Sitemap: http://megaweb.su/sitemap.xml
Host: megaweb.su
P.S. Ясное дело megaweb.su заменить на свой домен :)
!!!Важный момент!!! - директиву Host понимает только Yandex поэтому для него и для других поисковых систем нужно разделять директивы.
Так же полезно почитать про директиву Crawl delay и снижение нагрузки на сервер
Пользуйтесь на здоровье!
Понравилась новость Правильный Robots.txt для DLE на MegaWeb.su? Сохрани в закладках или распечатай!
Информация

Если копируете мой материал - будьте добры оставлять ссылку на источник MegaWeb.su пожалуйста, или поставьте на свой сайт мою кнопочку.
Уважайте чужой труд! И Вам хорошо - и мне приятно, это стимулирует дальнейшее развитие проекта!
Другие новости по теме
Обратите внимание, возможно Вас заинтересуют другие публикации, похожие на Правильный Robots.txt для DLE из категории Советы
- Основы / Шаблоны ⋙ CSS3 книга с эффектом перелистывания страниц
- Советы ⋙ Как снизить нагрузку сайта DLE на сервер
- О сайте ⋙ Как правильно регистрировать сайт или история MegaWeb.su
- Основы / Шаблоны ⋙ Стильный правильный PHP редирект с таймером обратного отсчёта
- Основы / CSS ⋙ Мини Курс Основы CSS Часть 2
- Основы / HTML ⋙ Мини Курс Основы HTML Часть 2
- Основы / HTML ⋙ Мини Курс Основы HTML Часть 1
- Советы ⋙ Обзор форматов электронных книг .chm .DjVu .doc (Word) .exe .exe (exebook) .fb2 .pdb .PalmDOC (он же — AportisDoc) .pdf .rtf .txt
- Советы ⋙ Возможности Google поиска
- Основы / XHTML ⋙ XHTML основы Основное различие между HTML и XHTML
Информация

Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.