Создаем файл Robots.txt и карту веб-сайта в XML


Создаем файл Robots.txt и карту веб-сайта в XMLВо-первых, рекомендую почитать советы Yandex'а по созданию веб-сайта. Необходимо было ранее дать на их ссылки, да и на данный момент «самое время». Итак вот, в этом руководстве для правильного индексирования веб-сайта, вебмастерам рекомендуется использовать файл robots.txt и сделать карту веб-сайта в формате XML.

Начнем с карты веб-сайта.

Sitemaps XML

Из Википедии:

Sitemaps — это XML-файл с информацией для поисковых машин (таких как Гугл, Яху, Ask.com, MSN, Yandex) о страничках сайта, которые подлежат индексации

Чтоб сделать карту веб-сайта XML в WordPress необходимо скачать плагин Гугл XML Sitemaps и установить его. Про установку читайте здесь.

Чтоб сделать sitemap.xml в DLE необходимо зайти в админку и в перечне всех разделов отыскать пункт «Карта веб-сайта для Гугл и Yandex. Данный модуль предназначен для сотворения карт веб-сайта для поисковых машин Гугл и Yandex.» Далее разберетесь :) .

Если вы используете другой движок, отыскиваете информацию по созданию карты веб-сайта в XML в поисковиках.

Файл Robots.txt

О том, что такое robots.txt и для каких целей он нужен, читайте тут. Разобравшись с этой статьей, вы поймете как сделать верный robots.txt и что в нем писать.

Говоря обычным языком, файл Robots.txt нужен для того, чтоб запретить индексацию ненадобных страничек нашего веб-сайта. Под ненадобными страничками понимаются странички не содержащие полезной инфы и делающие веб-сайт наименее высококачественным в очах поисковой машины. К примеру странички RSS фида, странички поиска, регистрации, профили юзеров, странички, дублирующие информацию и т.д.

Я приведу свои примеры файла robots txt для wordpress и для DLE и кратко их прокомментирую.

Robots.txt для wordpress

User-agent: *

Allow: /wp-content/uploads/

Disallow: /cgi-bin

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /xmlrpc.php

Disallow: /wp-admin/

Disallow: /wp-includes/

Disallow: /wp-content/

Disallow: /trackback/

Disallow: */trackback/

Disallow: /feed/

Disallow: */feed/

Disallow: /?feed=

Disallow: /*page/

Disallow: /tag/

Disallow: /?s=

Sitemap: http://vash-site.ru/sitemap.xml

Host: vash-site.ru

Что у нас выходит:

Allow: /wp-content/uploads/

Разрешаем регистрировать папку wp-content/uploads/. Чтоб бот регистрировал рисунки и остальные файлы, которые мы загрузили.

Disallow: /cgi-bin

Запрещаем регистрировать все, что лежит в папке cgi-bin

Disallow: /wp-login.php

Запрет индексации странички wp-login.php. Вход в админку не несет никакой полезной инфы и его необходимо запретить к индексации.

Disallow: /wp-register.php

То же самое и со страничкой регистрации - wp-register.php.

Disallow: /xmlrpc.php

Запрещаем индексацию файла xmlrpc.php. Некий файлик, который отвечает за вызов удаленных процедур в WP.

Disallow: /wp-admin/

Запрещаем регистрировать администратор панель WordPress.

Disallow: /wp-includes/

Даем указание не регистрировать файлы, находящиеся в директории wp-includes

Disallow: /wp-content/

Запрещаем индексацию в директории wp-content. В ней у нас лежат папки: с темами themes, плагинами – plugins, папка cache, если употребляются плагины для кеширования страничек и т.д. Другими словами, куча никчемного, что не надо регистрировать. Единственное что представляет ценность это папка wp-content/uploads/, но мы ее уже разрешили регистрировать сначала.

Disallow: /trackback/

Disallow: */trackback/

Что-то связанное с трекбеками. Подглядел кое-где и включил в собственный файл robots.txt

Disallow: /feed/

Disallow: */feed/

Disallow: /?feed=

Запрещаем индексацию всего, что связано с фидами. Тоже кое-где подглядел, особо не разбирался.

Disallow: /page/

Запрет индексации страничек с постами. (Страничка 1 из 12345678»…-В конец ») В принципе странички содержат полезную информацию, но регистрировать их не надо. Так как странички не оптимизируются по любым запросами содержат дублированный контент.

Disallow: /tag/

Также будет правильным запретить тэги (метки). Yandex не очень любит их из-за дублированного контента. Но если хорошо распределять посты по меткам и в анонсах статей писать уникальные описания, и к каждой статье не добавлять кучу меток, а одну-две, то можно и разрешить регистрировать тэги. Лично я на собственном новеньком веб-сайте запрещаю.

Disallow: /?s=

Не индексируем странички поисковых результатов. Вот э
то просто непременно.

Sitemap: http://vash-site.ru/sitemap.xml

Указываем поисковому боту путь к карте веб-сайта в формате xml.

Host: vash-site.ru

Обозначаем что веб-сайт vash-site.ru является основным зеркалом.

Robots.txt для DLE

Верный robots.txt для dle также как и для Worrdpress должен запретить индексацию ненадобных страничек. Зависимо от типа избранного ЧПУ в настройках DLE файл роботс.тхт будет разным. Вот что я пишу в общем случае в файле robots.txt для dle:

User-agent: *

Disallow: /cgi-bin/

Disallow: /admin.php

Disallow: /#?do=lastcomments

Disallow: /#?do=feedback

Disallow: /#?do=lostpassword

Disallow: /#?do=search

Disallow: /#?do=pm

Disallow: /engine/

Disallow: /#?do=register

Disallow: /#?do=addnews

Disallow: /autobackup.php

Disallow: /backup/

Disallow: /user/

Disallow: /language/

Disallow: /favorites/

Disallow: /statistics.html

Disallow: /#?do=stats

Disallow: /#?subaction=newposts

Disallow: /newposts/

Disallow: /*print

Disallow: /*page/

Disallow: /templates/

Disallow: /tags/

Sitemap: http://vash-site.ru/sitemap.xml

Host: vash-site.ru

Сейчас подробнее:

Disallow: /cgi-bin/

Папка cgi-bin не будет индексироваться.

Disallow: /admin.php

Закрываем от индексации администратор панель DLE

Disallow: /#?do=lastcomments

Запрещаем индексить страничку с последними комментами.

Disallow: /#?do=feedback

Запрет индексации странички «Обратная связь».

Disallow: /#?do=lostpassword

Страничка восстановления пароля тоже не будет индексироваться.

Disallow: /#?do=search

Запрещаем регистрировать странички с поисковыми результатами.

Disallow: /#?do=pm

Не индексируем индивидуальные сообщения юзеров (ПМ)

Disallow: /engine/

Запрещаем регистрировать каталог engine, в каком у нас хранится cache, modules и прочее.

Disallow: /#?do=register

Закрываем от поисковиков страничку регистрации новых юзеров.

Disallow: /#?do=addnews

И страничку прибавления новостей.

Disallow: /autobackup.php

Disallow: /backup/

Прячем от индексации бекапы.

Disallow: /user/

Запрет на индексацию профилей юзеров.

Disallow: /language/

Запрещаем языковые фалы.

Disallow: /favorites/

Не индексируем то, что находится в избранном у юзера.

Disallow: /statistics.html

Disallow: /#?do=stats

Запрет на индексацию странички «Статистика».

Disallow: /#?subaction=newposts

Disallow: /newposts/

Не индексируем страничку «непрочитанных новостей» .

Disallow: /*print

Не индексируем «распечатанные страницы». Это будет правильным, не только лишь поэтому что так мы избавляемся от дублированного контента, но к тому же поэтому, что в поиске могут участвовать распечатанные странички, а не главные странички. Тогда юзер не увидит рекламы, а просто текст анонсы – нам это не прибыльно.

Disallow: /page/

Запрещаем регистрировать странички с постами (Возвратиться вспять Последующая страничка) .

Disallow: /templates/

Запрет на индексацию каталога с шаблонами – templates.

Disallow: /tags/

Не индексируем тэги. Это не непременно, но я бы закрывал тэги от индексации.

Sitemap: http://vash-site.ru/sitemap.xml

Указываем путь к файлу с картой веб-сайта в формате XML.

Host: vash-site.ru

Обозначаем что vash-site.ru является основным зеркалом.

Надеюсь заморочек не возникнет и вы составите верный Robots.txt. Либо сможете взять таковой же как привел я.

Только направьте внимание: vash-site.ru непременно поменяйте на домен вашего веб-сайта.

Источник: seo-nayka.ru


Только материалы из рубрики ТИЦ свободны для копирования без каких-либо условий. Ссылка на остальные материалы обязательна.