ВозможностиВОЗМОЖНОСТИ

image

Нужная информация

Здесь вы найдете только полезную информацию без воды.
 
image

Бесплатно

Все уроки, рекомендации и советы абсолютно бесплатны.

Выбор хостинга

46 уроков

SEO блог

Урок 28: что такое файл robots.txt? Создание и настройка

Файл robots.txt или же Robots Exclusion Protocol является прекрасным способом указания поисковой машине, какие веб-страницы не нужно индексировать. Иногда бывает, что по достижении неплохих позиций в рейтингах поисковых систем, вы начинаете понимать, что совсем не хотите, чтобы некоторые страницы посещали пользователи.

Или, если вы желаете, чтобы конкретную страницу увидели в первую очередь. Или же у вас есть несколько одинаковых страниц для различных расширений экрана. Но поисковики не любят зеркальные сайты, именно поэтому в таком случае можно заблокировать для поисковиков один из вариантов сайта.

Помимо этого, вам, скорее всего, захочется, чтобы поисковый робот не индексировал те или иные веб-страницы вашего сайта, так как, индексируя страницы, спайдеры функционируют с некоторыми ограничениями по ресурсам и времени. А вам необходимо, чтобы индексация была сосредоточена на самых важных страницах ресурса, связанных, например, с ценами, товаром и клиентами.

Для чего нужен файл Robots.txt?

Другими словами, если от появления страницы в результатах поиска нет никакой пользы, то ее можно скрыть от поискового робота с помощью файла robots.txt. Это не просто увеличит ресурсы поискового робота, потраченные на ваши наиболее важные страницы, но также и поможет защитить сайт от хакеров, которые в своих целях могут использовать результаты индексации для заполучения важной информации о вашем ресурсе или компании.

Существует ряд причин, по которым вебмастер может пожелать скрыть некоторые свои страницы. Хотя спайдеры поисковых машин достаточно примитивны, вы же всё-таки можете с ними общаться. Для этого и существуют файлы, которые известны также как протоколы исключения. Это вполне простой процесс создания обычного текстового файла и его размещение в корневом каталоге сайта. Каждый раз, когда поисковый робот делает запрос на ваш ресурс, он запрашивает также и файл robots.txt.

Эти файлы используется лишь ради одного – уведомить спайдера поисковых машин, какие именно страницы не следует индексировать. Существует неверное представление о том, что файл robots.txt можно так или иначе использовать, чтобы поощрять поисковые системы проиндексировать сайт. Это абсолютная неправда! Страницы, соответствующие описанным принципам, приведенным в данном разделе, всегда проверяются поисковыми роботами, не нуждаясь в дополнительной поддержке. Таким образом, важнейшей задачей SEO оптимизации является идентификация элементов, вызывающих трудности индексации у спайдеров и устранение этих элементов.

Существует значительная проблема, связанная с незнанием принципа работы файла robots.txt. Множество сайтов случайно настроили свои файлы robots.txt так, что они препятствуют поисковым роботам нормально индексировать сам сайт.

Когда поисковая машина заходит на ресурс, она в первую очередь проверяет, есть ли файл robots.txt. Если такой имеется, то она его анализирует и руководствуется полученной информацией. Знаете ли вы, например, что добавление нижеприведенных двух строк в файл robots.txt приведет к тому, что поисковые машины никогда не заглянут на ваш сайт?

User-agent: *

Disallow: /

Данные строки запрещают некоторым роботам просматривать заданные страницы и каталоги сайта. Звездочка значит, что указания касаются всех роботов, однако, если вы желаете, чтобы запрет действовал лишь на какого-то отдельного робота, то вместо звездочки укажите его имя.

Что нужно указывать в файле robots.txt?

В строке Disallow необходимо указать каталоги и файлы, которые вы не хотели бы индексировать. К примеру, большая часть вебмастеров не хотят, чтобы поисковые роботы индексировали каталог cgi-bin. В таком случае в файле robots.txt необходимо указать:

User-agent: *

Disallow: /cgi-bin/

Например, в Google Webmaster существует даже специальная функция, позволяющая посмотреть число запрещенных к индексации страниц. Ниже приведен пример файла robots.txt, используемый веб-мастерами, работающими с Joomla, наиболее часто:

User-agent: *

Disallow: /administrator/

Disallow: /cache/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /libraries/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /tmp/

Disallow: /xmlrpc/

Но для Яндекса необходимо отдельно в этом же файле прописывать код, например, следующим образом:

User-agent: Yandex

Disallow: /administrator/

Disallow: /cache/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /libraries/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /tmp/

Disallow: /xmlrpc/

Также в файле robots.txt очень часто указываться адрес расположения карты сайта. Итак, в этом уроке мы рассмотрели очень важный для индексации сайта файл robots.txt, надеюсь вам всё понятно. Еще раз повторюсь, этот текстовый файл необходимо размещать в корне вашего сайта.

Вы можете перейти к следующему уроку или вернуться к предыдущему.

Рекомендуется

  • Хостинг - домен бесплатно
  • Купить статьи для сайта
  • Купить-продать ссылки
  • Купить-продать вечные ссылки