МожливостіМОЖЛИВОСТІ

image

Необхідна інформація

Тут ви знайдете тільки корисну інформацію без води.
 
image

Безкоштовно

Всі уроки, рекомендації та поради абсолютно безкоштовні.

Вибір хостингу

46 уроків на одній сторінці

SEO блог

Урок 28: що таке файл robots.txt? Створення та налаштування

Файл robots.txt або ж Robots Exclusion Protocol є прекрасним способом вказівки пошуковій машині, які веб-сторінки не потрібно індексувати. Іноді буває, що після досягнення непоганих позицій в рейтингах пошукових систем, ви починаєте розуміти, що зовсім не хочете, щоб деякі сторінки відвідували користувачі.

Або, якщо ви бажаєте, щоб конкретну сторінку побачили в першу чергу. Або ж у вас є кілька однакових сторінок для різних розширень екрану. Але пошукачі не люблять дзеркальні сайти, саме тому в такому випадку можна заблокувати для пошукових систем один з варіантів сайту.

Крім цього, вам, швидше за все, захочеться, щоб пошуковий робот не індексував ті чи інші веб-сторінки вашого сайту, так як, індексуючи сторінки, спайдери функціонують з деякими обмеженнями по ресурсах і часу. А вам необхідно, щоб індексація була зосереджена на найважливіших сторінках ресурсу, пов'язаних, наприклад, з цінами, товаром і клієнтами.

Для чого потрібен файл Robots.txt?

Іншими словами, якщо від появи сторінки в результатах пошуку немає ніякої користі, то її можна приховати від пошукового робота за допомогою файлу robots.txt. Це не просто збільшить ресурси пошукового робота, витрачені на ваші найбільш важливі сторінки, але також і допоможе захистити сайт від хакерів, які в своїх цілях можуть використовувати результати індексації для отримання важливої інформації про ваш ресурс або компанію.

Існує ряд причин, за якими вебмайстер може побажати приховати деякі свої сторінки. Хоча спайдери пошукових машин досить примітивні, ви ж все-таки можете з ними спілкуватися. Для цього й існують файли, які відомі також як протоколи вилучення. Це цілком простий процес створення звичайного текстового файлу і його розміщення в кореневому каталозі сайту. Кожен раз, коли пошуковий робот робить запит на ваш ресурс, він запитує також і файл robots.txt.

Ці файли використовується лише заради однієї мети — повідомити спайдера пошукових машин, які саме сторінки не слід індексувати. Існує невірне уявлення про те, що файл robots.txt можна так чи інакше використовувати, щоб заохочувати пошукові системи проіндексувати сайт. Це абсолютна неправда! Сторінки, відповідні описаним принципам, наведеним в даному розділі, завжди перевіряються пошуковими роботами, не потребуючи додаткової підтримки. Таким чином, найважливішим завданням SEO оптимізації є ідентифікація елементів, що викликають труднощі індексації у спайдерів і усунення цих елементів.

Існує значна проблема, пов'язана з незнанням принципу роботи файлу robots.txt. Безліч сайтів випадково налаштували свої файли robots.txt так, що вони перешкоджають пошуковим роботам нормально індексувати сам сайт.

Коли пошукова машина заходить на ресурс, вона в першу чергу перевіряє, чи є файл robots.txt. Якщо такий є, то вона його аналізує і керується отриманою інформацією. Чи знаєте ви, наприклад, що додавання наведених нижче двох рядків в файл robots.txt призведе до того, що пошукові машини ніколи не заглянуть на ваш сайт?

User-agent: *

Disallow: /

Дані рядки забороняють деяким роботам переглядати задані сторінки і каталоги сайту. Зірочка означає, що вказівки стосуються всіх роботів, однак, якщо ви бажаєте, щоб заборона діяла лише на якогось окремого робота, то замість зірочки вкажіть його ім'я.

Що потрібно вказувати в файлі robots.txt?

У рядку Disallow необхідно вказати каталоги і файли, які ви не хотіли б індексувати. Наприклад, більшість вебмайстрів не бажають, щоб пошукові роботи індексували каталог cgi-bin. В такому випадку у файлі robots.txt необхідно вказати:

User-agent: *

Disallow: /cgi-bin/

Наприклад, в Google Webmaster існує навіть спеціальна функція, що дозволяє подивитися кількість заборонених до індексації сторінок. Нижче наведений приклад файлу robots.txt, який використовується вебмайстрами, які працюють з Joomla, найбільш часто:

User-agent: *

Disallow: /administrator/

Disallow: /cache/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /libraries/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /tmp/

Disallow: /xmlrpc/

 

Також в файлі robots.txt часто вказують адресу розташування мапи сайту. Отже, в цьому уроці ми розглянули дуже важливий для індексації сайту файл robots.txt, сподіваюся вам все зрозуміло. Ще раз повторюся, цей текстовий файл необхідно розміщувати в корені вашого сайту.

Ви можете перейти до наступного уроку або повернутися до попереднього.

Рекомендовано

  • Хостинг - домен безкоштовно
  • Купити статті для сайту
  • Купити-продати посилання
  • Купити-продати вічні посилання

Яндекс.Метрика