Файл robots.txt

В этой статье:

Основные роботы Яндекса

Основные роботы Google

Герман. Файл робот текст

В этом файле определяются различные директивы, которые указывают роботам, какие страницы сайта им можно или нельзя индексировать. Вот основные директивы, которые могут быть использованы в файле robots.txt:

User-agent

Эта директива указывает, какому поисковому роботу (пауку) предназначены следующие директивы. Например:

     User-agent: Googlebot  
     User-agent: Yandex

Allow

Директива Allow указывает роботу разрешенные для индексации URL-адреса или папки. Например:

     Allow: /images/

Disallow

Директива Disallow указывает роботу запрещенные для индексации URL-адреса или папки. Например:

     Disallow: /private/

Sitemap

Директива Sitemap указывает путь к файлу XML-карты сайта (sitemap.xml), которая содержит список всех доступных страниц сайта. Например:

     Sitemap: https://www.example.com/sitemap.xml

Crawl-delay

Директива Crawl-delay указывает задержку (в секундах), которую робот должен сделать перед сканированием следующей страницы сайта. Например:

     Crawl-delay: 5

Основные роботы Яндекса

YandexBot: Основной поисковый робот Яндекса.
YandexImages: Робот, индексирующий изображения. -
YandexVideo: Робот, индексирующий видео. -
YandexMedia: Робот, индексирующий мультимедийный контент.

Основные роботы Google

Googlebot: Основной поисковый робот Google.
Googlebot-Image: Робот, индексирующий изображения.
Googlebot-News: Робот, индексирующий новости.
Googlebot-Video: Робот, индексирующий видео.

Указывая соответствующие директивы для этих роботов в файле robots.txt, вы можете контролировать их доступ к вашему сайту и индексации нужного контента.

Пример использования файла robots.txt для запрета индексации всего сайта для роботов Яндекса и Google выглядит следующим образом:

User-agent: Yandex
Disallow: /

User-agent: Googlebot
Disallow: /

В данном примере используется директива "Disallow" с значением "/", что означает запрет индексации всех страниц и папок на сайте для указанных роботов.

Таким образом, поисковые роботы Яндекса и Google не будут индексировать ни одну страницу вашего сайта.

Однако, стоит отметить, что политика индексации может различаться для разных поисковых систем, и хорошей практикой является указание директив для каждого робота отдельно, чтобы точно контролировать индексацию.

Например, если вы хотите разрешить индексацию для Google, но запретить для Яндекса, вы можете использовать следующий код:

# Разрешаем обоим роботам доступ к корневой директории сайта
User-agent: Yandex
User-agent: Googlebot
Disallow:

# Запрещаем индексацию определенных папок и файлов для обоих роботов
User-agent: Yandex
User-agent: Googlebot
Disallow: /private/
Disallow: /tmp/
Disallow: /admin/

# Запрещаем индексацию всех страниц с параметрами
User-agent: Yandex
User-agent: Googlebot
Disallow: /*?

# Запрещаем индексацию всех страниц в папке "images"
User-agent: Yandex
User-agent: Googlebot
Disallow: /images/

# Указываем путь к файлу sitemap.xml
Sitemap: https://www.example.com/sitemap.xml

В этом примере:

Первые две директивы разрешают обоим роботам доступ ко всем разделам сайта.

Затем следуют директивы, которые запрещают индексацию определенных папок, таких как /private/, /tmp/ и /admin/.

Следующая директива запрещает индексацию всех страниц с параметрами.

Затем указывается, что папка /images/ должна быть запрещена для индексации.

В конце файла указывается путь к файлу sitemap.xml.

Пожалуйста, учтите, что это только пример, и вам может потребоваться настроить файл robots.txt в соответствии с требованиями и особенностями вашего сайта.

Обратная связь

Файл robots.txt

User-agent

Allow

Disallow

Sitemap

Crawl-delay

Рекомендации по использованию файла robots.txt

Основные роботы Яндекса

Основные роботы Google

Нам важна ваша реакция