В этом файле определяются различные директивы, которые указывают роботам, какие страницы сайта им можно или нельзя индексировать. Вот основные директивы, которые могут быть использованы в файле robots.txt:
User-agent
Эта директива указывает, какому поисковому роботу (пауку) предназначены следующие директивы. Например:
User-agent: Googlebot User-agent: Yandex
Allow
Директива Allow указывает роботу разрешенные для индексации URL-адреса или папки. Например:
Allow: /images/
Disallow
Директива Disallow указывает роботу запрещенные для индексации URL-адреса или папки. Например:
Disallow: /private/
Sitemap
Директива Sitemap указывает путь к файлу XML-карты сайта (sitemap.xml), которая содержит список всех доступных страниц сайта. Например:
Sitemap: https://www.example.com/sitemap.xml
Crawl-delay
Директива Crawl-delay указывает задержку (в секундах), которую робот должен сделать перед сканированием следующей страницы сайта. Например:
Crawl-delay: 5
Рекомендации по использованию файла robots.txt
- Убедитесь, что файл robots.txt находится в корневом каталоге вашего сайта и доступен для чтения.
- Внимательно проверьте синтаксис и правильность написания директив. Ошибки могут привести к нежелательным последствиям.
- Не используйте файл robots.txt для скрытия конфиденциальной информации, так как это не является надежным средством защиты.
- Используйте комментарии, начинающиеся с символа "#", чтобы делать пояснения к содержимому файла.
- Проверьте правильность работы файла robots.txt с помощью инструментов анализа и тестирования, предоставляемых поисковыми системами.
- Учитывайте различия между роботам. Разные поисковые системы имеют своих собственных роботов со своими названиями. Убедитесь, что вы указываете директивы для конкретных роботов, которые вы хотите контролировать.
- Используйте комментарии. Комментарии помогут вам и другим разработчикам понять цель и назначение каждой директивы в файле robots.txt. Комментарии начинаются с символа "#".
- Проверяйте правильность синтаксиса. Ошибки в файле robots.txt могут привести к непредсказуемому поведению роботов. Поэтому рекомендуется использовать инструменты проверки синтаксиса, предоставляемые поисковыми системами.
- Создайте отдельный файл sitemap.xml. Файл sitemap.xml содержит список всех доступных страниц вашего сайта, и его указание в файле robots.txt помогает поисковым роботам эффективно индексировать ваш сайт. Рекомендуется создать и обновлять файл sitemap.xml и указывать его путь в файле robots.txt.
- Периодически проверяйте файл robots.txt. Проверяйте, что ваш файл robots.txt находится в корневой директории вашего сайта и доступен для чтения. Также периодически проверяйте его работу с помощью инструментов анализа, предоставляемых поисковыми системами.
Ниже приведены основные поисковые роботы для Яндекса и Google:
Основные роботы Яндекса
- YandexBot: Основной поисковый робот Яндекса.
- YandexImages: Робот, индексирующий изображения. -
- YandexVideo: Робот, индексирующий видео. -
- YandexMedia: Робот, индексирующий мультимедийный контент.
Основные роботы Google
- Googlebot: Основной поисковый робот Google.
- Googlebot-Image: Робот, индексирующий изображения.
- Googlebot-News: Робот, индексирующий новости.
- Googlebot-Video: Робот, индексирующий видео.
Указывая соответствующие директивы для этих роботов в файле robots.txt, вы можете контролировать их доступ к вашему сайту и индексации нужного контента.
Пример использования файла robots.txt для запрета индексации всего сайта для роботов Яндекса и Google выглядит следующим образом:
User-agent: Yandex Disallow: / User-agent: Googlebot Disallow: /
В данном примере используется директива "Disallow" с значением "/", что означает запрет индексации всех страниц и папок на сайте для указанных роботов.
Таким образом, поисковые роботы Яндекса и Google не будут индексировать ни одну страницу вашего сайта.
Однако, стоит отметить, что политика индексации может различаться для разных поисковых систем, и хорошей практикой является указание директив для каждого робота отдельно, чтобы точно контролировать индексацию.
Например, если вы хотите разрешить индексацию для Google, но запретить для Яндекса, вы можете использовать следующий код:
# Разрешаем обоим роботам доступ к корневой директории сайта User-agent: Yandex User-agent: Googlebot Disallow: # Запрещаем индексацию определенных папок и файлов для обоих роботов User-agent: Yandex User-agent: Googlebot Disallow: /private/ Disallow: /tmp/ Disallow: /admin/ # Запрещаем индексацию всех страниц с параметрами User-agent: Yandex User-agent: Googlebot Disallow: /*? # Запрещаем индексацию всех страниц в папке "images" User-agent: Yandex User-agent: Googlebot Disallow: /images/ # Указываем путь к файлу sitemap.xml Sitemap: https://www.example.com/sitemap.xml
В этом примере:
Первые две директивы разрешают обоим роботам доступ ко всем разделам сайта.
Затем следуют директивы, которые запрещают индексацию определенных папок, таких как /private/, /tmp/ и /admin/.
Следующая директива запрещает индексацию всех страниц с параметрами.
Затем указывается, что папка /images/ должна быть запрещена для индексации.
В конце файла указывается путь к файлу sitemap.xml.
Пожалуйста, учтите, что это только пример, и вам может потребоваться настроить файл robots.txt в соответствии с требованиями и особенностями вашего сайта.