О чем речь? Проверка robots.txt проводится для анализа этого текстового файла, управляющего доступом поисковых роботов к содержимому сайта. Он передает поисковикам, какие страницы можно индексировать, а какие нельзя. Проверка как раз и выявляет, как robots.txt справляется со своей основной задачей.
Что именно проверять? В ходе анализа изучают достоверность URL-адресов, указания sitemap.xml, правильность структуры и наличие запретов. Делают это вручную или с помощью специальных сервисов. Есть бесплатные и платные, но с расширенным функционалом.
Из этого материала вы узнаете:
- Что собой представляет файл robots.txt
- Структура файла robots.txt
- Советы по созданию файла robots.txt
- Как проверить файл Robots.txt
- Как проверить файл robots.txt в Яндекс.Вебмастер и GoogleSearchConsole
- 3 сервиса для проверки файла robots.txt
- Что именно проверять в robots.txt
- Часто задаваемые вопросы о проверке robots.txt
-
Чек-лист: Как добиваться своих целей в переговорах с клиентамиСкачать бесплатно
Что собой представляет файл robots.txt
Файл robots.txt – это инструкция для поисковых роботов. Там обозначен список страниц и разделов, на которые им нужно зайти, и те, что можно оставить без внимания. Что такое поисковый робот? Программа, сканирующая сайт и фиксирующая содержание страниц в базу поисковых систем (Яндекс, Google и др.). Эта процедура получила название индексация.
Файл robots.txt содержит запрет на посещение поисковыми роботами определённых разделов. Это необходимо, чтобы предотвратить попадание в выдачу данных, которые не предназначены для общего пользования (например, служебные и временные файлы, формы авторизации). Список найденного должен содержать исключительно оригинальный контент и элементы, требующиеся для адекватного отображения (изображения, CSS- и JS-код).
Источник: shutterstock.com
Если веб-ресурс не содержит robots.txt, роботы заходят на все страницы. Это ведёт к ненужным затратам времени и снижает шанс, что все нужные разделы будут проиндексированы правильно.
В том случае, когда файл располагается в корневой папке веб-ресурса на хостинге, поисковые программы сначала смотрят записанные в нём правила. Они узнают, в какие разделы заходить не нужно, а какие страницы требуется посетить. Изучив инструкцию, начинают обход сайта.
Специалисты, разрабатывающие сайты, должны создать файл, если таковой отсутствует, с директивами (командами) для поисковых роботов.
Читайте также!
Структура файла robots.txt
Содержимое robots.txt:
-
Директива User-agent. Обозначает, для роботов какой поисковой системы подготовлены инструкции в документе. Символ «*» – для всех, либо указываются конкретные, например Yandex, Googlebot.
-
Директива Disallow (запрет индексации). Определяются разделы, которые не сканируются роботами. Отсутствие на сайте служебного контента не означает, что директиву создавать не следует – пропишите, не указывая значение. Иначе возникает риск того, что robots.txt может некорректно просматриваться поисковыми программами.
-
Директива Allow (разрешение). Пропишите список разделов/файлов, обязательных для сканирования роботами. Не требуется вносить все части сайта: все, что не запрещено, индексируется автоматически. Задайте лишь исключения из правила Disallow.
-
Sitemap (карта сайта). Полная ссылка на файл в формате .xml. Sitemap хранит перечень всех страниц, индексация которых разрешена, а также периодичность их обновления.
Источник: shutterstock.com
Пример простого файла robots.txt (после # указаны пояснительные комментарии к директивам):
User-agent: * # правила ниже предназначены для всех поисковых роботов.
Disallow: /wp-admin# запрет индексации служебной папки со всеми вложениями.
Disallow: /*? # запрет сканирования результатов поиска на сайте.
Allow: /wp-admin/admin-ajax.php# разрешение индексации JS-скрипты темы WordPress.
Allow: /*.jpg# допуск к сканированию всех файлов формата .jpg.
Sitemap: http://site.ru/sitemap.xml# адрес карты веб-ресурса, где вместо site.ru – домен сайта.
Советы по созданию файла robots.txt
Файл должен быть прописан в соответствие с правилами, тогда его корректно смогут прочитать поисковые роботы. Причём даже отдельные детали (регистр, абзацы, написание) играют роль. Ряд советов по оформлению текстового документа:
Сгруппируйте директивы
Задавая разные правила для разных поисковых программ, разбейте файл на несколько блоков, отделив каждую группу пустой строкой. Это позволит избежать путаницы и облегчит процесс сканирования документа роботами. В таком случае паук найдёт нужную строку User-agent и выполнит заданные директивы.
Источник: shutterstock.com
В качестве примера:
User-agent: Yandex# правила только для ПС Яндекс
Disallow: # раздел, файл или формат файлов
Allow: # раздел, файл или формат файлов
# пустая строка
User-agent: Googlebot# правила только для ПС Google
Disallow: # раздел, файл или формат файлов
Allow: # раздел, файл или формат файлов
Sitemap: # адрес файла
Читайте также!
Контролируйте используемый регистр в названии файла
Ряд поисковых систем не обращает внимания на то, строчными или прописными буквами написано название файла robots.txt. Однако допустим, для Google это имеет значение. Будет разумным указывать название файла маленькими буквами, а не Robots.txt или ROBOTS.TXT.
Указывайте один каталог в одной директиве.
Используйте свою директиву Disallow для каждого раздела/файла. Поясним на примере. Disallow: /cgi-bin/ /authors/ /css/ – неправильное написание, так как тут указаны три папки в одной строке. Для каждой следует писать свою директиву Disallow:
Disallow: /cgi-bin/
Disallow: /authors/
Disallow: /css/
Не «засоряйте» файл лишними директивами.
Некоторые директивы robots.txt устарели и потому не обязательны к написанию: Host (зеркало сайта), Crawl-Delay (пауза между обращением поисковых роботов), Clean-param (ограничение дублирующегося контента). Удалите их.
Как проверить файл Robots.txt
Проверка robots.txt на онлайн-ресурсе – элемент управления индексацией и защиты конфиденциальной информации. Рассмотрим подробнее, как выполнить, чтобы соблюсти корректность конфигурации файла.
-
Используйте бесплатные онлайн-инструменты от поисковиков. Чтобы организовать проверку robots.txt онлайн-сервисами (к примеру Google Search Console или Яндекс.Вебмастер) на ошибки, неверно обозначенные директивы, скопируйте содержимое файла и вставьте в соответствующее поле на странице. Далее осуществите анализ.
-
Используйте функционал браузера для проверки. Имеется возможность изучить robots.txt, добавив «/robots.txt» к URL вашего сайта в адресной строке браузера (к примеру, «https://sales-generator.ru/robots.txt»). Появился текстовый файл с запретами или директивами для роботов? Всё сделано правильно. Пусто или ошибка? С файлом что-то не так.
-
Применяйте дополнительные инструменты для анализа robots.txt. Существует достаточное количество онлайн-ресурсов, позволяющих оперативно и бесплатно проверить файл robots.txt на ошибки. Введите адрес сайта, и вы получите информацию о том, где нужно внести изменения.
Увеличим продажи вашего бизнеса с помощью комплексного продвижения сайта. Наша команда экспертов разработает для вас индивидуальную стратегию, которая позволит в разы увеличить трафик, количество заявок и лидов, снизить стоимость привлечения клиентов и создать стабильный поток новых покупателей.
Как проверить файл robots.txt в Яндекс.Вебмастер и Google Search Console
Яндекс.Вебмастер
При первом посещении сервиса внесите адрес своего веб-ресурса и подтвердите права на него. Вы получите в своё распоряжение весь необходимый инструментарий для анализа SEO-показателей сайта и продвижения в поисковой системе Яндекс.
Источник: shutterstock.com
Чтобы осуществить проверку robots.txt в Яндекс.Вебмастер, нужно:
-
Войти в личный кабинет.
-
Левое меню – раздел Инструменты – Анализ robots.txt.
-
Содержимое нужного файла вставится автоматически (либо скопируйте код, внесите его в поле и нажмите Проверить).
-
Выйдут результаты проверки robots.txt в валидаторе Яндекс. Ошибки в директивах будут указаны и предложено исправить нужную строку, появится описание проблемы.
Google Search Console
Чтобы выполнить проверку robots.txt с помощью Google, нужно:
-
Зайти на страницу онлайн-сервиса.
-
Если там отображается неактуальная версия robots.txt, нажмите кнопку «Отправить» и следуйте инструкциям.
-
Обновите страницу спустя некоторое время. В поле будут отображаться актуальные директивы. Предупреждения/ошибки (в случае их наличия) будут выведены под кодом.
3 сервиса для проверки файла robots.txt
Анализ файла от Websiteplanet
Онлайн-ресурс отличается быстротой работы. Не требует подтверждать права на сайт. Для начала проверки файла с директивами требуется просто назвать место его расположения (допустим, https://sales-generator.ru/robots.txt). Результат анализа: будут указаны не только ошибки, но и предупреждения, а ко всем недочётам приложены подробные комментарии.
Сервис Tools.discript.ru
Сайт осуществляет проверку robots.txt на наличие ошибок, а также позволяет организовать его редактирование в онлайн-режиме, оптимизировав под CMS веб-ресурса и конкретную поисковую систему, создавая новый файл и скачивая итоговую версию.
Проверка от PR-CY
Онлайн-сервис даёт возможность создать файл с директивами для поисковых систем. От пользователя требуется настроить параметры будущего robots.txt, указав перечень ботов, имеющих право его индексировать, путь к карте сайта, страницы, которые сканировать запрещается.
Источник: shutterstock.com
Далее сервис формирует текст robots.txt, который нужно сохранить в файле под одноименным названием, и внести в корневой каталог веб-ресурса.
Что именно проверять в robots.txt
Доступность файла
Файл должен быть контактен по URL-адресу. Иначе, если он недоступен или возвращает ошибку (404, 403), поисковые алгоритмы не смогут его использовать. Указание sitemap.xml. Проверьте, чтобы в файле был прописан правильный путь к вашей карте сайта. Допустим: Sitemap: https://example.com/sitemap.xml.
Корректная структура и логическая непротиворечивость
Все строки должны быть понятными и четкими:
-
User-agent:указывает, для какого поисковика применяются правила.
-
Disallow:запрещает индексацию указанного раздела.
-
Allow:разрешает ботам проверку, если она была закрыта в более общем правиле.
Пример:
User-agent: *
Disallow: /admin/
Allow: /admin/public/
Нарушения логики
Время от времени поисковики встречают противоречивые правила, которые делают их работу невозможной. В качестве примера:
Disallow: /
Allow: /blog/
Получается, что к разделу /blog/ на сайте доступ разрешён, но Disallow: / означает запрет к веб-ресурсу вообще.
Исключите ненужные запреты
Проконтролируйте, чтобы у вас не оказались закрытыми для индексации важные блоки, такие как:
-
Главная страница.
-
Продуктовые разделы.
-
Блог или статьи.

Часто задаваемые вопросы о проверке robots.txt
С какой периодичностью ее нужно делать?
-
После внесения изменений.Проверьте, вдруг файл стал работать некорректно.
-
После изменения структуры сайта. Добавив новые разделы на веб-ресурс, проконтролируйте, что они индексируются правильно.
-
Ежемесячно.Раз в 30 дней проводите проверку файла на предмет появления ошибок или изменений в алгоритмах поисковых систем.
Что является основанием для обновления robots.txt?
Освежите файл, если добавили разделы на сайт, изменили структуру URL или корректировали SEO-стратегию. Проводите тестирование планируемых изменений перед развертыванием, чтобы случайно не заблокировать значимый контент.
Как делать исправления во время проверки?
Все коррективы, что внесены в сервисе проверки, автоматически не применяются в robots.txt. Требуется вручную прописать исправления в коде на хостинге либо в административной панели CMS и сохранить.
Проверка robots.txt – это необходимый этап в обеспечении нормального функционирования вашего онлайн-ресурса. Систематически изучайте файл с помощью доступных инструментов, чтобы понимать – ваши правки помогают индексации.
Верно оптимизированный robots.txt позволяет поисковым программам быстрее и корректнее проходить сайт. А это самым благоприятным образом скажется на SEO и видимости веб-ресурса в выдаче.
Подробности о правилах настройки и проверки robots.txt можно найти в специальных инструкциях от Google и Яндекс. Имейте в виду, что требования поисковых систем могут быть разными. Так, Яндекс применяет директиву Clean-param, а Google этого не делает. Настраивая данный файл, соблюдайте аккуратность, будьте внимательны и проверяйте его на ошибки.
Источник изображения на шапке: shutterstock.com