Как настроить robots для Яндекс и Google

Автор: Desmoond
22 октября 2020

Robots .txt — это свод канонов для ПС, прописанный в обычном блокноте или другом текстовом редакторе. С его помощью ботам указывается, куда заходить можно, а куда нет. Большинство поисковиков эти директивы выполняет.

Что такое роботс

Robots пишется по стандарту в формате .txt и в кодировке UTF-8, ограничивающим доступ к некоторому содержимому сайта для поисковых роботов. Документ принят независимой организацией W3C ещё в 1994 году. Представляет собой текстовый файл, состоящий из набора инструкций для веб-пауков. Подходит для http, https, FTP.

Роботс является очень простым файлом. Однако именно в нём начинающие веб-мастеры допускают нежелательные ошибки. Например, всего один неправильный символ — и вся Seo-оптимизация катится под откос. Поисковые роботы начинают считывать закрытую информацию, от чего накладывают на сайт фильтры. По этой причине robots, несмотря на свою простоту — очень важный документ, нуждающийся в грамотном редактировании.

Директивы robots txt

При сканировании директив в роботсе, ПС (если иметь в виду общие слова) получают одну из трёх команд:

  • доступ разрешён администратором частично;
  • открытая индексация — обрабатывать можно всё;
  • полное вето — ничего индексировать нельзя.

Директивы robots

В роботс.тхт прописываются определённые правила для веб-краулеров. Рассмотрим их подробнее.

User-Agent

Визитная карточка для ботов. Обязательная команда, определяющая конкретную поисковую программу — сейчас известно до 302 краулеров. Если в конце директивы прописан знак *, то по умолчанию разрешение на индексацию получают все известные боты. User-Agent — это начало любого роботс.тхт.

Настройка robots txt

Disallow

Второе распространённое правило, используемое в robots. Оно запрещает индексировать конкретную страницу (-цы) или разделы блога. Обычно ботам не дают доступа к страницам пагинации, личным данным, результатам внутреннего поиска, логам и служебным page. Например, вот так выглядит запрет на индексацию всего сайта для Yandex bot.

Как настроить robots txt

Эту строку используют в процессе различных доработок сайта, когда веб-мастеру по каким-то причинам не хочется засвечивать ресурс.

А вот так выглядит запрет только на категории ресурса:

Файл robots txt: настройка

Allow

Разрешающая директива, противоположная Disallow. Она позволяет ботам читать коды конкретных страниц или категорий веб-ресурса. Например, с помощью Allow удастся открыть для индексации фотоальбом, PDF, определённый page.

Правильный robots txt: как настроить

Sitemap

Означает в роботсе расположение карты сайта XML. Она крайне важна для нормальной индексации ресурса ПС, поэтому надо обязательно указывать её полный урл. Именно в Сайтмапе показана структура площадки со внутренними ссылками, даты создания материала и его редактирования. Вот, как надо указывать путь к Sitemap в robots.

Директивы robots txt: настройка файла

Clean-param

Запрещает веб-краулерам обходить дубли и зеркала, страницы с индивидуальными префиксами, UTM-метками, идентификаторами пользователей и сессий. Указывая данную директиву, веб-мастера улучшат обход сайта поисковиками. Также значительно снизится нагрузка на сервер. Пример прописания Clean-param:

Clean-param robots txt

Есть также директивы Host и Crawl-delay, но они более не поддерживаются Google и Yandex. 

Crawl-delay также называют решением для маломощных серверов. Потому, что с его помощью задаётся период, через который можно загружать страницы ресурса.

Специальные обозначения

Для того чтобы директивы были более понятны поисковым краулерам, используются специальные обозначения.

  • Звёздочка * обозначает доступ ко всем компонентам файла. Например, вот как прописывается запрет для ботов, которые не должны индексировать любые документы с расширением .gif в папке /catalog.
Специальные обозначения robots.txt
  • Доллар $ ограничивает символ звёздочки *. Если нужно запретить всё содержимое файла /catalog, но при этом нельзя закрыть от индексации url, используется как раз этот символ. Вот пример.
Грамотная настройка роботс тхт
  • Слэш / показывает, что какая-то часть кода закрывается от индексации роботом. Например, если знак стоит в директиве Disallow так: Disallow: /, это запрет на обнаружение сайта ПС. Но это практически не используют, обычно просто запрещают какую-то отдельную папку или файл — Disallow: /catalog/. А если вот так — Disallow: /catalog, то все ссылки на веб-ресурсе, начинающиеся на /catalog, не индексируются.
  • Решётка # используется авторами кода для добавления заметок и рекомендаций — обычно для других веб-мастеров или для себя. Содержимое после этого знака не учитывается ПС при сканировании. Вот как это выглядит.
Как настроить роботс тхт

Как правильно настроить роботс в целом 

Чтобы поисковики индексировали только целевые страницы веб-ресурса, но обходили стороной технические разделы — необходимо создать правильный robots .txt. Полезно, например, закрывать от индексации нерелевантный контент, зеркала, календарь и другие материалы, не подлежащие публикации.

Таким образом, роботс в целом должен включать следующие требования:

  • запрещать индексацию web-page, не содержащих материалы для чтения;
  • разрешить обход и добавление в базу поисковых систем целевого контента;
  • разграничить доступ между ПС — Яндексу, например, разрешить одни страницы, а Гуглу другие;
  • запретить парсить информацию с сайта сторонними программами.

Для создания роботса необязательно специализироваться на программировании, достаточно уметь работать с текстовыми редакторами. Подходят обычные блокноты — WordPad, Notepad, Sublime, Windows. Дальше его надо заполнить директивами и загрузить в корневую директорию сайта (через админку, хостинг или FTP). Файл этот следует закачать отдельно, не пряча его в папках, категориях и прочих местах. 

Прописать robots можно двумя способами.

  1. Добавить код вручную, используя представленные выше директивы. Перед этим рекомендуется изучить простой и лаконичный синтаксис.
  2. Использовать онлайн-генераторы. Программа автоматически записывает код. Но данный вариант имеет большой недостаток — шаблоны оставят ненужный «мусор». Придётся опять работать руками и чистить.

Как и говорилось выше, любой роботс стартует с User-agent. В этой строке пишут, для какого бота предназначается инструкция. Если для всех, то используется символ *. Выглядит это так: User-agent: *.

Следующим шагом будет прописание остальных директив: Allow, Sitemap, Disallow, Clean-param и т. д. Рекомендуется не оставлять пустых строк, хотя для ботов это большого значения не имеет — они всё равно прочитают код.

Ещё одна важная особенность: поисковый робот берёт установку с той директивы, которая длиннее по знакам. Что это значит? Например, рассмотрим эту часть роботса.

  • Disallow: /home;
  • Allow: *search/*;
  • Disallow: *shirts.

В пропускающей директиве больше символов, чем в запрещающей. Поэтому бот проигнорирует запрет Disallow и примет к действию разрешающий Allow.

Обычно вот такой robots идеально подходит для всех сайтов:

Как настроить роботс тхт правильно

Здесь прописан хост, указан Sitemap. Отдельно выведены предписания для Yandex bot, из-за того что инструкцию Host понимают не все поисковики. Однако в таком роботсе не хватает многого — уникальных правил и особенностей, зависящих от движка, типа сайта. Поэтому не спешите забирать код, лучше заполните все строки как нужно. Подробнее о том, как это делать для конкретного CMS, написано ниже. 

Как проверить robots

Файл должен находиться по следующему адресу — https://название домена/robots.txt. Документ должен весить меньше 500 Кб. Такой лимит поддерживается обоими поисковиками. Для проверки роботс, используют панели веб-мастеров Гугл и Яндекс. В специальное окошко вводится код и домен.

В Яндекс.Вебмастере это делается так:

  • открыть панель;
  • кликнуть по вкладке «Инструменты»;
Как проверить robots
  • откроется меню, в котором надо выбрать «Анализ robots.txt»;
Анализ robots.txt
  • далее ввести код и нажать на кнопку «Проверить».  
robots txt и SEO

Эти результаты укажут на отсутствие ошибок и нормальное состояние файла.

техническая оптимизация сайта: robots.txt

Практически также осуществляется проверка в Google Search Console. Любые синтаксические и логические ошибки подчёркиваются, а их общее количество указывается системой внизу окна редактирования.

Ответы, которые получает поисковый робот при сканировании файла роботс:

  • 2хх — удачное сканирование документа;
  • 3хх — сигнал к повторной индексации до 5 попыток, дальше засчитывается 404;
  • 4хх — положительный ответ к индексированию всей площадки;
  • 5хх — сканирование целиком закрыто, ПС оценивается как пауза сервера, поэтому обращения будут регулярными, пока не придёт другой ответ.

Генераторы robots

Ниже представлены лучшие онлайн-генераторы, с помощью которых можно прописать robots.

1-Hit

Бесплатный сервис, предлагающий различные инструменты Seo. Достаточно ввести урл сайта, чтобы программа автоматически прописала код. Обычно вес документа для информационного ресурса не превышает 1599 бит.

1-Hit для robots.txt

Mcanerin’s Robots.txt Tool

Удобный, бесплатный инструмент для создания кода управления поисковыми ботами. Тут нужно ввести Sitemape и указать некоторые настройки. Остальные директивы система автоматически пропишет сама.

Mcanerin's Robots.txt для роботса

Submit Corner

Инструмент для создания роботс. Генерирует два типа файлов — с метатегами для отдельных веб-страниц и общий серверный документ для всего сайта.

Submit Corner для роботс тхт

SeoAuditor

Если вы хотите получить правильный код всего за пару минут, то данный инструмент к вашим услугам. Тут можно выставлять разные настройки вручную — устанавливать задержку по времени Crawl-delay, запрещать скачивание материалов, создавать файл специально под WordPress и т. д.

Генератор robots txt

Настройка robots для WP

Код роботса для WordPress обязан включать запрещающие директивы на блок скриптов, страницы поиска, все виды нумерации. Если предусмотрено несколько карт в формате XML, то надо указать конкретные пути по отдельности. В Disallow важно устанавливать правило /wp, а в Allow — следует обязательно разрешать страницы с /uploads, так как по адресу /wp-content/uploads/ могут находиться картинки, загруженные файлы и другие материалы, обязанные индексироваться.

Как сгенирировать robots txt
Clearfy robots txt
Вот как выглядит роботс, созданный этим плагином (вручную отредактирована только директива Sitemap и удалена Host).

Настройка robots для Opencart

В движке Opencart есть множество страниц, которые надо закрывать от индексации. Сюда относится админка, служебные web-page, пользовательские и регистрационные странички. Так выглядит расширенный код для этой CMS.

Как настроить robots для Яндекс и Google
Настройка robots для Opencart

Настройка robots для Bitrix

Роботс для сайтов на 1С-Битрикс также обязан быть актуальным на 2021 год. Обязательно здесь использовать учёт сортировки и пагинации, фильтрацию, очистку от get параметров. Несомненно, важно закрывать служебные страницы и личный кабинет. Также надо отредактировать папку local.

Настройка robots для Bitrix

Настройка robots для Яндекс

Яша тоже принимает западные ограничивающие стандарты для ботов по мировому протоколу. Корректное обрабатывание возможно роботом, если документ не больше 500 Кб, он правильно назван и размещён в корневой папке. Если роботс не соответствует правилам, то сайт считается полностью открытым к сканированию. Для Yandex bot наиболее важными являются карта сайта, запрещающая директива и правило по дублированию контента.

Настройка robots для Яндекс

Настройка robots для Google

Google bot — самый непослушный из ботов. Время от времени он нарушает каноны, крауля неразрешённый контент. Веб-мастеры должны учитывать этот факт. Одновременно с этим от Гоши часто приходят сообщения такого типа.  

Настройка robots для Google

Получается, что к директиве Disallow западный бот относится отрицательно. Например, нельзя закрывать мобильную версию сайта — какой бы она ни была. Поэтому, если веб-ресурс создан на Вордпресс, рекомендуется добавить строку Allow: /wp-content/plugins/wpsmart-mobile/themes.

Заключение

Следуйте нашим инструкциям, и ваш сайт будет всегда в топе обеих ПС. Боты любят чистые и лёгкие коды — помните это!

22 октября 2020
Для голосования требуется
0
Автор:
Desmoond
Количество статей:
86
Рейтинг автора:
0
Количество статей:
86
Рейтинг автора:
0
поделиться:

Читайте также:

Комментарии (0)
Читатели еще не оставили комментарий, будьте первым
label

Сервис Bankoff, позволявший выпускать карты, прекращает свою деятельность из-за наплыва пользователей  /  Криптобиржа Currency прекращает работать в России  /  Выпустили огненное интервью на YouTube-канале с командой TraffBraza  /  Роскомнадзор запретил на территории России рекламное продвижение Google и её сервисов  /  Новое экзотическое ГЕО от М1 — Эквадор  /  NashStore вместо Google Play: в России запустят аналог магазина приложений для Android  /  

Изменения сохранены
Черновик сохранен
Отправлено на модерацию
Произошла ошибка