Robots .txt — это свод канонов для ПС, прописанный в обычном блокноте или другом текстовом редакторе. С его помощью ботам указывается, куда заходить можно, а куда нет. Большинство поисковиков эти директивы выполняет.
Что такое роботс
Robots пишется по стандарту в формате .txt и в кодировке UTF-8, ограничивающим доступ к некоторому содержимому сайта для поисковых роботов. Документ принят независимой организацией W3C ещё в 1994 году. Представляет собой текстовый файл, состоящий из набора инструкций для веб-пауков. Подходит для http, https, FTP.
Роботс является очень простым файлом. Однако именно в нём начинающие веб-мастеры допускают нежелательные ошибки. Например, всего один неправильный символ — и вся Seo-оптимизация катится под откос. Поисковые роботы начинают считывать закрытую информацию, от чего накладывают на сайт фильтры. По этой причине robots, несмотря на свою простоту — очень важный документ, нуждающийся в грамотном редактировании.
При сканировании директив в роботсе, ПС (если иметь в виду общие слова) получают одну из трёх команд:
- доступ разрешён администратором частично;
- открытая индексация — обрабатывать можно всё;
- полное вето — ничего индексировать нельзя.
Директивы robots
В роботс.тхт прописываются определённые правила для веб-краулеров. Рассмотрим их подробнее.
User-Agent
Визитная карточка для ботов. Обязательная команда, определяющая конкретную поисковую программу — сейчас известно до 302 краулеров. Если в конце директивы прописан знак *, то по умолчанию разрешение на индексацию получают все известные боты. User-Agent — это начало любого роботс.тхт.
Disallow
Второе распространённое правило, используемое в robots. Оно запрещает индексировать конкретную страницу (-цы) или разделы блога. Обычно ботам не дают доступа к страницам пагинации, личным данным, результатам внутреннего поиска, логам и служебным page. Например, вот так выглядит запрет на индексацию всего сайта для Yandex bot.
Эту строку используют в процессе различных доработок сайта, когда веб-мастеру по каким-то причинам не хочется засвечивать ресурс.
А вот так выглядит запрет только на категории ресурса:
Allow
Разрешающая директива, противоположная Disallow. Она позволяет ботам читать коды конкретных страниц или категорий веб-ресурса. Например, с помощью Allow удастся открыть для индексации фотоальбом, PDF, определённый page.
Sitemap
Означает в роботсе расположение карты сайта XML. Она крайне важна для нормальной индексации ресурса ПС, поэтому надо обязательно указывать её полный урл. Именно в Сайтмапе показана структура площадки со внутренними ссылками, даты создания материала и его редактирования. Вот, как надо указывать путь к Sitemap в robots.
Clean-param
Запрещает веб-краулерам обходить дубли и зеркала, страницы с индивидуальными префиксами, UTM-метками, идентификаторами пользователей и сессий. Указывая данную директиву, веб-мастера улучшат обход сайта поисковиками. Также значительно снизится нагрузка на сервер. Пример прописания Clean-param:
Есть также директивы Host и Crawl-delay, но они более не поддерживаются Google и Yandex.
Crawl-delay также называют решением для маломощных серверов. Потому, что с его помощью задаётся период, через который можно загружать страницы ресурса.
Специальные обозначения
Для того чтобы директивы были более понятны поисковым краулерам, используются специальные обозначения.
- Звёздочка * обозначает доступ ко всем компонентам файла. Например, вот как прописывается запрет для ботов, которые не должны индексировать любые документы с расширением .gif в папке /catalog.
- Доллар $ ограничивает символ звёздочки *. Если нужно запретить всё содержимое файла /catalog, но при этом нельзя закрыть от индексации url, используется как раз этот символ. Вот пример.
- Слэш / показывает, что какая-то часть кода закрывается от индексации роботом. Например, если знак стоит в директиве Disallow так: Disallow: /, это запрет на обнаружение сайта ПС. Но это практически не используют, обычно просто запрещают какую-то отдельную папку или файл — Disallow: /catalog/. А если вот так — Disallow: /catalog, то все ссылки на веб-ресурсе, начинающиеся на /catalog, не индексируются.
- Решётка # используется авторами кода для добавления заметок и рекомендаций — обычно для других веб-мастеров или для себя. Содержимое после этого знака не учитывается ПС при сканировании. Вот как это выглядит.
Как правильно настроить роботс в целом
Чтобы поисковики индексировали только целевые страницы веб-ресурса, но обходили стороной технические разделы — необходимо создать правильный robots .txt. Полезно, например, закрывать от индексации нерелевантный контент, зеркала, календарь и другие материалы, не подлежащие публикации.
Таким образом, роботс в целом должен включать следующие требования:
- запрещать индексацию web-page, не содержащих материалы для чтения;
- разрешить обход и добавление в базу поисковых систем целевого контента;
- разграничить доступ между ПС — Яндексу, например, разрешить одни страницы, а Гуглу другие;
- запретить парсить информацию с сайта сторонними программами.
Для создания роботса необязательно специализироваться на программировании, достаточно уметь работать с текстовыми редакторами. Подходят обычные блокноты — WordPad, Notepad, Sublime, Windows. Дальше его надо заполнить директивами и загрузить в корневую директорию сайта (через админку, хостинг или FTP). Файл этот следует закачать отдельно, не пряча его в папках, категориях и прочих местах.
Прописать robots можно двумя способами.
- Добавить код вручную, используя представленные выше директивы. Перед этим рекомендуется изучить простой и лаконичный синтаксис.
- Использовать онлайн-генераторы. Программа автоматически записывает код. Но данный вариант имеет большой недостаток — шаблоны оставят ненужный «мусор». Придётся опять работать руками и чистить.
Как и говорилось выше, любой роботс стартует с User-agent. В этой строке пишут, для какого бота предназначается инструкция. Если для всех, то используется символ *. Выглядит это так: User-agent: *.
Следующим шагом будет прописание остальных директив: Allow, Sitemap, Disallow, Clean-param и т. д. Рекомендуется не оставлять пустых строк, хотя для ботов это большого значения не имеет — они всё равно прочитают код.
Ещё одна важная особенность: поисковый робот берёт установку с той директивы, которая длиннее по знакам. Что это значит? Например, рассмотрим эту часть роботса.
- Disallow: /home;
- Allow: *search/*;
- Disallow: *shirts.
В пропускающей директиве больше символов, чем в запрещающей. Поэтому бот проигнорирует запрет Disallow и примет к действию разрешающий Allow.
Обычно вот такой robots идеально подходит для всех сайтов:
Здесь прописан хост, указан Sitemap. Отдельно выведены предписания для Yandex bot, из-за того что инструкцию Host понимают не все поисковики. Однако в таком роботсе не хватает многого — уникальных правил и особенностей, зависящих от движка, типа сайта. Поэтому не спешите забирать код, лучше заполните все строки как нужно. Подробнее о том, как это делать для конкретного CMS, написано ниже.
Как проверить robots
Файл должен находиться по следующему адресу — https://название домена/robots.txt. Документ должен весить меньше 500 Кб. Такой лимит поддерживается обоими поисковиками. Для проверки роботс, используют панели веб-мастеров Гугл и Яндекс. В специальное окошко вводится код и домен.
В Яндекс.Вебмастере это делается так:
- открыть панель;
- кликнуть по вкладке «Инструменты»;
- откроется меню, в котором надо выбрать «Анализ robots.txt»;
- далее ввести код и нажать на кнопку «Проверить».
Эти результаты укажут на отсутствие ошибок и нормальное состояние файла.
Практически также осуществляется проверка в Google Search Console. Любые синтаксические и логические ошибки подчёркиваются, а их общее количество указывается системой внизу окна редактирования.
Ответы, которые получает поисковый робот при сканировании файла роботс:
- 2хх — удачное сканирование документа;
- 3хх — сигнал к повторной индексации до 5 попыток, дальше засчитывается 404;
- 4хх — положительный ответ к индексированию всей площадки;
- 5хх — сканирование целиком закрыто, ПС оценивается как пауза сервера, поэтому обращения будут регулярными, пока не придёт другой ответ.
Генераторы robots
Ниже представлены лучшие онлайн-генераторы, с помощью которых можно прописать robots.
1-Hit
Бесплатный сервис, предлагающий различные инструменты Seo. Достаточно ввести урл сайта, чтобы программа автоматически прописала код. Обычно вес документа для информационного ресурса не превышает 1599 бит.
Mcanerin’s Robots.txt Tool
Удобный, бесплатный инструмент для создания кода управления поисковыми ботами. Тут нужно ввести Sitemape и указать некоторые настройки. Остальные директивы система автоматически пропишет сама.
Submit Corner
Инструмент для создания роботс. Генерирует два типа файлов — с метатегами для отдельных веб-страниц и общий серверный документ для всего сайта.
SeoAuditor
Если вы хотите получить правильный код всего за пару минут, то данный инструмент к вашим услугам. Тут можно выставлять разные настройки вручную — устанавливать задержку по времени Crawl-delay, запрещать скачивание материалов, создавать файл специально под WordPress и т. д.
Настройка robots для WP
Код роботса для WordPress обязан включать запрещающие директивы на блок скриптов, страницы поиска, все виды нумерации. Если предусмотрено несколько карт в формате XML, то надо указать конкретные пути по отдельности. В Disallow важно устанавливать правило /wp, а в Allow — следует обязательно разрешать страницы с /uploads, так как по адресу /wp-content/uploads/ могут находиться картинки, загруженные файлы и другие материалы, обязанные индексироваться.
Настройка robots для Opencart
В движке Opencart есть множество страниц, которые надо закрывать от индексации. Сюда относится админка, служебные web-page, пользовательские и регистрационные странички. Так выглядит расширенный код для этой CMS.
Настройка robots для Bitrix
Роботс для сайтов на 1С-Битрикс также обязан быть актуальным на 2021 год. Обязательно здесь использовать учёт сортировки и пагинации, фильтрацию, очистку от get параметров. Несомненно, важно закрывать служебные страницы и личный кабинет. Также надо отредактировать папку local.
Настройка robots для Яндекс
Яша тоже принимает западные ограничивающие стандарты для ботов по мировому протоколу. Корректное обрабатывание возможно роботом, если документ не больше 500 Кб, он правильно назван и размещён в корневой папке. Если роботс не соответствует правилам, то сайт считается полностью открытым к сканированию. Для Yandex bot наиболее важными являются карта сайта, запрещающая директива и правило по дублированию контента.
Настройка robots для Google
Google bot — самый непослушный из ботов. Время от времени он нарушает каноны, крауля неразрешённый контент. Веб-мастеры должны учитывать этот факт. Одновременно с этим от Гоши часто приходят сообщения такого типа.
Получается, что к директиве Disallow западный бот относится отрицательно. Например, нельзя закрывать мобильную версию сайта — какой бы она ни была. Поэтому, если веб-ресурс создан на Вордпресс, рекомендуется добавить строку Allow: /wp-content/plugins/wpsmart-mobile/themes.
Заключение
Следуйте нашим инструкциям, и ваш сайт будет всегда в топе обеих ПС. Боты любят чистые и лёгкие коды — помните это!
Читайте также:
-
В Instagram рассказали о Person-based рекламе
-
Основные сетапы заливов в ФБ!
-
Как добывать УБТ с Вконтакте на дейтинг
-
SMS-направление умирает? Разбор, прогнозы и советы от Веры Соболевой и Александра Палянички
-
Прогрев аудитории в Инстаграм: 2 схемы и 2 примера
-
С чего начать новичку в арбитраже трафика: 8 советов