Что такое файл Robots.txt в домене?
инструменты для веб мастеров веб сайты Seo Герой / / March 19, 2020
Последнее обновление
Одна из самых больших ошибок для новых владельцев веб-сайтов - не заглядывать в их файл robots.txt. Так что же это такое и почему так важно? У нас есть ваши ответы.
Если вы владеете веб-сайтом и заботитесь о его SEO-безопасности, вам следует хорошо ознакомиться с файлом robots.txt в своем домене. Хотите верьте, хотите нет, но это огромное количество людей, которые быстро запускают домен, устанавливают быстрый веб-сайт WordPress и никогда не пытаются ничего сделать со своим файлом robots.txt.
Это опасно Плохо настроенный файл robots.txt может на самом деле разрушить здоровье вашего сайта и снизить ваши шансы на увеличение трафика.
Что такое файл Robots.txt?
Robots.txt Файл назван точно, потому что это по сути файл, в котором перечислены директивы для веб-роботов (например, роботов поисковых систем) о том, как и что они могут сканировать на вашем веб-сайте. Это был веб-стандарт, за которым следуют веб-сайты с 1994 года, и все основные сканеры придерживаются этого стандарта.
Файл хранится в текстовом формате (с расширением .txt) в корневой папке вашего сайта. Фактически, вы можете просмотреть файл robot.txt любого веб-сайта, просто набрав домен, а затем /robots.txt. Если вы попробуете это с помощью groovyPost, вы увидите пример хорошо структурированного файла robot.txt.
Файл простой, но эффективный. Этот файл примера не различает роботов. Команды выдаются всем роботам с помощью Пользователь-агент: * директивы. Это означает, что все последующие команды применяются ко всем роботам, которые посещают сайт, чтобы сканировать его.
Указание веб-сканеров
Вы также можете указать конкретные правила для определенных веб-сканеров. Например, вы можете разрешить Googlebot (сканеру Google) сканировать все статьи на вашем сайте, но вы можете захотеть запретить русскому веб-сканеру Yandex Bot сканировать на вашем сайте статьи, содержащие опровергающую информацию о Россия.
Существуют сотни веб-сканеров, которые ищут в Интернете информацию о веб-сайтах, но здесь перечислены 10 наиболее распространенных, которые вас должны беспокоить.
- Googlebot: Поисковая система Google
- Bingbot: Поисковая система Bing от Microsoft
- чавкать: Поисковая система Yahoo
- DuckDuckBot: Поисковая система DuckDuckGo
- Baiduspider: Китайская поисковая система Baidu
- YandexBot: Русская поисковая система яндекс
- Exabot: Французская поисковая система Exalead
- Facebot: Сканирующий бот Facebook
- ia_archiver: Поисковый робот Alexa
- MJ12bot: База данных индексирования больших ссылок
Если взять приведенный выше пример сценария, если вы хотите разрешить роботу Google индексировать все на своем сайте, но хотите заблокировав яндекс от индексации содержания ваших русских статей, вы добавили бы следующие строки в ваш robots.txt файл.
Пользователь-агент: googlebot
Disallow: Disallow: / wp-admin /
Disallow: /wp-login.php
Пользователь-агент: yandexbot
Disallow: Disallow: / wp-admin /
Disallow: /wp-login.php
Запретить: / Россия /
Как видите, первый раздел только блокирует Google от сканирования вашей страницы входа в WordPress и административных страниц. Второй раздел блокирует Яндекс от того же, но и от всей области вашего сайта, где вы опубликовали статьи с антироссийским контентом.
Это простой пример того, как вы можете использовать Disallow команда для управления определенными веб-сканерами, которые посещают ваш сайт.
Другие команды Robots.txt
Disallow - не единственная команда, к которой у вас есть доступ в файле robots.txt. Вы также можете использовать любые другие команды, которые будут указывать, как робот может сканировать ваш сайт.
- DisallowУказывает пользовательскому агенту избегать сканирования определенных URL-адресов или целых разделов вашего сайта.
- ПозволятьПозволяет точно настроить определенные страницы или подпапки на вашем сайте, даже если вы не допустили родительскую папку. Например, вы можете запретить: / about /, но затем разрешить: / about / ryan /.
- Обход задержкиЭто говорит сканеру подождать xx количество секунд, прежде чем начинать сканирование контента сайта.
- Карта сайта: Укажите в поисковых системах (Google, Ask, Bing и Yahoo) местоположение ваших XML-карт сайтов.
Имейте в виду, что боты будут только слушайте команды, которые вы указали при указании имени бота.
Распространенная ошибка, которую допускают люди - запрещение таких областей, как / wp-admin /, от всех ботов, но затем указание раздела googlebot и запрещение только других областей (таких как / about /).
Поскольку боты следуют только командам, которые вы указали в их разделе, вам необходимо повторить все те другие команды, которые вы указали для всех ботов (используя * user-agent).
- DisallowКоманда, используемая для того, чтобы пользовательский агент не сканировал определенный URL. Для каждого URL допускается только одна строка «Disallow:».
- Разрешить (применимо только к Googlebot): Команда сообщить роботу Google, что он может получить доступ к странице или подпапке, даже если его родительская страница или подпапка могут быть запрещены.
- Обход задержки: Сколько секунд сканер должен подождать, прежде чем загружать и сканировать содержимое страницы. Обратите внимание, что робот Googlebot не подтверждает эту команду, но скорость сканирования можно установить в консоли поиска Google.
- Карта сайта: Используется для вызова местоположения карты сайта XML, связанной с этим URL. Обратите внимание, что эта команда поддерживается только Google, Ask, Bing и Yahoo.
Имейте в виду, что robots.txt предназначен для того, чтобы законные боты (например, роботы поисковых систем) могли более эффективно сканировать ваш сайт.
Есть много гнусных сканеров, которые сканируют ваш сайт, чтобы делать такие вещи, как очистка адресов электронной почты или кража вашего контента. Если вы хотите попробовать использовать файл robots.txt, чтобы запретить этим сканерам сканировать что-либо на вашем сайте, не беспокойтесь. Создатели этих сканеров обычно игнорируют все, что вы поместили в файл robots.txt.
Зачем что-то запрещать?
Заставить поисковую систему Google сканировать как можно больше качественного контента на вашем веб-сайте - это главная задача большинства владельцев веб-сайтов.
Тем не менее, Google расходует только ограниченное бюджет обхода и скорость сканирования на отдельных сайтах. Скорость сканирования - это количество запросов в секунду, которые робот-робот отправляет на ваш сайт во время события сканирования.
Более важным является бюджет сканирования, то есть общее количество запросов, которые робот Googlebot сделает для сканирования вашего сайта за один сеанс. Google «тратит» свой бюджет сканирования, сосредотачиваясь на тех областях вашего сайта, которые очень популярны или изменились в последнее время.
Вы не слепы к этой информации. Если вы посетите Инструменты Google для веб-мастеровВы можете увидеть, как сканер обрабатывает ваш сайт.
Как вы можете видеть, сканер постоянно поддерживает активность на вашем сайте. Он не сканирует все сайты, а только те, которые он считает наиболее важными.
Зачем оставлять Googlebot решать, что важно на вашем сайте, если вы можете использовать файл robots.txt, чтобы сообщить ему, какие страницы наиболее важны? Это предотвратит трату времени Googlebot на страницы с низким значением на вашем сайте.
Оптимизация бюджета сканирования
Инструменты Google для веб-мастеров также позволяют вам проверить, правильно ли Googlebot читает ваш файл robots.txt и есть ли какие-либо ошибки.
Это поможет вам убедиться, что вы правильно структурировали свой файл robots.txt.
Какие страницы вы должны запретить Googlebot? Хорошо, что SEO вашего сайта запрещает следующие категории страниц.
- Дублирующиеся страницы (например, страницы для печати)
- Страницы с благодарностью после заказов на основе форм
- Форма заказа или информационного запроса
- Контактные страницы
- Страницы входа
- Ведущий магнит «продаж» страниц
Не игнорируйте свой файл Robots.txt
Самая большая ошибка, которую делают новые владельцы веб-сайтов, - это даже не просматривать их файл robots.txt. Наихудшая ситуация может быть в том, что файл robots.txt фактически блокирует ваш сайт или области вашего сайта от сканирования.
Обязательно просмотрите файл robots.txt и убедитесь, что он оптимизирован. Таким образом, Google и другие важные поисковые системы «видят» все сказочные вещи, которые вы предлагаете миру на своем веб-сайте.