Google: ранжирование файла robots.txt или Sitemap – это плохой знак для сайта

На днях сотрудники Google Гэри Илш и Джон Мюллер опубликовали несколько твитов на тему индексации файлов robots.txt и Sitemap.

Обсуждение начал Гэри Илш, который заявил, что файл robots.txt может индексироваться и ранжироваться в результатах поиска Google. По его словам, «c точки зрения индексирования, robots.txt – это всего лишь URL, контент которого может индексироваться».

Triggered by an internal question: robots.txt from indexing point of view is just a url whose content can be indexed. It can become canonical or it can be deduped, just like any other URL.It only has special meaning for crawling, but there its index status doesn't matter at all. pic.twitter.com/bBMXy1XcRF
— Gary "?????" Illyes (@methode) November 6, 2019

В ответ на это Джон Мюллер написал, что запретить индексацию файлов robots.txt и Sitemap можно с помощью HTTP-заголовка X-Robots-Tag.

При этом он отметил, что если эти файлы ранжируются по обычным запросам (без site:), то это обычно признак того, что у сайта плохи дела и он требует улучшений.

https://twitter.com/JohnMu/status/1192434849216434177

Для блокировки индексации можно использовать и директиву disallow:

Tip: "disallow: /" also includes /robots.txt.
— ? John ? (@JohnMu) November 7, 2019

Мюллер также добавил, что Google не нужно индексировать файл Sitemap, поскольку он обрабатывается по-другому:

«Файл Sitemap обычно предназначен для прямого использования программами, его не нужно индексировать».

We wouldn't see the rel-canonical if it's blocked by robots.txt, so I'd pick either one or the other. If you do use robots.txt, we'll treat them like other robotted pages (and we won't know what's on the page, so we might index the URL without content).
— ? John ? (@JohnMu) November 8, 2019

Напомним, ранее стало известно, что если файл robots.txt возвращает ошибку 5xx, то Google не будет индексировать сайт.

searchengines.ru