Google не рекомендует использовать robots.txt для блокировки URL с параметрами

Google настоятельно не рекомендует использовать robots.txt для блокировки индексации URL с параметрами. Об этом заявил сотрудник поиска Джон Мюллер, отвечая на вопрос одного из вебмастеров в Twitter.

По словам Мюллера, если используется такой способ блокировки, то Google не может каноникализировать URL-ы, и сайт теряет всю ценность от ссылок на эти страницы.

Вместо этого рекомендуется использовать атрибуты rel=canonical, внутренние ссылки и т.п.

Don't use robots.txt to block indexing of URLs with parameters. If you do that, we can't canonicalize the URLs, and you lose all of the value from links to those pages. Use rel-canonical, link cleanly internally, etc.
— ? John ? (@JohnMu) November 8, 2019

Затем он подробнее объяснил, почему так плохо блокировать эти URL с помощью robots.txt:

«Если страница заблокирована в robots.txt, то мы не увидим rel=canonical и в результате можем выбрать другой URL. Если вы используете robots.txt, то мы будем обрабатывать эти URL так же, как и другие роботизированные страницы (и не будем знать, что находится на странице, поэтому есть вероятность индексации URL без содержимого)».

We wouldn't see the rel-canonical if it's blocked by robots.txt, so I'd pick either one or the other. If you do use robots.txt, we'll treat them like other robotted pages (and we won't know what's on the page, so we might index the URL without content).
— ? John ? (@JohnMu) November 8, 2019

Напомним, ранее стало известно, что если при попытке получить доступ к файлу robots.txt Googlebot видит ошибку 5xx, то он не будет сканировать сайт.

А если файл robots.txt или Sitemap появляется в результатах поиска, то это говорит о том, что у сайта проблемы, и он требует улучшений.

searchengines.ru