Google: URL, заблокированные через robots.txt, не влияют на бюджет сканирования

Сотрудник Google Гэри Илш обновил свой пост с частыми вопросами по краулинговому бюджету. Теперь в нём появилась следующая информация:

«Вопрос. Влияют ли URL, доступ к которым закрыт через директиву Disallow в robots.txt, на бюджет сканирования?

Ответ. Нет, эти URL не влияют на краулинговый бюджет».

Based on a question from @pierrefar , i just updated the Crawl Budget blog post to include the following:Q: Do URLs I disallowed through robots.txt affect my crawl budget in any way?A: No, disallowed URLs do not affect the crawl budget.https://t.co/kVYj6XaNn0
— Gary "??" Illyes (@methode) June 21, 2019

Данный вопрос относится к директиве «User-agent: * Disallow: /» в файле robots.txt, которая блокирует доступ для веб-краулеров. Как известно, эта директива может использоваться как для запрета на сканирование всего сайта, так и отдельных URL.

Согласно Google, страницы не будут сканироваться чаще из-за того, что другие страницы заблокированы от поисковых роботов.

Напомним, что Гэри Илш опубликовал подробный пост, посвящённый краулинговому бюджету, в 2017 году. В нём он объяснил, что понимается под этим термином, какие факторы влияют на краулинговый бюджет, что такое скорость сканирования и краулинговый спрос.

В скором времени этот документбудет добавлен в качестве официального руководства Google по бюджету сканирования в Справочный центр.

searchengines.ru