При продвижении крупных проектов — интернет-магазинов, маркетплейсов, агрегаторов и информационных порталов — SEO-специалисты неизбежно сталкиваются с понятием краулингового бюджета (crawl budget). Это лимит страниц, который поисковые роботы (Googlebot, Yandexbot) способны и готовы просканировать на вашем сайте за определенный период времени.
Если архитектура сайта не оптимизирована, боты тратят выделенное время на сканирование бесполезных, мусорных или дублирующихся страниц. В результате новые товары, важные статьи или обновленные посадочные страницы могут неделями не попадать в индекс поисковых систем, что ведет к прямым потерям трафика и прибыли. Подробнее о том, как эксперты оценивают и решают эту проблему, можно узнать, прочитав профильный источник.
В этой статье мы разберем, какие именно страницы являются главными «пожирателями» краулингового бюджета и как закрыть к ним доступ поисковикам.
Это проблема номер один для любого интернет-магазина. Фильтры по цвету, размеру, бренду, цене и другим характеристикам могут генерировать бесконечное множество уникальных URL-адресов.
Например:
/krossovki/?color=red/krossovki/?color=red&size=42/krossovki/?color=red&size=42&brand=nikeБольшинство таких комбинаций не имеют никакого поискового спроса (пользователи не ищут «красные кроссовки 42 размера найк купить»), но поисковый робот будет послушно переходить по каждой ссылке, сжигая ваш бюджет.
Что делать: Оставлять открытыми для индексации только те сочетания фильтров, под которые есть реальная семантика (например, «красные кроссовки Nike»). Все остальные комбинации следует закрывать статичным тегом <meta name="robots" content="noindex, nofollow"> или правилами в robots.txt.
Еще один генератор дублей в e-commerce. Сортировка товаров «Сначала дешевые», «По популярности», «По алфавиту» или изменение количества отображаемых товаров на странице («Показывать по 24 / по 48 / по 100») создает новые URL:
/katalog/?sort=price_asc/katalog/?display=100Контент на этих страницах остается тем же самым (пусть и в другом порядке), но для поисковика это новые страницы, которые нужно обойти. Никакой пользы для SEO они не несут.
Что делать: Использовать атрибут rel="canonical", указывая на основную страницу каталога: /katalog/.
Если в вашем каталоге 500 страниц пагинации, боту потребуется много времени, чтобы прокликать их все. При этом страницы вида /blog/?page=145 практически никогда не приносят поискового трафика сами по себе.
Что делать: Основная задача пагинации — дать боту возможность добраться до карточек товаров/статей. Оптимизируйте архитектуру сайта (улучшайте перелинковку, делайте умное меню), чтобы до любого товара можно было добраться за 3-4 клика, минуя глубокую пагинацию. Сами страницы пагинации часто помечают атрибутом noindex (оставляя follow, чтобы бот шел дальше по ссылкам), либо указывают canonical на первую страницу.
Золотое правило SEO гласит: поисковые системы не должны индексировать результаты вашего внутреннего поиска. Каждое слово, вбитое пользователем в строку поиска на сайте, потенциально генерирует новую страницу вида /search/?q=любой_запрос. Если спамеры или боты начнут массово обращаться к вашему поиску, они создадут миллионы мусорных страниц, которые моментально съедят весь краулинговый бюджет.
Что делать: Строго запретить сканирование директории поиска в файле robots.txt (например, Disallow: /search/ или Disallow: /*?q=*).
Когда вы запускаете рекламу или делаете email-рассылку, к ссылкам часто прикрепляются UTM-метки (?utm_source=yandex...). Иногда сами CMS-системы генерируют идентификаторы сессий (?PHPSESSID=...). Когда такие ссылки попадают в сеть, поисковик видит их и переходит по ним.
Что делать: Обязательно настраивайте rel="canonical" со страниц с параметрами на их чистые версии. Также стоит использовать инструмент "Параметры URL" в вебмастерах (если доступно) или директиву Clean-param в Яндекс Вебмастере.
Сюда относятся страницы, созданные исключительно для функциональности сайта и удобства пользователя:
/cart/)./checkout/)./login/, /profile/).Что делать: Все служебные страницы должны быть закрыты от сканирования через robots.txt. Ботам там делать нечего.
Технические ошибки — это черная дыра для краулингового бюджета.
200 OK, сообщая боту, что страница полноценная и ее нужно индексировать.Что делать: Регулярно проводить технический аудит сайта с помощью краулеров (Screaming Frog, Netpeak Spider). Устранять цепочки редиректов, настраивать отдачу корректного 404 Not Found или 410 Gone для несуществующих страниц.
Оптимизация краулингового бюджета — это непрерывный процесс гигиены сайта. Чем масштабнее ваш проект, тем критичнее влияние технического мусора на поисковую видимость. Регулярно проверяйте серверные логи, анализируйте отчеты об индексировании в Google Search Console и Яндекс Вебмастере. Закрывая ботам доступ к бесполезным страницам (фильтрам, сортировкам, служебным разделам), вы заставляете их концентрировать свое внимание на том, что действительно важно — на контенте, который приносит целевой трафик и продажи.