Crawl budget — это «лимит внимания» поисковой системы к сайту. Googlebot и YandexBot не обходят все страницы сайта каждый день: у каждого сайта свой темп обхода, который зависит от двух факторов — насколько быстро отвечает сервер и насколько важным поисковик считает контент. Для маленьких сайтов crawl budget не проблема, всё индексируется в любом случае. Для больших сайтов (от 100 000+ страниц) — это критическая метрика, которая определяет, будет ли свежий контент в индексе через час или через неделю.
Как это работает
Google официально определяет crawl budget через две составляющие:
1. Crawl rate limit (предел скорости обхода). Сколько одновременных запросов Googlebot может делать на сайт без перегрузки сервера. Если сервер отвечает медленно (более 500 мс) или начинает выдавать 5xx ошибки, Googlebot снижает скорость обхода. Если сервер быстрый и стабильный — повышает.
2. Crawl demand (спрос на обход). Насколько Googlebot хочет обходить сайт. Зависит от:
- Популярности URL — на популярные страницы краулер заходит чаще
- Свежести — недавно изменённые страницы обходятся приоритетнее
- Общего качества сайта — Google не тратит crawl budget на сайты с низким качеством
Реальное значение crawl budget = минимум из rate limit и demand. Если сервер позволяет 1 миллион запросов в день, но Google хочет обойти только 10 тысяч страниц — реальный crawl budget будет 10 тысяч.
Как узнать свой crawl budget
Точная цифра в Google Search Console: раздел Settings → Crawl Stats. Показывает количество запросов краулера в день, средний размер скачанных файлов, среднее время ответа. Похожий отчёт есть в Яндекс.Вебмастере: Индексирование → Статистика обхода.
Базовая оценка: если у сайта 100 000 страниц и Googlebot делает 5000 запросов в день, полный обход займёт 20 дней. Это значит, что свежие страницы попадают в индекс с задержкой до 3 недель.
Что съедает crawl budget
Шесть типичных «утечек» бюджета:
| Проблема | Что делать |
|---|---|
| Дубликаты с GET-параметрами (фильтры, сортировка) | noindex или canonical, закрыть в robots.txt |
| Сессионные ID в URL | Убрать из URL, использовать cookies |
| Бесконечные пагинации (?page=99999) | Ограничить пагинацию или закрыть глубокие страницы |
| Soft 404 (страница работает, но контент пустой) | Возвращать 404 или redirect на категорию |
| Бесполезные редиректы (3xx цепочки) | Сократить до одного редиректа |
| Медленные страницы (>500 мс) | Оптимизировать TTFB, кэширование |
Зачем это нужно
Crawl budget важен в двух сценариях.
1. Большие сайты с быстро меняющимся контентом. E-commerce с 100k+ товаров, новостные сайты, маркетплейсы. Если crawl budget ограничен, новые карточки и обновления цен попадают в индекс с задержкой, что прямо влияет на выручку.
2. Сайты в процессе серьёзного обновления. При миграции, смене URL-структуры, массовом обновлении контента нужно, чтобы Googlebot быстро переобошёл сайт. Если crawl budget низкий, обновление в выдаче может растянуться на месяцы.
Для маленьких сайтов (до 10–50k страниц с регулярной частотой обновления) crawl budget — не проблема. Поисковики обходят их полностью каждые 1–7 дней.
Как увеличить crawl budget
Базовая стратегия — три направления.
1. Снять «утечки». Самое быстрое и эффективное. Закрыть дубли через noindex, исключить параметрические URL из sitemap.xml, убрать цепочки редиректов. По нашему опыту, это даёт 30–50% прироста эффективного обхода без увеличения номинального бюджета.
2. Ускорить сервер. TTFB менее 200 мс, кэширование статики на CDN, сжатие изображений в WebP/AVIF. Googlebot повышает crawl rate limit для быстрых сайтов автоматически.
3. Повысить crawl demand. Это медленнее: качество контента, ссылочный профиль, активная коммуникация в Search Console через инструмент Inspect URL для важных страниц.
Пример
В проекте крупного классифайда с 800k активных объявлений среднее время от публикации объявления до попадания в индекс Google составляло 9 дней. Это убивало бизнес-модель — модерация и публикация были быстрыми, а первые дни после публикации, когда объявление активно показывается пользователям, проходили без поискового трафика.
Аудит crawl budget показал: 70% запросов Googlebot тратилось на обход страниц-фильтров с десятками GET-параметров, sitemap.xml содержал устаревшие URL за 3 года назад, у 40k объявлений был soft 404 (страница работала, но без контента из-за ошибки кэширования). Меры: noindex на фильтры, генерация sitemap.xml только из активных объявлений, исправление soft 404.
Через 6 недель среднее время попадания в индекс упало с 9 до 1,4 дня. Прямой эффект на конверсию первых дней публикации — рост контактов с объявлений на 31% за следующий квартал.