meta robots noindex — самый точный способ убрать страницу из выдачи поисковиков. Это два разных варианта одной директивы: HTML-тег в head страницы или HTTP-заголовок X-Robots-Tag, который сервер отдаёт вместе с ответом. Оба эквивалентны: первый удобнее для статического контента, второй — для PDF, изображений и других не-HTML файлов.
Как это работает
HTML-вариант размещается в head:
<meta name="robots" content="noindex">
HTTP-заголовок (для PDF и не-HTML файлов):
X-Robots-Tag: noindex
Когда краулер находит такую страницу, он её обходит, парсит, но в индекс не добавляет. Если страница уже была в индексе, она оттуда удаляется — это занимает от нескольких часов до нескольких недель в зависимости от частоты обхода.
Директивы meta robots
noindex — одна из набора директив:
| Директива | Что делает |
|---|---|
| noindex | Не индексировать страницу |
| index | Индексировать (значение по умолчанию, обычно не пишется) |
| nofollow | Не передавать вес по ссылкам с этой страницы |
| follow | Передавать вес по ссылкам (по умолчанию) |
| none | Эквивалент noindex, nofollow |
| noarchive | Не сохранять кэш страницы |
| nosnippet | Не показывать описание в выдаче |
| max-snippet | Ограничить длину описания |
Можно комбинировать через запятую: <meta name="robots" content="noindex, nofollow">.
noindex vs Disallow в robots.txt — главная разница
Это самая частая путаница в техническом SEO. Директивы решают разные задачи:
| Параметр | noindex (meta или X-Robots-Tag) | Disallow (robots.txt) |
|---|---|---|
| Что запрещает | Индексацию (попадание в выдачу) | Обход краулером |
| Краулер обходит страницу? | Да, обходит, читает, не индексирует | Нет, не обходит |
| Страница может попасть в индекс? | Не может | Может — если на неё ведут внешние ссылки |
| Где задаётся | На самой странице | В корне сайта |
| Когда применять | Чтобы убрать страницу из выдачи | Чтобы сэкономить crawl budget |
Парадокс Disallow: если в robots.txt запретить обход страницы, но на неё ведут внешние ссылки, Google может всё равно показать её в выдаче — с пометкой «нет описания». Поэтому для гарантированного удаления из индекса используется noindex, а не Disallow.
Важное правило: если нужно убрать страницу из индекса через noindex, её не должно быть в robots.txt. Иначе краулер не зайдёт на страницу и не увидит директиву noindex — страница останется в индексе.
Зачем это нужно
noindex применяется в шести типичных сценариях.
- Служебные страницы. Корзина, страница оплаты, личный кабинет — не должны быть в выдаче
- Страницы фильтров и сортировки. Каталог с GET-параметрами вроде
?sort=priceсоздаёт тысячи дублей — для них noindex или canonical - Дубликаты контента. Печатные версии страниц, мобильные дубли
- Тонкий контент. Карточки товаров без описаний, страницы с одной строкой, неинформативные разделы
- Внутренний поиск сайта. Страницы результатов поиска часто бесконечные и низкокачественные
- Архивы устаревшего контента. Старые акции, анонсы прошлых мероприятий
Пример
В проекте e-commerce-клиента в Search Console было около 200 000 страниц-дублей с GET-параметрами фильтров: /category/?color=red, /category/?size=L&color=red и так далее. Все они были в индексе, разбавляя релевантность основных карточек.
Решение: добавили в шаблон страниц с GET-параметрами тег <meta name="robots" content="noindex, follow">. Параметр follow важен: краулер всё ещё переходит по ссылкам с такой страницы дальше, но саму страницу не индексирует. Параллельно убрали эти URL из sitemap.xml. Через 6 недель из индекса ушло 187 000 страниц-дублей. Видимость основных категорий выросла на 12% за следующие 2 месяца — Google переключил внимание на качественные страницы.
Альтернативой могло быть использование canonical, но canonical — рекомендация, которую Google может проигнорировать. noindex — жёсткая директива.