AI-поисковики не читают страницы целиком — они извлекают фрагменты. ChatGPT, Perplexity, Google AI Overview и Алиса AI разбивают HTML на смысловые блоки (chunks), оценивают каждый независимо и решают, какой процитировать. Если ваш HTML — каша из <div>-обёрток со стилями, а schema.org отсутствует или не соответствует контенту, нейросеть пройдёт мимо. Даже если страница в топ-3 Яндекса.
Этот гайд — техническая инструкция: какой HTML пишет сайт, который цитируют LLM, какие типы schema.org реально влияют на AI-видимость, и как проверить, что разметка работает. С примерами кода, данными исследований и чек-листом для разработчика.
Почему семантический HTML критичен для AI-поиска
LLM-краулеры (GPTBot, YandexAdditionalBot, PerplexityBot) обрабатывают сырой HTML. Они не исполняют JavaScript, не рендерят CSS, не видят визуальную иерархию. Для них <div class="heading-large">Заголовок</div> — просто текст в контейнере. А <h2>Заголовок</h2> — явный сигнал начала тематического блока.
Практический тест: отключите CSS на странице. Если структура всё ещё понятна — заголовки выглядят как заголовки, списки как списки, таблицы как таблицы — HTML семантичен. Если страница превращается в однородную стену текста — для LLM она именно так и выглядит.
Что извлекает LLM из HTML
LLM разбирает страницу на chunks — смысловые блоки, ограниченные заголовками. Каждый chunk оценивается отдельно: насколько он релевантен запросу, содержит ли конкретику, самодостаточен ли без контекста остальной страницы. Chunk, который попадает в ответ, — это обычно абзац или несколько абзацев между двумя заголовками H2.
Из этого следуют три правила:
- Заголовки H2/H3 — разделители chunks. Каждый H2 начинает новый тематический блок. Формулировка заголовка определяет, по каким запросам chunk будет релевантен
- Первое предложение после заголовка — главная мысль. LLM часто берёт именно его как ядро цитаты. Если первое предложение — «Давайте разберёмся», шанс на цитирование стремится к нулю
- Каждый chunk должен быть самодостаточным. Если chunk содержит «это» или «данный метод» без указания, что именно имеется в виду, — при извлечении из контекста цитата теряет смысл
Правила семантического HTML для AI-цитирования
Заголовки: реальные теги, а не стилизованные div
Используйте <h2> для основных разделов, <h3> для подразделов. Не используйте <h2> для визуального акцента на одном слове — заголовок должен описывать тему блока.
<!-- Правильно -->
<h2>Какие типы schema.org влияют на AI-цитирование</h2>
<!-- Неправильно -->
<div class="section-title">Schema.org</div>
<div style="font-size: 24px; font-weight: bold">Типы</div>
Списки: ul/ol вместо абзацев с буллетами
LLM распознаёт <ul> и <ol> как структурированные данные. Абзацы с символами «•» или «—» в начале строки — нет. Пронумерованные списки (<ol>) цитируются чаще: LLM предпочитает чёткую последовательность.
<!-- Правильно -->
<ol>
<li>Проведите аудит текущей разметки</li>
<li>Добавьте schema.org на ключевые страницы</li>
<li>Проверьте валидность через Rich Results Test</li>
</ol>
<!-- Неправильно -->
<p>• Проведите аудит текущей разметки</p>
<p>• Добавьте schema.org на ключевые страницы</p>
Таблицы: реальные table, а не сетки из div
LLM отлично извлекает данные из <table> с <thead> и <tbody>. Сравнительные таблицы — один из самых цитируемых форматов. CSS Grid или Flexbox, стилизованные под таблицу, для LLM — просто набор div-блоков без связей между ячейками.
<table>
<thead>
<tr><th>Параметр</th><th>SSR</th><th>SSG</th></tr>
</thead>
<tbody>
<tr><td>Время до первого байта</td><td>200–500ms</td><td>50–100ms</td></tr>
<tr><td>Нагрузка на сервер</td><td>Высокая</td><td>Минимальная</td></tr>
</tbody>
</table>
Цитаты: blockquote для выделения ключевых утверждений
Тег <blockquote> сигнализирует LLM, что внутри — значимое высказывание. Используйте для выделения ключевых выводов, экспертных мнений, результатов исследований. Не используйте для декоративных врезок.
Код: pre/code с экранированием
Блоки кода в <pre><code> — для LLM явный сигнал технического контента. Экранируйте спецсимволы: <, >, &. Незакрытые теги внутри примеров кода ломают парсинг всей страницы.
figure и figcaption: контекст для изображений
LLM не видят изображения, но читают alt-текст и figcaption. Тег <figure> с <figcaption> даёт AI контекст: что изображено, почему это важно. Без figure изображение — невидимый элемент. С figure — часть контента.
<figure>
<img src="/images/core-web-vitals.webp"
alt="Результаты Core Web Vitals: LCP 1.2s, CLS 0.05, INP 120ms">
<figcaption>Core Web Vitals сайта после оптимизации:
все метрики в зелёной зоне</figcaption>
</figure>
Правило: alt-текст описывает содержание изображения (что видно). Figcaption — объясняет значение (почему это важно). Оба текста должны быть информативными, не декоративными. «Фото сайта» — бесполезно. «Результаты Core Web Vitals после оптимизации: LCP снизился с 4.2s до 1.2s» — цитируемо.
Якорные ссылки внутри страницы
Длинные pillar-гайды выигрывают от внутренних якорей: оглавление со ссылками на конкретные H2. Это помогает не только читателям, но и AI-системам: при формировании ответа LLM может сослаться на конкретный раздел страницы, а не на страницу целиком.
В 1С-Битрикс оглавление можно генерировать автоматически из H2/H3 через свойство TOC_AUTO инфоблока. Якоря в H2 добавляются шаблоном, не нужно прописывать id вручную в теле статьи.
Язык разметки vs. визуальный дизайн
Важно понимать разницу: визуальный дизайн страницы и её HTML-структура — разные вещи. Страница может выглядеть идентично при использовании div-обёрток со стилями и при использовании семантических тегов. Для человека разницы нет. Для LLM — разница принципиальна.
На практике я сталкивалась с ситуациями, когда переделка HTML страницы с div-обёрток на семантические теги (без изменения контента и дизайна) приводила к появлению страницы в нейроответах Алисы AI. Визуально ничего не изменилось. Технически — страница стала «читаемой» для AI.
Явное именование сущностей
Когда LLM извлекает chunk из контекста страницы, местоимения теряют референт. «Он позволяет ускорить загрузку» — кто «он»? Пользователь AI-ответа не видит предыдущий абзац.
Правило: в каждом предложении, которое может быть процитировано, используйте явное имя сущности. Не «Он поддерживает SSR и SSG», а «Astro поддерживает SSR и SSG». Это чуть менее элегантно стилистически, но в разы повышает цитируемость.
Schema.org для AI-поиска: что реально работает
Разработка сайта
Все услугиВ марте 2025 года Google и Microsoft публично подтвердили, что используют schema.org для AI-функций. Google AI Overviews использует структурированные данные для верификации фактов. Microsoft Copilot использует schema.org для понимания контента. Это превратило schema.org из SEO-тактики для rich snippets в инфраструктуру AI-видимости.
Tier 1: типы, которые прямо влияют на цитирование
FAQPage — формат «вопрос-ответ» совпадает с тем, как AI отдаёт информацию. Исследование Relixir (2025): страницы с FAQPage schema цитируются в AI-ответах в 2,7 раза чаще (41% vs 15%). Ответы в FAQ — 40–60 слов, конкретные, с цифрами.
Article / TechArticle — устанавливает тип контента, авторство, дату. После мартовского обновления Google 2026 AI Mode использует Article schema для верификации: автор, дата публикации, дата обновления.
Person (автор) — подтверждает реального эксперта. Обязательно: name, jobTitle, url. Желательно: sameAs (LinkedIn, профессиональные профили), knowsAbout.
HowTo — для пошаговых инструкций. Структурирует шаги так, что AI извлекает и цитирует точно. Каждый шаг — name + text.
Tier 2: усиливают контекст
Organization — идентифицирует бренд. Ключевое: sameAs со ссылками на соцсети и справочники. AI использует для подтверждения, что организация реальна.
BreadcrumbList — помогает AI понять иерархию сайта и связи между страницами. Показывает, где именно в структуре сайта находится контент.
DefinedTerm — для глоссарных страниц. Формат «термин + определение» идеально подходит для AI-цитирования.
Мартовское обновление Google 2026: что изменилось
Core update в марте 2026 изменил роль schema.org:
- FAQ rich results сократились вдвое — Google ограничил показ FAQ-сниппетов страницами, где FAQ — основной контент. Но AI Mode продолжает активно использовать FAQPage schema для верификации
- Schema как сигнал верификации для AI Mode. Gemini-powered AI Mode использует schema для проверки фактов. Точная разметка повышает вероятность цитирования даже без rich results
- Organization + Person стали приоритетными. Сайты с sameAs-идентификаторами показали рост цитирований в AI Mode
Практический вывод: schema.org — не про «красивые сниппеты». Это про то, как AI идентифицирует и верифицирует контент. Разметка должна точно соответствовать видимому контенту.
Серверный рендеринг: обязательное условие
Всё вышесказанное работает при одном условии: HTML-контент должен быть в ответе сервера при первом запросе. LLM-краулеры не исполняют JavaScript. Если контент загружается через fetch-запросы после рендеринга — краулер видит пустую страницу или skeleton.
SSR vs. SSG vs. CSR: что видит AI-краулер
| Подход | Что видит краулер | Пример фреймворков | Подходит для AI? |
|---|---|---|---|
| SSG (Static Site Generation) | Полный HTML с контентом | Astro, Next.js (static export), Hugo | Да |
| SSR (Server-Side Rendering) | Полный HTML, сгенерированный на лету | Next.js (SSR), Nuxt, 1С-Битрикс | Да |
| CSR (Client-Side Rendering) | Пустой div + JS-бандл | React SPA, Vue SPA без SSR | Нет |
| ISR (Incremental Static Regeneration) | Кешированный HTML | Next.js (ISR), Astro (hybrid) | Да |
1С-Битрикс рендерит HTML на сервере — это SSR по умолчанию. Весь контент из инфоблоков доступен краулеру при первом запросе. Это одно из преимуществ классических CMS перед SPA-фреймворками в контексте AI-поиска.
Если на сайте есть блоки, которые загружаются через AJAX (например, отзывы, цены с API, динамические фильтры) — этот контент для LLM-краулера невидим. Критически важный контент (цены, характеристики, FAQ) должен быть в серверном HTML.
Как проверить, что видит краулер
Используйте curl для просмотра серверного HTML:
curl -s https://your-site.ru/services/web-dev/ | grep -c "<h2"
Если команда возвращает 0 H2, а на странице в браузере они есть — контент рендерится через JavaScript и невидим для AI-краулеров.
Альтернативный способ: View Source в браузере (Ctrl+U). Если в исходном коде видны заголовки и контент — SSR/SSG работает. Если видны только <div id="root"></div> и скрипты — это CSR, и для AI-поиска это проблема.
Entity Graph: связь между сущностями через schema.org
Продвинутый уровень schema.org — не отдельные блоки разметки, а связный граф сущностей. Когда Organization, Person, Article и WebPage связаны через @id и @graph, AI-система видит не изолированные факты, а контекст: этот автор работает в этой компании, написал эту статью, которая находится в этом разделе сайта.
Пример entity graph для сайта компании
{
"@context": "https://schema.org",
"@graph": [
{
"@type": "Organization",
"@id": "https://melanina.ru/#org",
"name": "m.ai",
"url": "https://melanina.ru",
"sameAs": [
"https://t.me/melanina_mai",
"https://vc.ru/u/melanina"
]
},
{
"@type": "Person",
"@id": "https://melanina.ru/#author",
"name": "Валентина Меланина",
"jobTitle": "CEO",
"worksFor": {"@id": "https://melanina.ru/#org"},
"sameAs": ["https://linkedin.com/in/melanina"]
},
{
"@type": "Article",
"headline": "Semantic HTML и schema.org",
"author": {"@id": "https://melanina.ru/#author"},
"publisher": {"@id": "https://melanina.ru/#org"},
"datePublished": "2026-04-25"
}
]
}
Ключевое: @id создаёт стабильные идентификаторы сущностей. worksFor связывает автора с организацией. publisher связывает статью с организацией. AI-система, обработав этот граф, понимает: статья написана конкретным экспертом из конкретной компании — это усиливает доверие.
На практике entity graph особенно важен для сайтов, которые хотят формировать AI-авторитет бренда. Разрозненные блоки schema.org — лучше, чем ничего. Связный граф — значительно лучше.
Как связать семантический HTML и schema.org
Разработка сайта
Все услугиСемантический HTML и schema.org — два слоя одной системы. HTML определяет структуру контента для LLM-краулера. Schema.org определяет метаданные — кто автор, когда опубликовано, какого типа контент, какие сущности описаны.
Ключевое правило: HTML и schema.org должны рассказывать одну историю. Если в Article schema указан автор «Валентина Меланина», а на странице нет видимого имени автора — это расхождение. AI-системы проверяют consistency между разметкой и контентом.
Пример: экспертная статья
HTML-слой (в теле страницы):
<article>
<h2>Как schema.org влияет на AI-цитирование</h2>
<p>Страницы с FAQPage schema цитируются в AI-ответах
в 2,7 раза чаще, чем без неё. Исследование Relixir
(2025) проанализировало 50 сайтов и показало:
41% страниц с FAQ-разметкой попадают в ответы
ChatGPT, Perplexity и Google AI Overview,
против 15% без разметки.</p>
</article>
Schema-слой (JSON-LD в head, генерируется шаблоном):
{
"@context": "https://schema.org",
"@type": "Article",
"headline": "Semantic HTML и schema.org для AI-поиска",
"author": {
"@type": "Person",
"name": "Валентина Меланина",
"jobTitle": "CEO m.ai",
"sameAs": ["https://linkedin.com/in/melanina"]
},
"datePublished": "2026-04-25",
"dateModified": "2026-04-25"
}
Два слоя работают вместе: HTML даёт LLM контент для извлечения, schema.org даёт метаданные для верификации и доверия.
Платформенные различия: что предпочитают разные AI-поисковики
Разные AI-системы по-разному обрабатывают HTML и schema.org. Понимание этих различий помогает расставить приоритеты при оптимизации.
Google AI Overview (Gemini)
Строит ответы на основе собственного поискового индекса. Schema.org подтверждённо используется — Google и Microsoft публично заявили об этом в марте 2025 года. FAQPage, Article и Organization schema обрабатываются при формировании AI-ответов. dateModified — критически важен: AI Overview предпочитает свежий контент.
Алиса AI (YandexGPT)
Работает на базе поисковой выдачи Яндекса. Для попадания в нейроответы нужны позиции в топ-10 обычного поиска. Яндекс оценивает страницы по критериям ЭПОС: Экспертность, Полезность, Оригинальность, Содержательность. Семантический HTML с чёткой структурой напрямую влияет на оценку содержательности. Schema.org используется в рамках общей поисковой индексации Яндекса.
ChatGPT (GPTBot)
Использует собственную систему поиска на базе Bing. Исследование Semrush показало, что 90% страниц, цитируемых ChatGPT, не входят в топ-20 Google по аналогичным запросам. Это значит, что для ChatGPT структура контента может быть важнее, чем классические SEO-позиции. ChatGPT предпочитает нейтральный, авторитетный контент с внешними цитатами.
Perplexity AI
Тянет контент из веба в реальном времени — реагирует на изменения быстрее всех AI-поисковиков. Любит конверсационный формат, практические примеры и опытные ответы. FAQ-структура — особенно эффективна для Perplexity.
Сводная таблица
| AI-система | Источник данных | Приоритет schema | Скорость реакции на изменения |
|---|---|---|---|
| Google AI Overview | Индекс Google | Высокий (подтверждён) | Зависит от переиндексации |
| Алиса AI | Индекс Яндекса | Средний (через общий индекс) | Обновление раз в неделю (SoV) |
| ChatGPT | Bing + собственный индекс | Не подтверждён, но вероятен | Медленно (циклы обновления) |
| Perplexity | Веб в реальном времени | Не подтверждён | Быстро (real-time) |
Практический вывод: оптимизируйте в первую очередь под Google AI Overview и Алису AI — они используют классический поисковый индекс, а значит, семантический HTML и schema.org дают наибольший эффект. Для ChatGPT и Perplexity семантический HTML критичен, но schema.org — скорее бонус.
Типичные сценарии: schema.org для разных типов страниц
Не все страницы сайта требуют одинаковой schema-разметки. Вот рекомендуемый набор для каждого типа:
Экспертная статья / pillar-гайд
- Article (или TechArticle) — headline, author, datePublished, dateModified, publisher
- Person — для автора с jobTitle, sameAs, knowsAbout
- FAQPage — если есть FAQ-блок
- BreadcrumbList — путь в структуре сайта
Страница услуги
- Service — serviceType, provider, areaServed, offers (с ценой)
- Organization — provider услуги
- FAQPage — обязательно: «сколько стоит», «сколько времени», «что входит»
- AggregateRating — если есть отзывы
How-to туториал
- HowTo — с name, step (массив шагов), estimatedCost, totalTime
- Article — базовый тип
- Person — автор
Глоссарная страница
- DefinedTerm — name, description
- BreadcrumbList — Главная → Глоссарий → Термин
Страница «О компании»
- Organization — name, url, logo, sameAs (массив соцсетей и справочников), foundingDate, founder
- Person — для ключевых сотрудников
Страница «Об авторе»
- Person — name, jobTitle, worksFor, sameAs, knowsAbout, alumniOf
- ProfilePage — mainEntity ссылается на Person
Инструменты для проверки и мониторинга
Разработка сайта
Все услугиПосле внедрения семантического HTML и schema.org используйте следующие инструменты для проверки:
Валидация schema.org
- Google Rich Results Test — проверяет валидность JSON-LD и показывает, какие rich results доступны. Основной инструмент
- Schema.org Validator — проверяет соответствие спецификации. Более строгий, чем Google Rich Results Test
- Google Search Console → Rich Results Report — показывает ошибки и предупреждения по schema.org для проиндексированных страниц
Проверка HTML-семантики
- View Source (Ctrl+U) — базовая проверка: контент в HTML, заголовки реальные, списки семантические
- curl + grep — быстрая проверка серверного HTML:
curl -s URL | grep -c "<h2" - Отключение CSS — Web Developer extension → Disable CSS. Если структура сохранилась — HTML семантичен
- Lighthouse (вкладка Accessibility) — проверяет правильную иерархию заголовков и семантику
Мониторинг AI-видимости
- Яндекс Вебмастер → Видимость сайта в Алисе AI — бесплатный, обновляется раз в неделю
- Ручная проверка — 10–20 целевых запросов в Алисе AI, Google AI Overview, ChatGPT, Perplexity раз в месяц
- Ahrefs AI Index, Profound, Peec AI — платные сервисы для мониторинга западных AI-платформ
Антипаттерны: что убивает AI-цитирование
| Антипаттерн | Почему убивает цитирование | Как исправить |
|---|---|---|
| div-ы вместо семантических тегов | LLM не видит структуру — для него всё один блок текста | Заменить на h2, h3, ul, ol, table, blockquote |
| JavaScript-рендеринг контента | LLM-краулеры не исполняют JS — видят пустую страницу | SSR или SSG: контент в HTML при первом ответе сервера |
| Местоимения в ключевых предложениях | Chunk теряет смысл вне контекста: «Он позволяет…» — кто? | Явное именование: «Astro позволяет…» |
| Первый абзац — вода | LLM берёт первые предложения как ядро цитаты | Первое предложение = ответ на заголовок |
| Schema не соответствует контенту | AI-системы проверяют consistency — расхождение снижает доверие | Schema описывает только видимый контент |
| Нет dateModified | AI предпочитает свежий контент — без даты страница проигрывает | Обновлять dateModified при каждом изменении контента |
| Стилизованные «списки» из абзацев с буллетами | LLM не распознаёт как структурированные данные | Реальные ul/ol с li |
Микроформаты контента: 9 паттернов, которые цитируют LLM
Исследование KIME (апрель 2026) выявило 9 паттернов структуры контента, которые увеличивают частоту цитирования в 2–4 раза. Все они опираются на семантический HTML.
1. Answer-first абзацы
Первое предложение после H2 — прямой ответ на заголовок. Не введение, не контекст, не история вопроса. Ответ. LLM берёт первое предложение как ядро цитаты. Если оно содержит «Давайте разберёмся» или «В последнее время всё чаще» — chunk проигрывает.
Пример: заголовок «Сколько стоит разработка сайта на Astro». Первое предложение: «Разработка корпоративного сайта на Astro стоит от 300 000 руб. и занимает 4–8 недель». Не «Стоимость разработки сайта зависит от многих факторов».
2. Описательные H2/H3
Заголовок — полноценный вопрос или утверждение, совпадающее с поисковым запросом. «Как schema.org влияет на AI-цитирование» — хорошо. «Schema.org» — плохо (неинформативно). «Важная информация» — бесполезно.
3. Самодостаточные секции
Каждый H2-блок должен быть понятен без контекста остальной страницы. LLM извлекает chunk изолированно — если он начинается с «Как мы уже говорили выше» или ссылается на предыдущий раздел без пояснения, — цитата теряет смысл.
4. Абзацы с одной идеей
Один абзац — одна мысль. 2–4 предложения. Длинные абзацы с несколькими идеями LLM парсит хуже: при извлечении часть контекста теряется. Короткие абзацы с чёткими topic sentences — идеальный формат для извлечения.
5. Сравнительные таблицы
LLM отлично извлекает данные из таблиц. Сравнение двух-трёх вариантов в формате table — один из самых цитируемых форматов. Обязательно: реальный <table> с <thead> и <tbody>, а не CSS Grid.
6. Пронумерованные процессы
Списки <ol> с шагами процесса — второй по популярности формат цитирования после таблиц. «5 шагов GEO-оптимизации», «3 этапа аудита» — LLM извлекает весь список целиком или отдельные пункты.
7. Факто-насыщенные предложения
Предложения с конкретными цифрами, датами, именами — предпочтительные единицы для цитирования. «Исследование Princeton (KDD 2024) показало рост видимости до 40%» — факт, который LLM процитирует. «Видимость может значительно увеличиться» — нет.
8. Явное именование сущностей
Повторю: каждое предложение, которое может быть извлечено из контекста, должно содержать явное имя субъекта. «Astro поддерживает SSR и SSG», а не «Он поддерживает SSR и SSG». При извлечении местоимение теряет референт.
9. Чистый семантический HTML
Все предыдущие 8 паттернов работают только если HTML семантичен. div-обёртки с CSS-классами не дают LLM структуры. Реальные h2, ol, table, blockquote — дают.
Частые вопросы от разработчиков
Разработка сайта
Все услугиНужно ли переделывать все страницы сразу?
Нет. Начните с 5–10 самых важных страниц: главные услуги, ключевые гайды, страница «О компании». Замерьте результат через 4–8 недель. Затем масштабируйте на остальные страницы.
Работает ли это для SPA на React/Vue?
Только с SSR. Чистый CSR (Client-Side Rendering) невидим для LLM-краулеров. Если проект на React — используйте Next.js с SSR или SSG. На Vue — Nuxt. Или добавьте prerendering для ключевых страниц.
Как быть с динамическим контентом (цены, наличие)?
Критически важные данные (цены, характеристики, FAQ) должны быть в серверном HTML. Динамические элементы (корзина, онлайн-статус, персонализация) могут загружаться через JS — они не нужны для AI-цитирования.
Влияет ли CSS на AI-видимость?
Нет. LLM-краулеры не обрабатывают CSS. display: none скрывает контент от людей, но не от краулеров. Однако Google может наказать за hidden text — если скрытый контент отличается от видимого. Правило: schema.org и HTML должны описывать только видимый контент.
А что с AMP-страницами?
AMP использует семантический HTML по умолчанию. Если у вас AMP-версии страниц — они уже хорошо структурированы для LLM. Но AMP-проект в значительной степени свёрнут, и инвестировать в него не стоит. Лучше сосредоточиться на обычных HTML-страницах с SSR.
Чек-лист для разработчика
Семантический HTML
- Все заголовки — реальные h2/h3, не стилизованные div
- Все списки — ul/ol, не абзацы с символами буллетов
- Все таблицы — реальные table с thead/tbody, не CSS Grid
- Контент рендерится на сервере (SSR/SSG), не только через JS
- Каждый H2-блок самодостаточен — понятен без контекста страницы
- В ключевых предложениях — явные имена сущностей, не местоимения
- Первое предложение после H2 — topic sentence с главной мыслью
- Отключите CSS — структура всё ещё читаема
Schema.org (JSON-LD)
- Article + Person (автор) + BreadcrumbList — на каждой статье
- FAQPage — на страницах с FAQ-блоком
- HowTo — на туториалах с пошаговыми инструкциями
- Organization с sameAs — на странице компании
- datePublished и dateModified актуальны и совпадают с видимыми датами
- Автор в schema совпадает с автором на странице
- Валидация через Rich Results Test — без ошибок
Проверка
- Откройте страницу через curl или View Source — весь контент в HTML?
- Проверьте Rich Results Test — schema валидна?
- Отключите CSS — структура читаема?
- Возьмите любой H2-блок изолированно — он понятен без остальной страницы?
Свежесть контента: dateModified как сигнал доверия
AI-системы учитывают свежесть контента. Страница с dateModified: 2024-01-15 проиграет странице с dateModified: 2026-04-25 при прочих равных — AI предполагает, что свежий контент более точен.
Правила работы с датами:
- Обновляйте dateModified при каждом существенном изменении контента. Исправление опечатки — не повод. Обновление цифр, добавление нового раздела, актуализация рекомендаций — повод
- dateModified должен совпадать с видимой датой на странице. Если в schema.org стоит «обновлено 25 апреля 2026», а на странице дата не видна или стоит другая — AI фиксирует расхождение
- Не обновляйте dateModified без реального обновления контента. AI-системы могут сравнивать кеш страницы. Если dateModified изменился, а контент — нет, это обман, и доверие падает
- Добавляйте год в быстро устаревающие факты. «По состоянию на апрель 2026 года» рядом с цифрами и утверждениями, которые могут измениться. Это помогает и AI, и читателю оценить актуальность
В 1С-Битрикс dateModified можно генерировать автоматически из поля TIMESTAMP_X инфоблока — оно обновляется при каждом сохранении элемента.
Практический пример: до и после оптимизации
Разработка сайта
Все услугиРазберём реальный пример — страница услуги «Разработка сайтов». Покажу, как семантический HTML и schema.org трансформируют страницу из «невидимой» для AI в «цитируемую».
До оптимизации
<div class="service-page">
<div class="hero-title">Разработка сайтов</div>
<div class="hero-text">Мы создаём современные сайты
с индивидуальным подходом к каждому клиенту.
Наша команда профессионалов поможет вам
реализовать проект любой сложности.</div>
<div class="features">
<div class="feature">• Уникальный дизайн</div>
<div class="feature">• Адаптивная вёрстка</div>
<div class="feature">• SEO-оптимизация</div>
</div>
</div>
Проблемы: div вместо h2, «мы команда профессионалов» вместо конкретики, буллеты как div-ы, нет цифр, нет FAQ.
После оптимизации
<h2>Сколько стоит разработка сайта на Astro</h2>
<p>Разработка корпоративного сайта на Astro
занимает 4–8 недель и стоит от 300 000 руб.
В стоимость входит: прототипирование в Figma,
адаптивная вёрстка, интеграция с CMS,
настройка Core Web Vitals до зелёной зоны
(LCP < 2.5s, CLS < 0.1).</p>
<h3>Что входит в разработку</h3>
<ol>
<li>Аудит бизнес-задач и аналитика (1 неделя)</li>
<li>Прототипирование и дизайн в Figma (1–2 нед.)</li>
<li>Вёрстка и интеграция с CMS (2–3 нед.)</li>
<li>Тестирование и запуск (1 неделя)</li>
</ol>
Результат: H2 совпадает с поисковым запросом, первое предложение содержит цену и сроки, пронумерованные шаги в ol, конкретные метрики. Любой chunk этой страницы — готовый ответ для AI-поисковика.
Как измерить результат
После внедрения семантического HTML и schema.org измеряйте три уровня:
Rich results (1–4 недели). Google Search Console → отчёт Rich Results. Рост impressions и CTR для страниц с новой разметкой.
AI-цитирование (4–8 недель). Еженедельная проверка 10–20 целевых запросов в AI-поисковиках. Фиксация: цитируется ли сайт, какая страница, какой chunk. Инструмент Яндекса «Видимость в Алисе AI» покажет динамику Share of Voice.
Perplexity реагирует быстрее всех — она тянет контент из веба в реальном времени. ChatGPT обновляется медленнее — зависит от циклов обновления индекса Bing. Google AI Overview — зависит от классического поискового индекса.
По данным практиков, большинство сайтов видят измеримые изменения в AI-цитировании через 30–45 дней после структурных изменений в HTML и schema.org.
Пошаговый план внедрения: от аудита до результата
Неделя 1: аудит текущего состояния
Проверьте 5 самых важных страниц сайта по следующим критериям:
- Откройте исходный код (Ctrl+U). Весь контент в HTML? Или загружается через JavaScript?
- Найдите заголовки. Это реальные h2/h3 или стилизованные div-ы?
- Найдите списки. Это ul/ol или абзацы с символами буллетов?
- Есть ли таблицы? Реальные table или CSS Grid?
- Проверьте schema.org через Google Rich Results Test. Есть ли ошибки?
- Есть ли FAQPage schema на страницах с FAQ-блоками?
- Указан ли автор в schema.org? Совпадает ли с видимым автором на странице?
- Актуальна ли dateModified?
Зафиксируйте результат. Для каждой страницы составьте список задач.
Неделя 2: исправление HTML
Начните с технической основы — замена div-обёрток на семантические теги. Это самая простая часть, но с максимальным эффектом. В 1С-Битрикс шаблоны компонентов обычно уже используют семантический HTML. Проверьте шаблон вашей темы — возможно, проблема не в CMS, а в кастомном шаблоне.
Для каждой страницы:
- Замените стилизованные заголовки на h2/h3
- Замените текстовые буллеты на ul/ol
- Замените CSS-сетки, используемые как таблицы, на реальные table
- Добавьте figure/figcaption к ключевым изображениям
- Перепишите первое предложение каждого H2-блока как прямой ответ на заголовок
- Замените местоимения на явные имена сущностей в ключевых предложениях
Неделя 3: внедрение schema.org
Добавьте JSON-LD разметку. Приоритет:
- Organization — на все страницы (через шаблон сайта)
- Person — для авторов экспертного контента (через шаблон статей)
- Article — на все статьи и гайды (через шаблон)
- FAQPage — на страницы с FAQ (через компонент FAQ)
- BreadcrumbList — на все страницы (через навигационный компонент)
В 1С-Битрикс schema.org удобно генерировать через шаблон компонента — JSON-LD формируется на основе данных из инфоблока и выводится в head страницы. Не нужно прописывать разметку вручную в каждой статье.
Неделя 4: контентная оптимизация
После технической подготовки — работа с контентом:
- Добавьте FAQ-блоки на страницы услуг (5–8 вопросов)
- Перепишите лиды (первые абзацы) — они должны быть самодостаточными ответами
- Добавьте сравнительные таблицы, где это уместно
- Убедитесь, что каждый H2-блок самодостаточен
- Добавьте цифры и ссылки на источники
Неделя 5–8: измерение результата
Через 4 недели после внедрения начните измерять:
- Rich Results Test — все ли schema валидны?
- Google Search Console — Rich Results Report, рост impressions
- Яндекс Вебмастер — «Видимость в Алисе AI», динамика SoV
- Ручная проверка 10–20 запросов в AI-поисковиках
По данным практиков, первые измеримые результаты в AI-цитировании появляются через 30–45 дней. Perplexity реагирует быстрее (real-time crawling), ChatGPT — медленнее (зависит от обновления индекса Bing), Google AI Overview — в рамках обычного цикла переиндексации.
Почему это работает: механика AI-поиска
Разработка сайта
Все услугиГенеративный поисковик работает по архитектуре RAG (Retrieval-Augmented Generation): сначала поисковая система находит релевантные страницы (retrieval), затем LLM генерирует ответ на основе найденных источников (generation).
На этапе retrieval критичны классические SEO-факторы: релевантность, авторитетность, ссылочная масса. На этапе generation критичны факторы, которые мы обсуждаем в этом гайде: структура HTML, schema.org, самодостаточность chunks, конкретика контента.
Страница может пройти этап retrieval (попасть в топ-10 поиска), но не пройти этап generation (не быть процитированной). Это происходит, когда контент есть, но LLM не может его извлечь — потому что HTML неструктурирован, первые предложения — вода, таблицы — стилизованные div-ы.
Семантический HTML и schema.org решают именно этот gap: превращают страницу из «найденной, но непроцитированной» в «найденную и процитированную».
По данным исследования Princeton (KDD 2024), правильная структура повышает видимость в генеративных ответах до 40%. А для малых сайтов эффект ещё выше — до 115% для метода Cite Sources. Это делает семантический HTML и schema.org одной из самых доступных и эффективных стратегий AI-оптимизации: затраты на внедрение минимальны, а результат — измеримый рост цитирования в нейроответах.