Гайд

Semantic HTML и schema.org: как сделать сайт, который цитируют LLM

Генеративные поисковые системы не читают страницы — они извлекают фрагменты. Попадёт ли ваш сайт в ответ ChatGPT, Perplexity или Алисы AI, зависит от того, как устроен HTML и насколько чётко schema.org описывает контент. В этом гайде — конкретные правила разметки, примеры кода и данные исследований: какие теги, типы schema и паттерны структуры повышают шансы на цитирование до 2–4 раз.

AI-поисковики не читают страницы целиком — они извлекают фрагменты. ChatGPT, Perplexity, Google AI Overview и Алиса AI разбивают HTML на смысловые блоки (chunks), оценивают каждый независимо и решают, какой процитировать. Если ваш HTML — каша из <div>-обёрток со стилями, а schema.org отсутствует или не соответствует контенту, нейросеть пройдёт мимо. Даже если страница в топ-3 Яндекса.

Этот гайд — техническая инструкция: какой HTML пишет сайт, который цитируют LLM, какие типы schema.org реально влияют на AI-видимость, и как проверить, что разметка работает. С примерами кода, данными исследований и чек-листом для разработчика.

Почему семантический HTML критичен для AI-поиска

LLM-краулеры (GPTBot, YandexAdditionalBot, PerplexityBot) обрабатывают сырой HTML. Они не исполняют JavaScript, не рендерят CSS, не видят визуальную иерархию. Для них <div class="heading-large">Заголовок</div> — просто текст в контейнере. А <h2>Заголовок</h2> — явный сигнал начала тематического блока.

Практический тест: отключите CSS на странице. Если структура всё ещё понятна — заголовки выглядят как заголовки, списки как списки, таблицы как таблицы — HTML семантичен. Если страница превращается в однородную стену текста — для LLM она именно так и выглядит.

Что извлекает LLM из HTML

LLM разбирает страницу на chunks — смысловые блоки, ограниченные заголовками. Каждый chunk оценивается отдельно: насколько он релевантен запросу, содержит ли конкретику, самодостаточен ли без контекста остальной страницы. Chunk, который попадает в ответ, — это обычно абзац или несколько абзацев между двумя заголовками H2.

Из этого следуют три правила:

  1. Заголовки H2/H3 — разделители chunks. Каждый H2 начинает новый тематический блок. Формулировка заголовка определяет, по каким запросам chunk будет релевантен
  2. Первое предложение после заголовка — главная мысль. LLM часто берёт именно его как ядро цитаты. Если первое предложение — «Давайте разберёмся», шанс на цитирование стремится к нулю
  3. Каждый chunk должен быть самодостаточным. Если chunk содержит «это» или «данный метод» без указания, что именно имеется в виду, — при извлечении из контекста цитата теряет смысл

Правила семантического HTML для AI-цитирования

Заголовки: реальные теги, а не стилизованные div

Используйте <h2> для основных разделов, <h3> для подразделов. Не используйте <h2> для визуального акцента на одном слове — заголовок должен описывать тему блока.

<!-- Правильно -->
<h2>Какие типы schema.org влияют на AI-цитирование</h2>

<!-- Неправильно -->
<div class="section-title">Schema.org</div>
<div style="font-size: 24px; font-weight: bold">Типы</div>

Списки: ul/ol вместо абзацев с буллетами

LLM распознаёт <ul> и <ol> как структурированные данные. Абзацы с символами «•» или «—» в начале строки — нет. Пронумерованные списки (<ol>) цитируются чаще: LLM предпочитает чёткую последовательность.

<!-- Правильно -->
<ol>
  <li>Проведите аудит текущей разметки</li>
  <li>Добавьте schema.org на ключевые страницы</li>
  <li>Проверьте валидность через Rich Results Test</li>
</ol>

<!-- Неправильно -->
<p>• Проведите аудит текущей разметки</p>
<p>• Добавьте schema.org на ключевые страницы</p>

Таблицы: реальные table, а не сетки из div

LLM отлично извлекает данные из <table> с <thead> и <tbody>. Сравнительные таблицы — один из самых цитируемых форматов. CSS Grid или Flexbox, стилизованные под таблицу, для LLM — просто набор div-блоков без связей между ячейками.

<table>
  <thead>
    <tr><th>Параметр</th><th>SSR</th><th>SSG</th></tr>
  </thead>
  <tbody>
    <tr><td>Время до первого байта</td><td>200–500ms</td><td>50–100ms</td></tr>
    <tr><td>Нагрузка на сервер</td><td>Высокая</td><td>Минимальная</td></tr>
  </tbody>
</table>

Цитаты: blockquote для выделения ключевых утверждений

Тег <blockquote> сигнализирует LLM, что внутри — значимое высказывание. Используйте для выделения ключевых выводов, экспертных мнений, результатов исследований. Не используйте для декоративных врезок.

Код: pre/code с экранированием

Блоки кода в <pre><code> — для LLM явный сигнал технического контента. Экранируйте спецсимволы: &lt;, &gt;, &amp;. Незакрытые теги внутри примеров кода ломают парсинг всей страницы.

figure и figcaption: контекст для изображений

LLM не видят изображения, но читают alt-текст и figcaption. Тег <figure> с <figcaption> даёт AI контекст: что изображено, почему это важно. Без figure изображение — невидимый элемент. С figure — часть контента.

<figure>
  <img src="/images/core-web-vitals.webp"
       alt="Результаты Core Web Vitals: LCP 1.2s, CLS 0.05, INP 120ms">
  <figcaption>Core Web Vitals сайта после оптимизации:
  все метрики в зелёной зоне</figcaption>
</figure>

Правило: alt-текст описывает содержание изображения (что видно). Figcaption — объясняет значение (почему это важно). Оба текста должны быть информативными, не декоративными. «Фото сайта» — бесполезно. «Результаты Core Web Vitals после оптимизации: LCP снизился с 4.2s до 1.2s» — цитируемо.

Якорные ссылки внутри страницы

Длинные pillar-гайды выигрывают от внутренних якорей: оглавление со ссылками на конкретные H2. Это помогает не только читателям, но и AI-системам: при формировании ответа LLM может сослаться на конкретный раздел страницы, а не на страницу целиком.

В 1С-Битрикс оглавление можно генерировать автоматически из H2/H3 через свойство TOC_AUTO инфоблока. Якоря в H2 добавляются шаблоном, не нужно прописывать id вручную в теле статьи.

Язык разметки vs. визуальный дизайн

Важно понимать разницу: визуальный дизайн страницы и её HTML-структура — разные вещи. Страница может выглядеть идентично при использовании div-обёрток со стилями и при использовании семантических тегов. Для человека разницы нет. Для LLM — разница принципиальна.

На практике я сталкивалась с ситуациями, когда переделка HTML страницы с div-обёрток на семантические теги (без изменения контента и дизайна) приводила к появлению страницы в нейроответах Алисы AI. Визуально ничего не изменилось. Технически — страница стала «читаемой» для AI.

Явное именование сущностей

Когда LLM извлекает chunk из контекста страницы, местоимения теряют референт. «Он позволяет ускорить загрузку» — кто «он»? Пользователь AI-ответа не видит предыдущий абзац.

Правило: в каждом предложении, которое может быть процитировано, используйте явное имя сущности. Не «Он поддерживает SSR и SSG», а «Astro поддерживает SSR и SSG». Это чуть менее элегантно стилистически, но в разы повышает цитируемость.

Schema.org для AI-поиска: что реально работает

В марте 2025 года Google и Microsoft публично подтвердили, что используют schema.org для AI-функций. Google AI Overviews использует структурированные данные для верификации фактов. Microsoft Copilot использует schema.org для понимания контента. Это превратило schema.org из SEO-тактики для rich snippets в инфраструктуру AI-видимости.

Tier 1: типы, которые прямо влияют на цитирование

FAQPage — формат «вопрос-ответ» совпадает с тем, как AI отдаёт информацию. Исследование Relixir (2025): страницы с FAQPage schema цитируются в AI-ответах в 2,7 раза чаще (41% vs 15%). Ответы в FAQ — 40–60 слов, конкретные, с цифрами.

Article / TechArticle — устанавливает тип контента, авторство, дату. После мартовского обновления Google 2026 AI Mode использует Article schema для верификации: автор, дата публикации, дата обновления.

Person (автор) — подтверждает реального эксперта. Обязательно: name, jobTitle, url. Желательно: sameAs (LinkedIn, профессиональные профили), knowsAbout.

HowTo — для пошаговых инструкций. Структурирует шаги так, что AI извлекает и цитирует точно. Каждый шаг — name + text.

Tier 2: усиливают контекст

Organization — идентифицирует бренд. Ключевое: sameAs со ссылками на соцсети и справочники. AI использует для подтверждения, что организация реальна.

BreadcrumbList — помогает AI понять иерархию сайта и связи между страницами. Показывает, где именно в структуре сайта находится контент.

DefinedTerm — для глоссарных страниц. Формат «термин + определение» идеально подходит для AI-цитирования.

Мартовское обновление Google 2026: что изменилось

Core update в марте 2026 изменил роль schema.org:

  • FAQ rich results сократились вдвое — Google ограничил показ FAQ-сниппетов страницами, где FAQ — основной контент. Но AI Mode продолжает активно использовать FAQPage schema для верификации
  • Schema как сигнал верификации для AI Mode. Gemini-powered AI Mode использует schema для проверки фактов. Точная разметка повышает вероятность цитирования даже без rich results
  • Organization + Person стали приоритетными. Сайты с sameAs-идентификаторами показали рост цитирований в AI Mode

Практический вывод: schema.org — не про «красивые сниппеты». Это про то, как AI идентифицирует и верифицирует контент. Разметка должна точно соответствовать видимому контенту.

Серверный рендеринг: обязательное условие

Всё вышесказанное работает при одном условии: HTML-контент должен быть в ответе сервера при первом запросе. LLM-краулеры не исполняют JavaScript. Если контент загружается через fetch-запросы после рендеринга — краулер видит пустую страницу или skeleton.

SSR vs. SSG vs. CSR: что видит AI-краулер

ПодходЧто видит краулерПример фреймворковПодходит для AI?
SSG (Static Site Generation)Полный HTML с контентомAstro, Next.js (static export), HugoДа
SSR (Server-Side Rendering)Полный HTML, сгенерированный на летуNext.js (SSR), Nuxt, 1С-БитриксДа
CSR (Client-Side Rendering)Пустой div + JS-бандлReact SPA, Vue SPA без SSRНет
ISR (Incremental Static Regeneration)Кешированный HTMLNext.js (ISR), Astro (hybrid)Да

1С-Битрикс рендерит HTML на сервере — это SSR по умолчанию. Весь контент из инфоблоков доступен краулеру при первом запросе. Это одно из преимуществ классических CMS перед SPA-фреймворками в контексте AI-поиска.

Если на сайте есть блоки, которые загружаются через AJAX (например, отзывы, цены с API, динамические фильтры) — этот контент для LLM-краулера невидим. Критически важный контент (цены, характеристики, FAQ) должен быть в серверном HTML.

Как проверить, что видит краулер

Используйте curl для просмотра серверного HTML:

curl -s https://your-site.ru/services/web-dev/ | grep -c "<h2"

Если команда возвращает 0 H2, а на странице в браузере они есть — контент рендерится через JavaScript и невидим для AI-краулеров.

Альтернативный способ: View Source в браузере (Ctrl+U). Если в исходном коде видны заголовки и контент — SSR/SSG работает. Если видны только <div id="root"></div> и скрипты — это CSR, и для AI-поиска это проблема.

Entity Graph: связь между сущностями через schema.org

Продвинутый уровень schema.org — не отдельные блоки разметки, а связный граф сущностей. Когда Organization, Person, Article и WebPage связаны через @id и @graph, AI-система видит не изолированные факты, а контекст: этот автор работает в этой компании, написал эту статью, которая находится в этом разделе сайта.

Пример entity graph для сайта компании

{
  "@context": "https://schema.org",
  "@graph": [
    {
      "@type": "Organization",
      "@id": "https://melanina.ru/#org",
      "name": "m.ai",
      "url": "https://melanina.ru",
      "sameAs": [
        "https://t.me/melanina_mai",
        "https://vc.ru/u/melanina"
      ]
    },
    {
      "@type": "Person",
      "@id": "https://melanina.ru/#author",
      "name": "Валентина Меланина",
      "jobTitle": "CEO",
      "worksFor": {"@id": "https://melanina.ru/#org"},
      "sameAs": ["https://linkedin.com/in/melanina"]
    },
    {
      "@type": "Article",
      "headline": "Semantic HTML и schema.org",
      "author": {"@id": "https://melanina.ru/#author"},
      "publisher": {"@id": "https://melanina.ru/#org"},
      "datePublished": "2026-04-25"
    }
  ]
}

Ключевое: @id создаёт стабильные идентификаторы сущностей. worksFor связывает автора с организацией. publisher связывает статью с организацией. AI-система, обработав этот граф, понимает: статья написана конкретным экспертом из конкретной компании — это усиливает доверие.

На практике entity graph особенно важен для сайтов, которые хотят формировать AI-авторитет бренда. Разрозненные блоки schema.org — лучше, чем ничего. Связный граф — значительно лучше.

Как связать семантический HTML и schema.org

Семантический HTML и schema.org — два слоя одной системы. HTML определяет структуру контента для LLM-краулера. Schema.org определяет метаданные — кто автор, когда опубликовано, какого типа контент, какие сущности описаны.

Ключевое правило: HTML и schema.org должны рассказывать одну историю. Если в Article schema указан автор «Валентина Меланина», а на странице нет видимого имени автора — это расхождение. AI-системы проверяют consistency между разметкой и контентом.

Пример: экспертная статья

HTML-слой (в теле страницы):

<article>
  <h2>Как schema.org влияет на AI-цитирование</h2>
  <p>Страницы с FAQPage schema цитируются в AI-ответах
  в 2,7 раза чаще, чем без неё. Исследование Relixir
  (2025) проанализировало 50 сайтов и показало:
  41% страниц с FAQ-разметкой попадают в ответы
  ChatGPT, Perplexity и Google AI Overview,
  против 15% без разметки.</p>
</article>

Schema-слой (JSON-LD в head, генерируется шаблоном):

{
  "@context": "https://schema.org",
  "@type": "Article",
  "headline": "Semantic HTML и schema.org для AI-поиска",
  "author": {
    "@type": "Person",
    "name": "Валентина Меланина",
    "jobTitle": "CEO m.ai",
    "sameAs": ["https://linkedin.com/in/melanina"]
  },
  "datePublished": "2026-04-25",
  "dateModified": "2026-04-25"
}

Два слоя работают вместе: HTML даёт LLM контент для извлечения, schema.org даёт метаданные для верификации и доверия.

Платформенные различия: что предпочитают разные AI-поисковики

Разные AI-системы по-разному обрабатывают HTML и schema.org. Понимание этих различий помогает расставить приоритеты при оптимизации.

Google AI Overview (Gemini)

Строит ответы на основе собственного поискового индекса. Schema.org подтверждённо используется — Google и Microsoft публично заявили об этом в марте 2025 года. FAQPage, Article и Organization schema обрабатываются при формировании AI-ответов. dateModified — критически важен: AI Overview предпочитает свежий контент.

Алиса AI (YandexGPT)

Работает на базе поисковой выдачи Яндекса. Для попадания в нейроответы нужны позиции в топ-10 обычного поиска. Яндекс оценивает страницы по критериям ЭПОС: Экспертность, Полезность, Оригинальность, Содержательность. Семантический HTML с чёткой структурой напрямую влияет на оценку содержательности. Schema.org используется в рамках общей поисковой индексации Яндекса.

ChatGPT (GPTBot)

Использует собственную систему поиска на базе Bing. Исследование Semrush показало, что 90% страниц, цитируемых ChatGPT, не входят в топ-20 Google по аналогичным запросам. Это значит, что для ChatGPT структура контента может быть важнее, чем классические SEO-позиции. ChatGPT предпочитает нейтральный, авторитетный контент с внешними цитатами.

Perplexity AI

Тянет контент из веба в реальном времени — реагирует на изменения быстрее всех AI-поисковиков. Любит конверсационный формат, практические примеры и опытные ответы. FAQ-структура — особенно эффективна для Perplexity.

Сводная таблица

AI-системаИсточник данныхПриоритет schemaСкорость реакции на изменения
Google AI OverviewИндекс GoogleВысокий (подтверждён)Зависит от переиндексации
Алиса AIИндекс ЯндексаСредний (через общий индекс)Обновление раз в неделю (SoV)
ChatGPTBing + собственный индексНе подтверждён, но вероятенМедленно (циклы обновления)
PerplexityВеб в реальном времениНе подтверждёнБыстро (real-time)

Практический вывод: оптимизируйте в первую очередь под Google AI Overview и Алису AI — они используют классический поисковый индекс, а значит, семантический HTML и schema.org дают наибольший эффект. Для ChatGPT и Perplexity семантический HTML критичен, но schema.org — скорее бонус.

Типичные сценарии: schema.org для разных типов страниц

Не все страницы сайта требуют одинаковой schema-разметки. Вот рекомендуемый набор для каждого типа:

Экспертная статья / pillar-гайд

  • Article (или TechArticle) — headline, author, datePublished, dateModified, publisher
  • Person — для автора с jobTitle, sameAs, knowsAbout
  • FAQPage — если есть FAQ-блок
  • BreadcrumbList — путь в структуре сайта

Страница услуги

  • Service — serviceType, provider, areaServed, offers (с ценой)
  • Organization — provider услуги
  • FAQPage — обязательно: «сколько стоит», «сколько времени», «что входит»
  • AggregateRating — если есть отзывы

How-to туториал

  • HowTo — с name, step (массив шагов), estimatedCost, totalTime
  • Article — базовый тип
  • Person — автор

Глоссарная страница

  • DefinedTerm — name, description
  • BreadcrumbList — Главная → Глоссарий → Термин

Страница «О компании»

  • Organization — name, url, logo, sameAs (массив соцсетей и справочников), foundingDate, founder
  • Person — для ключевых сотрудников

Страница «Об авторе»

  • Person — name, jobTitle, worksFor, sameAs, knowsAbout, alumniOf
  • ProfilePage — mainEntity ссылается на Person

Инструменты для проверки и мониторинга

После внедрения семантического HTML и schema.org используйте следующие инструменты для проверки:

Валидация schema.org

  • Google Rich Results Test — проверяет валидность JSON-LD и показывает, какие rich results доступны. Основной инструмент
  • Schema.org Validator — проверяет соответствие спецификации. Более строгий, чем Google Rich Results Test
  • Google Search Console → Rich Results Report — показывает ошибки и предупреждения по schema.org для проиндексированных страниц

Проверка HTML-семантики

  • View Source (Ctrl+U) — базовая проверка: контент в HTML, заголовки реальные, списки семантические
  • curl + grep — быстрая проверка серверного HTML: curl -s URL | grep -c "<h2"
  • Отключение CSS — Web Developer extension → Disable CSS. Если структура сохранилась — HTML семантичен
  • Lighthouse (вкладка Accessibility) — проверяет правильную иерархию заголовков и семантику

Мониторинг AI-видимости

  • Яндекс Вебмастер → Видимость сайта в Алисе AI — бесплатный, обновляется раз в неделю
  • Ручная проверка — 10–20 целевых запросов в Алисе AI, Google AI Overview, ChatGPT, Perplexity раз в месяц
  • Ahrefs AI Index, Profound, Peec AI — платные сервисы для мониторинга западных AI-платформ

Антипаттерны: что убивает AI-цитирование

АнтипаттернПочему убивает цитированиеКак исправить
div-ы вместо семантических теговLLM не видит структуру — для него всё один блок текстаЗаменить на h2, h3, ul, ol, table, blockquote
JavaScript-рендеринг контентаLLM-краулеры не исполняют JS — видят пустую страницуSSR или SSG: контент в HTML при первом ответе сервера
Местоимения в ключевых предложенияхChunk теряет смысл вне контекста: «Он позволяет…» — кто?Явное именование: «Astro позволяет…»
Первый абзац — водаLLM берёт первые предложения как ядро цитатыПервое предложение = ответ на заголовок
Schema не соответствует контентуAI-системы проверяют consistency — расхождение снижает довериеSchema описывает только видимый контент
Нет dateModifiedAI предпочитает свежий контент — без даты страница проигрываетОбновлять dateModified при каждом изменении контента
Стилизованные «списки» из абзацев с буллетамиLLM не распознаёт как структурированные данныеРеальные ul/ol с li

Микроформаты контента: 9 паттернов, которые цитируют LLM

Исследование KIME (апрель 2026) выявило 9 паттернов структуры контента, которые увеличивают частоту цитирования в 2–4 раза. Все они опираются на семантический HTML.

1. Answer-first абзацы

Первое предложение после H2 — прямой ответ на заголовок. Не введение, не контекст, не история вопроса. Ответ. LLM берёт первое предложение как ядро цитаты. Если оно содержит «Давайте разберёмся» или «В последнее время всё чаще» — chunk проигрывает.

Пример: заголовок «Сколько стоит разработка сайта на Astro». Первое предложение: «Разработка корпоративного сайта на Astro стоит от 300 000 руб. и занимает 4–8 недель». Не «Стоимость разработки сайта зависит от многих факторов».

2. Описательные H2/H3

Заголовок — полноценный вопрос или утверждение, совпадающее с поисковым запросом. «Как schema.org влияет на AI-цитирование» — хорошо. «Schema.org» — плохо (неинформативно). «Важная информация» — бесполезно.

3. Самодостаточные секции

Каждый H2-блок должен быть понятен без контекста остальной страницы. LLM извлекает chunk изолированно — если он начинается с «Как мы уже говорили выше» или ссылается на предыдущий раздел без пояснения, — цитата теряет смысл.

4. Абзацы с одной идеей

Один абзац — одна мысль. 2–4 предложения. Длинные абзацы с несколькими идеями LLM парсит хуже: при извлечении часть контекста теряется. Короткие абзацы с чёткими topic sentences — идеальный формат для извлечения.

5. Сравнительные таблицы

LLM отлично извлекает данные из таблиц. Сравнение двух-трёх вариантов в формате table — один из самых цитируемых форматов. Обязательно: реальный <table> с <thead> и <tbody>, а не CSS Grid.

6. Пронумерованные процессы

Списки <ol> с шагами процесса — второй по популярности формат цитирования после таблиц. «5 шагов GEO-оптимизации», «3 этапа аудита» — LLM извлекает весь список целиком или отдельные пункты.

7. Факто-насыщенные предложения

Предложения с конкретными цифрами, датами, именами — предпочтительные единицы для цитирования. «Исследование Princeton (KDD 2024) показало рост видимости до 40%» — факт, который LLM процитирует. «Видимость может значительно увеличиться» — нет.

8. Явное именование сущностей

Повторю: каждое предложение, которое может быть извлечено из контекста, должно содержать явное имя субъекта. «Astro поддерживает SSR и SSG», а не «Он поддерживает SSR и SSG». При извлечении местоимение теряет референт.

9. Чистый семантический HTML

Все предыдущие 8 паттернов работают только если HTML семантичен. div-обёртки с CSS-классами не дают LLM структуры. Реальные h2, ol, table, blockquote — дают.

Частые вопросы от разработчиков

Нужно ли переделывать все страницы сразу?

Нет. Начните с 5–10 самых важных страниц: главные услуги, ключевые гайды, страница «О компании». Замерьте результат через 4–8 недель. Затем масштабируйте на остальные страницы.

Работает ли это для SPA на React/Vue?

Только с SSR. Чистый CSR (Client-Side Rendering) невидим для LLM-краулеров. Если проект на React — используйте Next.js с SSR или SSG. На Vue — Nuxt. Или добавьте prerendering для ключевых страниц.

Как быть с динамическим контентом (цены, наличие)?

Критически важные данные (цены, характеристики, FAQ) должны быть в серверном HTML. Динамические элементы (корзина, онлайн-статус, персонализация) могут загружаться через JS — они не нужны для AI-цитирования.

Влияет ли CSS на AI-видимость?

Нет. LLM-краулеры не обрабатывают CSS. display: none скрывает контент от людей, но не от краулеров. Однако Google может наказать за hidden text — если скрытый контент отличается от видимого. Правило: schema.org и HTML должны описывать только видимый контент.

А что с AMP-страницами?

AMP использует семантический HTML по умолчанию. Если у вас AMP-версии страниц — они уже хорошо структурированы для LLM. Но AMP-проект в значительной степени свёрнут, и инвестировать в него не стоит. Лучше сосредоточиться на обычных HTML-страницах с SSR.

Чек-лист для разработчика

Семантический HTML

  1. Все заголовки — реальные h2/h3, не стилизованные div
  2. Все списки — ul/ol, не абзацы с символами буллетов
  3. Все таблицы — реальные table с thead/tbody, не CSS Grid
  4. Контент рендерится на сервере (SSR/SSG), не только через JS
  5. Каждый H2-блок самодостаточен — понятен без контекста страницы
  6. В ключевых предложениях — явные имена сущностей, не местоимения
  7. Первое предложение после H2 — topic sentence с главной мыслью
  8. Отключите CSS — структура всё ещё читаема

Schema.org (JSON-LD)

  1. Article + Person (автор) + BreadcrumbList — на каждой статье
  2. FAQPage — на страницах с FAQ-блоком
  3. HowTo — на туториалах с пошаговыми инструкциями
  4. Organization с sameAs — на странице компании
  5. datePublished и dateModified актуальны и совпадают с видимыми датами
  6. Автор в schema совпадает с автором на странице
  7. Валидация через Rich Results Test — без ошибок

Проверка

  1. Откройте страницу через curl или View Source — весь контент в HTML?
  2. Проверьте Rich Results Test — schema валидна?
  3. Отключите CSS — структура читаема?
  4. Возьмите любой H2-блок изолированно — он понятен без остальной страницы?

Свежесть контента: dateModified как сигнал доверия

AI-системы учитывают свежесть контента. Страница с dateModified: 2024-01-15 проиграет странице с dateModified: 2026-04-25 при прочих равных — AI предполагает, что свежий контент более точен.

Правила работы с датами:

  • Обновляйте dateModified при каждом существенном изменении контента. Исправление опечатки — не повод. Обновление цифр, добавление нового раздела, актуализация рекомендаций — повод
  • dateModified должен совпадать с видимой датой на странице. Если в schema.org стоит «обновлено 25 апреля 2026», а на странице дата не видна или стоит другая — AI фиксирует расхождение
  • Не обновляйте dateModified без реального обновления контента. AI-системы могут сравнивать кеш страницы. Если dateModified изменился, а контент — нет, это обман, и доверие падает
  • Добавляйте год в быстро устаревающие факты. «По состоянию на апрель 2026 года» рядом с цифрами и утверждениями, которые могут измениться. Это помогает и AI, и читателю оценить актуальность

В 1С-Битрикс dateModified можно генерировать автоматически из поля TIMESTAMP_X инфоблока — оно обновляется при каждом сохранении элемента.

Практический пример: до и после оптимизации

Разберём реальный пример — страница услуги «Разработка сайтов». Покажу, как семантический HTML и schema.org трансформируют страницу из «невидимой» для AI в «цитируемую».

До оптимизации

<div class="service-page">
  <div class="hero-title">Разработка сайтов</div>
  <div class="hero-text">Мы создаём современные сайты
    с индивидуальным подходом к каждому клиенту.
    Наша команда профессионалов поможет вам
    реализовать проект любой сложности.</div>
  <div class="features">
    <div class="feature">• Уникальный дизайн</div>
    <div class="feature">• Адаптивная вёрстка</div>
    <div class="feature">• SEO-оптимизация</div>
  </div>
</div>

Проблемы: div вместо h2, «мы команда профессионалов» вместо конкретики, буллеты как div-ы, нет цифр, нет FAQ.

После оптимизации

<h2>Сколько стоит разработка сайта на Astro</h2>
<p>Разработка корпоративного сайта на Astro
  занимает 4–8 недель и стоит от 300 000 руб.
  В стоимость входит: прототипирование в Figma,
  адаптивная вёрстка, интеграция с CMS,
  настройка Core Web Vitals до зелёной зоны
  (LCP &lt; 2.5s, CLS &lt; 0.1).</p>

<h3>Что входит в разработку</h3>
<ol>
  <li>Аудит бизнес-задач и аналитика (1 неделя)</li>
  <li>Прототипирование и дизайн в Figma (1–2 нед.)</li>
  <li>Вёрстка и интеграция с CMS (2–3 нед.)</li>
  <li>Тестирование и запуск (1 неделя)</li>
</ol>

Результат: H2 совпадает с поисковым запросом, первое предложение содержит цену и сроки, пронумерованные шаги в ol, конкретные метрики. Любой chunk этой страницы — готовый ответ для AI-поисковика.

Как измерить результат

После внедрения семантического HTML и schema.org измеряйте три уровня:

Rich results (1–4 недели). Google Search Console → отчёт Rich Results. Рост impressions и CTR для страниц с новой разметкой.

AI-цитирование (4–8 недель). Еженедельная проверка 10–20 целевых запросов в AI-поисковиках. Фиксация: цитируется ли сайт, какая страница, какой chunk. Инструмент Яндекса «Видимость в Алисе AI» покажет динамику Share of Voice.

Perplexity реагирует быстрее всех — она тянет контент из веба в реальном времени. ChatGPT обновляется медленнее — зависит от циклов обновления индекса Bing. Google AI Overview — зависит от классического поискового индекса.

По данным практиков, большинство сайтов видят измеримые изменения в AI-цитировании через 30–45 дней после структурных изменений в HTML и schema.org.

Пошаговый план внедрения: от аудита до результата

Неделя 1: аудит текущего состояния

Проверьте 5 самых важных страниц сайта по следующим критериям:

  1. Откройте исходный код (Ctrl+U). Весь контент в HTML? Или загружается через JavaScript?
  2. Найдите заголовки. Это реальные h2/h3 или стилизованные div-ы?
  3. Найдите списки. Это ul/ol или абзацы с символами буллетов?
  4. Есть ли таблицы? Реальные table или CSS Grid?
  5. Проверьте schema.org через Google Rich Results Test. Есть ли ошибки?
  6. Есть ли FAQPage schema на страницах с FAQ-блоками?
  7. Указан ли автор в schema.org? Совпадает ли с видимым автором на странице?
  8. Актуальна ли dateModified?

Зафиксируйте результат. Для каждой страницы составьте список задач.

Неделя 2: исправление HTML

Начните с технической основы — замена div-обёрток на семантические теги. Это самая простая часть, но с максимальным эффектом. В 1С-Битрикс шаблоны компонентов обычно уже используют семантический HTML. Проверьте шаблон вашей темы — возможно, проблема не в CMS, а в кастомном шаблоне.

Для каждой страницы:

  • Замените стилизованные заголовки на h2/h3
  • Замените текстовые буллеты на ul/ol
  • Замените CSS-сетки, используемые как таблицы, на реальные table
  • Добавьте figure/figcaption к ключевым изображениям
  • Перепишите первое предложение каждого H2-блока как прямой ответ на заголовок
  • Замените местоимения на явные имена сущностей в ключевых предложениях

Неделя 3: внедрение schema.org

Добавьте JSON-LD разметку. Приоритет:

  1. Organization — на все страницы (через шаблон сайта)
  2. Person — для авторов экспертного контента (через шаблон статей)
  3. Article — на все статьи и гайды (через шаблон)
  4. FAQPage — на страницы с FAQ (через компонент FAQ)
  5. BreadcrumbList — на все страницы (через навигационный компонент)

В 1С-Битрикс schema.org удобно генерировать через шаблон компонента — JSON-LD формируется на основе данных из инфоблока и выводится в head страницы. Не нужно прописывать разметку вручную в каждой статье.

Неделя 4: контентная оптимизация

После технической подготовки — работа с контентом:

  • Добавьте FAQ-блоки на страницы услуг (5–8 вопросов)
  • Перепишите лиды (первые абзацы) — они должны быть самодостаточными ответами
  • Добавьте сравнительные таблицы, где это уместно
  • Убедитесь, что каждый H2-блок самодостаточен
  • Добавьте цифры и ссылки на источники

Неделя 5–8: измерение результата

Через 4 недели после внедрения начните измерять:

  • Rich Results Test — все ли schema валидны?
  • Google Search Console — Rich Results Report, рост impressions
  • Яндекс Вебмастер — «Видимость в Алисе AI», динамика SoV
  • Ручная проверка 10–20 запросов в AI-поисковиках

По данным практиков, первые измеримые результаты в AI-цитировании появляются через 30–45 дней. Perplexity реагирует быстрее (real-time crawling), ChatGPT — медленнее (зависит от обновления индекса Bing), Google AI Overview — в рамках обычного цикла переиндексации.

Почему это работает: механика AI-поиска

Генеративный поисковик работает по архитектуре RAG (Retrieval-Augmented Generation): сначала поисковая система находит релевантные страницы (retrieval), затем LLM генерирует ответ на основе найденных источников (generation).

На этапе retrieval критичны классические SEO-факторы: релевантность, авторитетность, ссылочная масса. На этапе generation критичны факторы, которые мы обсуждаем в этом гайде: структура HTML, schema.org, самодостаточность chunks, конкретика контента.

Страница может пройти этап retrieval (попасть в топ-10 поиска), но не пройти этап generation (не быть процитированной). Это происходит, когда контент есть, но LLM не может его извлечь — потому что HTML неструктурирован, первые предложения — вода, таблицы — стилизованные div-ы.

Семантический HTML и schema.org решают именно этот gap: превращают страницу из «найденной, но непроцитированной» в «найденную и процитированную».

По данным исследования Princeton (KDD 2024), правильная структура повышает видимость в генеративных ответах до 40%. А для малых сайтов эффект ещё выше — до 115% для метода Cite Sources. Это делает семантический HTML и schema.org одной из самых доступных и эффективных стратегий AI-оптимизации: затраты на внедрение минимальны, а результат — измеримый рост цитирования в нейроответах.

Частые вопросы

Зачем нужен семантический HTML, если сайт хорошо выглядит?

LLM-краулеры не видят CSS. Для них div class="heading" — обычный контейнер с текстом. Только реальные h2, ul, table дают LLM понятную структуру для извлечения и цитирования.

Какие типы schema.org самые важные для AI-цитирования?

FAQPage (2,7x рост цитирования), Article с Person (автор), BreadcrumbList и HowTo для инструкций. Используйте JSON-LD — этот формат предпочитают все AI-системы.

Влияет ли schema.org на позиции в Google?

Прямо — нет (подтвердил John Mueller в 2025). Косвенно — да: rich snippets повышают CTR на 30%, а после мартовского обновления 2026 AI Mode использует schema для верификации фактов.

Что такое chunk в контексте AI-поиска?

Chunk — смысловой блок текста, который LLM извлекает как единицу. Обычно это текст между двумя заголовками H2. Каждый chunk оценивается независимо на релевантность запросу.

Как проверить, что мой HTML семантичен?

Отключите CSS на странице. Если заголовки выглядят как заголовки, списки как списки, таблицы как таблицы — HTML семантичен. Если всё сливается в стену текста — нужна переработка.

Через сколько времени видны результаты?

Rich results в Google — 1–4 недели. AI-цитирование — 4–8 недель. Perplexity реагирует быстрее всех, ChatGPT — медленнее из-за циклов обновления индекса.

Что читать дальше

Валентина Меланина

Хотите обсудить свой проект?

Помогу с разработкой, аналитикой и AI-видимостью вашего сайта

Если у вас есть задача — от внедрения разметки и аналитики до полной переработки сайта — напишите, обсудим объём и подход.