Как собрать широкое семантическое ядро поисковых запросов для сайта самостоятельно

Привлечение пациентов через сайт клиники примерно в 4 раза дешевле обычной рекламы.

Запрет о рекламе медицинских услуг повысил актуальность интернет-продвижения медицинских услуг. Ищите пациентов в интернете, не боясь попасть под законодательные запреты.

Широкое семантическое ядро (СЯ) — это максимально полный и структурированный список поисковых запросов, связанных с темой, продуктом или сайтом, который охватывает не только основные «целевые» ключи, но и смежные, информационные, коммерческие, низкочастотные и так называемые длиннохвостые запросы.

Проще говоря, это карта всего спроса в поиске по теме, на основе которой строится структура сайта, контент и продвижение (SEO-стратегия).

Для интернет-маркетолога хорошо собранное тематическое широкое ядро – это настоящая сокровищница, а мониторинг семантики на сайте всегда подскажет новые темы для контент-плана, а также поможет пониманию, что в проекте идет не так.

Как собирать данные: ручной и автоматический способы

Давайте сразу определимся, что есть 2 основных типа данных: ваши собственные данные (сайт, прайс-лист) и внешние данные (сервисы, конкуренты, поисковая выдача).

Для сбора внешних данных можно использовать ручной способ и автоматизированный. Третий тип, который появился недавно – это использование нейросетей, но в этом случае надо понимать, что данные будут сильно усреднены и не всегда корректны, поэтому в этой статье такой метод практически не затрагивается.

Сведения из Яндекс.Вордстат вручную собирать можно, но при больших семантических ядрах это критически долго и неудобно. А вот если вы будете «пробивать» поисковую выдачу вручную, то ваши действия не будут выглядеть естественно и, скорее всего, через какое-то время Яндекс заподозрит «недоброе», и начнет через каждый запрос проверять, не робот ли вы, с помощью капчи.

Автоматизированный сбор данных поисковой выдачи и подсказок требует применения автоматического программного интерфейса (АПИ), в оригинале application programming interface (API), что подразумевает программные инструменты для подключения к сервисам и получения данных.

У Яндекса прямо указано, что автоматические запросы к поиску иными способами, кроме предоставленного самим Яндексом, запрещены без предварительного одобрения. Поэтому для задач поисковой оптимизации (SEO): кластеризация по выдаче, анализа конкурентов в топе, лучше использовать Поисковый АПИ Яндекса (Yandex Search API), для которого есть официальные лимиты и параметры локализации/региона.

Получить разрешение Яндекса на использование АПИ (API) довольно просто: для этого нужно написать запрос в клиентский сервис client-service@yandex-team.ru. Учитывайте, что в общем случае лимиты использования сервиса — 10 запросов в секунду и 1000 запросов в сутки. Чтобы увеличить лимит, нужно обосновать причину в переписке с командой Яндекса.

Подготовка и шаблон таблицы семантического ядра

Зафиксируйте 2 важных ограничения, эта работа отнимет у вас буквально минуты, но сэкономит дни: Продукт/услуга и границы ассортимента (что НЕ продаём и НЕ делаем). География (в каком регионе интересно продвигаться).

Например, клиника стоматологии не оказывает услуги детям. Фиксируем, чтобы не набрать лишних запросов.

При оказании медицинских услуг стандартно в качестве географии выбирать ваш город, так как в большинстве услуг, оказываемых лично, вероятность поездки в другой регион довольно низкая (могут быть исключения, если услуга очень редкая). Сегментировать географию до района города в большинстве случаев нет смысла, но иметь это в виду и учитывать запросы, включающие название района и улиц – нужно, так как конверсия по ним будет выше.

Шаблон таблицы СЯ

В уже существующем проекте добавьте ещё: тип страницы, текущий URL (если уже есть).

Шаблон таблицы

Где брать данные: источники и инструменты для сбора семантического ядра

Собственный сайт компании или прайс (если сайта еще нет)

Если ваш сайт зарегистрирован в Яндекс.Вебмастере, вы можете посмотреть статистику запросов (позиции/показы/клики/кликабельность) и подключить АПИ (API) для мониторинга запросов.

Кабинет Яндекс.Вебмастер

Данные о поисковых запросах сайта расположены во вкладке «Эффективность» в панели Яндекс.Вебмастер.

Официальная статистика Яндекс.Вордстат

Для России оптимален Яндекс.Вордстат: позволяет увидеть статистику запросов с учетом словоформ, есть вкладка по динамике спроса и возможность уточнить статистику по региону.

Официальный АПИ Вордстат (Wordstat API): https://yandex.ru/support2/wordstat/ru/content/api-wordstat

Отчет Яндекс.Вордстат по запросам

Пример: фрагмент из отчета Яндекс.Вордстат по запросам, содержащим фразу «клиника косметологии» в локации Москва.

Сервисы для анализа семантики конкурентов

Для анализа конкурентов можно использовать следующие известные сервисы, но учитывайте, что при большом количестве запросов понадобится платная подписка.

Semrush API: Keyword Overview (phrase_this/phrase_all) возвращает volume, CPC, competition и др.; API работает по ключу и отдаёт CSV.
Serpstat API/SDK: позволяет выгружать ключи домена/URL и конкурентов (пример — domain_keywords, domain_urls, url_keywords).
Ahrefs: API v3 доступен на Enterprise; v2 полностью снят с поддержки (для новых интеграций нужен v3/Connect).

Кабинет Букварикс

Из бесплатных сервисов рекомендуем использовать Букварикс.

Подсказки и ассоциации

В идеале предпочтение отдаём официальным источникам: в экосистеме Яндекса для этого используется функция сервиса Яндекс.Вордстат «похожие запросы».

Отчет похожие Яндекс.Вордстат

Пример статистики Яндекс.Вордстат по «похожим запросам».

Другой путь — подсказки собираются методом парсинга (автоматического сбора) из поисковой выдачи. Собственно, поисковые подсказки — это предложения поисковой системы, которые мы видим в процессе ввода ключевой фразы, когда хотим что-то найти.

Пример подсказок в Яндексе

Пример поисковых подсказок в Яндексе.

Результаты будут отличаться, так как в каждом из этих методов используется разный принцип подбора близких ключевых слов. Второй метод требует использования сервисов с платной подпиской, таких как Semrush, Serpstat, PixelPlus.

Частые вопросы, отзывы, форумы, соцсети, комментарии — это источники формулировок «боли» и «вопросов».

Этапы сбора ключевых слов

Составление списка маркерных запросов

Чтобы вам было от чего отталкиваться, сначала нужно собрать минимальный набор базовых групп, лучше делать его таблицей из 20-200 ключей.

Например, если ваш бизнес — медицинская клиника и пока есть только прайс, вы можете взять названия услуг и процедур за основу. Однако наша практика показывает, что названия услуг в прайсе далеко не всегда соответствуют тому, как ищут эти услуги потенциальные пациенты. Чтобы разрешить эту проблему, вы можете использовать нейросети, которые отлично справляются с задачей «перевода» позиций прайса в маркерные запросы.

Например, для удобства выполнения этой задачи, мы разработали и применяем кастомный чат нейросети, специально заточенный под эту задачу. В обычном чате любой нейросети задача может звучать примерно так: «На основе прайс-листа клиники составь список частотных маркерных запросов. Используй только названия процедур и услуг из прайс-листа. Не включай: цены, даты, категории сложности, единицы измерения, акции, сопровождение. Запросы должны быть естественными, то есть звучать так, как люди ищут в поиске». Это приблизительная подсказка (промт), ответы могут отличаться по качеству и его надо будет корректировать в процессе работы.

Маркерные запросы должны быть высокочастотные (ВЧ), то есть быть очень популярными запросами среди пользователей. Частотность можно проверить вручную или автоматически в сервисе Яндекс.Вордстат.

Но нужно понимать, что Яндекс.Вордстат в объемах спроса по умолчанию показывает не частотность конкретного запроса, а частотность всех вложенных запросов (то есть включающих эту фразу). Чтобы уточнить реальный спрос на конкретный запрос, используйте операторы Вордстата для управления формами/словами: «!» фиксирует словоформу, - исключает слова, «+» фиксирует стоп-слова, кавычки фиксируют количество слов и т.п. Подробнее об операторах вы можете почитать здесь: https://yandex.ru/support2/wordstat/ru/content/operators

Чтобы расширить этот список, выписываем также тип услуги/товара, подтип, материал/характеристика, для кого. Например, тип услуги: пластическая хирургия, подтип: пластические операции на лице, материал/характеристика: грудные импланты Mentor.

Сбор вложенных запросов и подсказок Яндекс.Вордстат ручным методом и по АПИ (API)

Когда вы собрали маркерные запросы, дальше список расширяется с помощью всех тех запросов, которые содержат эти высокочастотные фразы, а также добавлением подсказок.

Если хотите собрать вручную, авторизуйтесь в Яндексе, откройте сервис https://wordstat.yandex.ru/ , задайте ваш регион, из которого вы готовы принимать пациентов (клиентов) и введите первый маркерный запрос из вашего списка

Пример результатов в Яндекс.Вордстат

Пример результатов в интерфейсе Яндекс.Вордстат

Яндекс вернет вам список всех вложенных запросов этого ключа вместе с данными о количестве запросов. Сначала вы копируете их все, так как фильтрацию лучше делать на более позднем этапе. Далее проделываете то же самое со всеми маркерными запросами. Когда вы закончили с этим, перейдите из вкладки «Популярные» в «Похожие» запросы и соберите списки запросов также оттуда (см. скрин). Для ускорения работы воспользуйтесь приложениями для Яндекс.Вордстат, сейчас есть разные варианты таких ассистентов.

Для автоматического парсинга метод /v1/topRequests возвращает: totalCount, список topRequests и associations (похожие запросы).

Шаблон рекурсивного расширения (2–3 итерации):

Возьмите маркерные запросы.
По каждому из них сделайте запрос topRequests + associations.
Очистите от дублей, отфильтруйте и сохраните источник = Wordstat topRequests/associations.
Выберите из результата новые базовые фразы (категории/интенты) и повторите.

Синонимы и связанные термины (LSI)

В поисковой оптимизации (SEO) под LSI обычно имеют в виду семантически связанные термины: характеристики, комплектующие, подвиды, проблемы, бренды, совместимость, или еще «как это называется на языке клиента». Проще говоря, это те слова, которые также встречаются в аналогичных текстах.

Чтобы их найти, поможет парсинг заголовков/страниц конкурентов: названия категорий, seo-параметров, заголовков H1/H2, хлебных крошек, частых вопросов.

Транслит и опечатки

Для русскоязычных проектов транслит иногда дает ощутимую долю спроса (особенно в брендах/моделях): транслит: «velosiped», «electrovelosiped».

Раскладка: «dtybkjgtl» (пример принципа — ошибка раскладки). Опечатки: удвоения, пропуски, замены соседних клавиш. Сейчас для seo практически неактуально, так как поисковые системы исправляют ошибки в запросе, но в отдельных случаях может быть использовано в контекстной рекламе.

Рекомендация: генерировать транслит/опечатки только для: брендов/моделей, артикулов, сложных терминов, названий технологий.

А затем — оставить только те, у которых есть реальная частотность в Яндекс.Вордстат.

Очистка и унификация собранного семядра

Унификация (морфология, нормализация, синонимы)

Русский язык требует нормализации, иначе вы получите мусорные дубли: «маммопластика/маммопластику», «покупки/покупка», «настройка/настройку».

Для начала удалите дубликаты: одинаковые фразы, варианты регистра, двойные пробелы, “ё/е”, пунктуация. Морфологические дубли: «ботокс цена/цена ботокса» — решается леммой + порядком слов, но храните исходник как отдельную строку.

Для морфологической нормализации можно использовать следующие сервисы:

Pymorphy2 (MorphAnalyzer) для морфологического анализа слов.
Natasha — набор инструментов для русского NLP, включает токенизацию, морфологию и лемматизацию.
MyStem (Яндекс) — морфологический анализатор русского текста.

Практическая схема: лемматизация запроса → каноническая форма для удаления дубликатов (но исходную фразу сохраняем) → кластеризация делается по исходным фразам, а не по леммам.

Теперь настало время избавиться от всего лишнего, что случайно попало в списки, но не подходит для продвижения вашего бизнеса.

Очистка ядра от неподходящих запросов

Исключите все, что вам не подходит по смыслу. Помните, вначале мы определялись с теми услугами-исключениями, которые вы не поддерживаете? Это также учитываем на этом этапе.

Для коммерческих тематик также обычно не подходят типичные стоп‑темы и «минус‑намерения»: «бесплатно», «скачать», «своими руками» (если не ваш профиль сайта), «фото/картинки» (если не медиа‑сайт).

Яндекс.Вордстат умеет исключать слова оператором «-», но на этапе сбора ключевых слов вручную довольно сложно учесть их все, поэтому лучше перепроверить все исключения, когда ядро уже собрано.

Группировка (кластеризация) запросов

Когда ядро собрано и очищено от всего лишнего, его нужно систематизировать и разнести на группы (кластеризовать). Для начала разбиваем на большие группы: типы. Затем, чтобы избежать каннибализации (конкуренции разных страниц по одному запросу), нужно будет сформировать более мелкие кластеры, каждому из которых будет соответствовать одна посадочная страница. Специалисты называют этот этап маппингом.

Алгоритм группировки поисковых запросов по намерению

Рабочая схема:

Определите «тип страницы»: категория/листинг (товары/услуги), карточка (модель), статья/гайд, FAQ, сервисная страница, бренд‑страница.

Коммерческое намерение: купить/цена/заказать/доставка/в наличии/рассрочка.
Информационное намерение с близостью к покупке: рейтинг/топ/сравнение/лучший/отзывы.
Информационное намерение: как/почему/что такое/инструкция/размер/ошибка.
Брендовые запросы: бренд/сайт/официальный (если релевантно).

Вы наверняка уже знаете, что есть коммерческие запросы и информационные. От этой классификации зависит, на какую страницу вы будете распределять выбранный запрос.

Коммерческие модификаторы для услуг: сделать, записаться, запись, клиника, цена. Модификаторы коммерции для товаров: купить, цена, заказать, доставка, гарантия, официальный, магазин. Информационные модификаторы: как выбрать, сравнение, отзывы, рейтинг, инструкция, размеры, ошибки. Сервис/после/продажа: ремонт, настройка, обслуживание, запчасти, замена, уход.

Но выдача поисковых систем не бинарна, и реальный показатель сильно варьируется, поэтому вместо бинарного «коммерческий/информационный» лучше использовать чуть более сложную градацию 0–3:

0 — чисто инфо («как выбрать…», «почему…»);

1 — инфо с близостью к покупке («сравнение», «лучшие», «рейтинг», «отзывы»);

2 — коммерческий («записаться», «запись», «магазин», «доставка»);

3 — транзакционный/горячий («сделать + название процедуры», «сделать + название района», «цена», «в рассрочку»).

Прокси‑сигналы: наличие коммерческих модификаторов; CPC (цена клика)>0; высокая доля коммерческих страниц в топе; наличие блоков «товары», «карты» или «маркет» в SERP (поисковой выдаче).

Перепроверьте намерение по результатам поисковой выдачи, это очень желательно сделать для спорных кластеров. Например, если в топе по запросу доминируют листинги (страницы со списком услуг) — это категория. Если доминируют гайды — это инфо‑страница.

Если выдача в поиске смешанная, часто нужно сразу 2 страницы: коммерческая (категория) и инфо‑гайд (помогающий выбрать). Такая ситуация довольно часто встречается с запросами, включающими названия медицинских услуг.

Детальная группировка постранично (маппинг)

Теперь, когда вы распределили запросы по намерению, внутри каждого из этих типов намерений запросы нужно также сгруппировать. Как? Можно просто по смыслу – например, «пластика век» и «блефаропластика» — это, по сути, одно и то же, поэтому логично объединить их в один кластер. Однако, такая группировка очень приблизительна и не всегда отражает то, как поисковая система реально будет ранжировать такие запросы.

Поэтому лучше использовать кластеризацию на основе выдачи (ответов) поисковых систем: смотрим, насколько пересекается поисковая выдача по запросам.

Существуют уже готовые сервисы, которые сделают эту работу за вас, так как вручную провести подобную проверку на все ядро – нереально.

Для автоматизации такой кластеризации используйте похожесть выдачи: для каждого ключа возьмите топ‑N URL → посчитайте пересечение между ключами → объедините при схожести выше заданного порога. Чем выше задан порог, тем больше должно быть найдено пересечений для объединения в 1 кластер.

Автоматический метод с помощью Поискового АПИ Яндекса (Yandex Search API)

Поисковый АПИ Яндекса — официальный сервис в Яндекс облаке (Yandex Cloud) для получения выдачи в формате XML/HTML. Сервис поддерживает синхронный и отложенный режимы, REST/gRPC, требует роль search-api.webSearch.user и настроенную аутентификацию.

Стандартные лимиты: синхронно до 10 запросов в секунду и 10 000 — в час. Есть отдельные лимиты на статистику, регионы и т.д.

Параметры запроса включают searchType (ru/com/kk и т.д.), queryText, region, l10n, responseFormat и настройки группировки.

Интеграция широкого семантического ядра в контент-план и ТЗ копирайтерам

Разложите ядро на 5 степеней приоритета работ:

Структура каталога услуг (продуктов): категории, подкатегории, сервисные страницы.
Продающие страницы услуг (продуктов) и акций.
Информационные статьи в поддержку каталога услуг: проблемы, сравнения, рейтинги, куда входят запросы по типу «как выбрать», «какой лучше».
Инструкции/FAQ (съём хвоста): уход, настройка, размеры, ошибки, совместимость, гарантия.
Поддержка после покупки/оказания услуги: обслуживание, реабилитация, повторные осмотры и т.п.

Шаблон ТЗ на статью/страницу:

Цель страницы и намерение (интент).
Основной ключевой запрос (1-2) + дополнительные запросы (до 5-15). План/структура (H2/H3), обязательные блоки (таблица, FAQ, шаги, чек‑лист, сравнение).
Список сущностей (термины/характеристики), которые должны встретиться.
Требования к сниппету: Title, Description, микроразметка при необходимости.
Внутренняя перелинковка: 5–10 ссылок (куда и с какими анкорами).
Запрещённые смыслы и минус‑темы (чтобы избежать нерелевантного трафика).

Проверка каноникализации (указания на канонический, то есть исходный адрес) и дублей:

Google: rel="canonical" указывает предпочтительный URL для дублей.

Яндекс: канонический адрес помогает объединять версии, а для параметров могут использоваться директивы (например, Clean-param в robots.txt для GET‑параметров).

Оценка времени и трудозатрат по этапам

Оценка зависит от размера сайта и глубины ядра, но как ориентир для широкого ядра, маппинга и контент-плана можно использовать следующие значения:

Этап	Малый сайт до ~200 URL	Средний сайт 200–2000 URL	Комментарий
Подготовка, цели, маркеры	2–6 ч	6–12 ч	Чем сложнее ассортимент — тем дольше
Первичные данные: Поисковая консоль Google, Вебмастер	2–6 ч	6–16 ч	API ускоряет работу, но нужна настройка доступов
Яндекс.Вордстат, Планировщик ключевых слов Google	4–12 ч	12–30 ч	Зависит от итераций расширения
Конкуренты: Semrush, Serpstat, Ahrefs	4–10 ч	10–25 ч	Зависит от числа конкурентов и API-лимитов
Очистка и нормализация	4–12 ч	12–30 ч	Большая часть работы над качеством ядра
Кластеризация и намерение	6–16 ч	16–50 ч	Группировка по топу поисковых систем
Маппинг на страницы URL и приоритеты	6–16 ч	16–40 ч	Превращаем семантическое ядро в план работ
Контент-план и ТЗ	6–20 ч	20–80 ч	Зависит от числа кластеров и глубины ТЗ

Таким образом, мы разобрали, что широкое семантическое ядро нужно не только ради охвата максимального числа запросов, но главным образом для создания точной структуры сайта.

Поэтому работа начинается с фиксации ассортимента и региона, иначе в ядро сразу попадает бесполезный спрос. В процессе работы важен как этап сбора, так и этап обработки: удаление дублей и минус-намерений, нормализация, разделение по интенту и проверка кластеров по реальной выдаче.

Именно на этом этапе становится понятно, какой запрос должен вести на категорию, какой — на услугу, какой — на статью, а какой вообще не нужен.

В итоге мы получаем широкое семантическое ядро как основу для производственного плана поисковой оптимизации — с привязкой кластеров к странице URL, очередностью запуска страниц, контент-планом и ТЗ.

При этом самая трудоемкая и дорогая часть этой работы лежит не в области парсинга, а в действиях по грамотной очистке, кластеризации и сортировке.

Сбор широкого семантического ядра для сайта на русском: практический гайд для продвинутого маркетолога