Чистка семантического ядра для информационного сайта

Чистка семантического ядра для информационного сайта

Мы спарсили запросы и у нас получился список различных слов. В нем конечно же присутствуют нужные слова, а так же и мусорные – пустые, не тематические, не актуальные и т.д. Поэтому их надо почистить.

Ненужные слова я не удаляю, а перемещаю их в группы, потому что:

  1. Они в дальнейшем могут стать пищей для размышления и приобрести актуальность.
  2.  Исключаем вероятность случайного удаления слов.
  3.  При парсинге или добавление новых фраз, они не будут добавляться, если поставить галочку.

Галочка не добавлять фразы

Я иногда забывал её ставить, поэтому в предыдущей статье расписывал, что настраиваю парсинг в одной группе и парсю ключи только в ней, чтобы сбор не дублировался:

keycollector не добавлять удаленный фразы

Вы можете работать так или так, кому как удобно.

Сбор частотностей

Собираем у всех слов через direct, базовую частотность [W] и точную [“!W”]. Не забываем выставить регион – Россия, если делаете сайт под российскую аудиторию.

Парсинг директа

Все что не собралось, дособираем через wordstat.

Парсинг вордстата

Чистка однословников и не формат

Фильтруем по однословникам, смотрим их и убираем не нужные. Есть такие однословники по которым нет смысла продвигаться, они не однозначные или дублируют другой однословный запрос.

KeyCollector фильтр по однословникам

Например, у нас тематика — болезни сердца. По слову “сердце” нет смысла продвигаться, не понятно, что человек имеет ввиду — это слишком широкий и неоднозначный запрос.

Так же смотрим, по каким словам не собралась частотность – это либо в словах содержатся спец символы, либо слов в запросе более 7. Переносим их в неформат. Малая вероятность что такие запросы вводят люди.

Чистка по общей и точной частотности

Все слова с общей частотностью [W] от 0 до 1 убираем.

Так же убираю и все от 0 до 1 по точной частотностью [”!W”].

Разношу их по разным группам.

Группы общая и точная частотность

В дальнейшем в этих словах можно найти нормальные логические ключевые слова. Если ядро маленькое, то можно сразу вручную все слова с нулевой частотностью пересмотреть и оставить, которые как вам кажется вводят люди. Это поможет охватить тематику полностью и возможно, по таким словам будут переходить люди. Но естественно эти слова надо использовать в последнюю очередь, потому что по ним большого трафика точно не будет.

Значение от 0 до 1 тоже берется исходя от тематики, если ключевых слов много, то можно фильтровать и от 0 до 10. То есть все зависит от широты вашей тематики и ваших предпочтений.

Чистка по полноте охвата

Теория здесь такова: например, есть слово – “форум”, его базовая частотность составляет 8 136 416, а точная частотность 24 377, как видим отличие более чем в 300 раз. Поэтому можно предположить, что данный запрос пустой, он включает очень много хвостов.

Поэтому, по всем словам, я рассчитываю, такое KEI:

Точная частотность / Базовая частотность * 100% = полнота охвата

Чем меньше процент, тем больше вероятность что слово пустое.

В KeyCollector эта формула выглядит вот так:

YandexWordstatQuotePointFreq  /  (YandexWordstatBaseFreq+0.01)  * 100

Здесь тоже все зависит от тематики и количества фраз в ядре, поэтому можно убирать полноту охвата меньше 5%. А где ядро большое то можно не брать и 10-30%.

Чистка по неявным дублям

Чтобы почистить неявные дубли, нам необходимо по ним собрать частотность Adwords и ориентироваться по ней, потому что она учитывает порядок слов. Экономим ресурсы, поэтому будем собирать этот показатель не у всего ядра, а только у дублей.

Отмечаем неявные дубли

Таким способом мы нашли и отметили все не явные дубли. Закрываем вкладку — Анализ неявных дублей. Они у нас отметились в рабочей группе. Теперь отобразим только их, потому что съем параметров происходит только тех фраз, которые у нас показаны в группе на данный момент. И только потом запускаем парсинг.

Парсинг Adwords по дублям

Ждем, когда Adwords снимет показатели и заходим в анализ неявных дублей.

Удаление неявных дублей

Выставляем вот такие параметры умной групповой отметки и нажимаем – выполнить умную проверку. Таким способом у нас в группе дублей не отметятся только самые высокочастотные запросы по Adwords.

Все дубли лучше конечно еще пробежаться и глянуть вручную, вдруг там что-то выставилось не так. Особенно уделить внимание группам, где нет показателей частотности, там дубли отмечаются случайно.

Все что вы отмечаете в анализе неявных группах, это проставляется и в рабочей группе. Так что после завершения анализа, просто закрываете вкладку и переносите все отмеченные неявные дубли в соответствующую папку.

Чистка по стоп словам

Стоп слова я тоже делю на группы. Отдельно заношу города. Они могут пригодится в дальнейшем, если мы надумаем делать каталог организаций.

Отдельно заношу слова содержащие в себе слова фото, видео. Вдруг они когда-нибудь пригодятся.

А так же, “витальные запросы”, например википедия, отношу сюда и форум, а так же в мед теме сюда могут относится – малышева, комаров и т.д.

Все так же зависит от тематики. Можно еще делать отдельно и коммерческие запросы – цена, купить, магазин.

Фильтрация по стоп словам

Получается вот такой список групп по стоп словам:

Группы стоп слов

Чистка накрученных слов

Это касается конкурентных тематик, их частенько накручивают конкуренты, чтобы ввести вас в заблуждение. Поэтому необходимо собрать сезонность и отсеять все слова с медианой равной 0.

А так же, можно глянуть соотношение базовой частотности к средней, большая разница может тоже указывать на накрутку запроса.

Но надо понимать, что эти показатели могут говорить и о том, что это новые слова по которым только недавно появилась статистика или они просто сезонные.

Фильтрация по сезонности

Чистка по гео

Обычно проверка по гео для информационных сайтов не требуется, но на всякий случай распишу этот момент.

Если есть сомнения, что часть запросов геозависимые, то лучше это проверить через сбор Rookee, он хоть бывает и ошибается, но намного реже чем проверка этого параметра по Яндексу. Потом после сбора Rookee стоит проверить все слова вручную, которые указались как геозависимые.

Проверка гео по Rookee

Ручная чистка

Теперь наше ядро стало в несколько раз меньше. Пересматриваем его в ручную и убираем ненужные фразы.

На выходе получаем вот такие группы нашего ядра:

Готовые группы по семантике

Желтый — стоит покапаться, можно найти слова на будущее.

Оранжевый — могут пригодится, если будем расширять сайт новыми сервисами.

Красный — не пригодятся.

seoonly.ru
31.05.2016 в 23:33

Убил постом бизнес семантистов))

Ответить
Majornet
01.06.2016 в 07:59

Не, семантика выжигает глаза и занимает много времени, что не всем самостоятельно ее охота собирать. А так все это есть в хелпе кейколлектора :) только я немного структурировал

Ответить
kudros
03.06.2016 в 15:20

Первый раз зашел. Полезная статья. Респект! Только что собрал и разгруппировал ядро для очередного сайта. Многое упустил, след. раз обязательно применю.

Ответить
Алексей
05.09.2016 в 13:34

Привет. Спасибо за статью и респект) Очень доступно пишешь. Интересно, что твой метод сбора семантики более структурированный и логичный, на мой взгляд, чем платные курсы Пузата, к примеру.
Годный блог) Пиши еще!

Ответить
Majornet
05.09.2016 в 17:59

Спасибо бро, это приятно :)

Ответить
Алексей
07.09.2016 в 05:05

Единственное, что не совсем понятно — зачем ты выставляешь регион Россия? Почему не СНГ? Или вообще регион не указывать. Русскоговорящая аудитория есть и в других странах.

Ответить
Majornet
07.09.2016 в 06:46

Регион обязательно надо указывать, потому что яндекс вводил какие-то ограничение если регион не указываешь. Можно и СНГ вставлять не особо критично или Россию. Я просто исхожу из того, что если показы есть в России, то они и есть в других странах.

Ответить
Алексей
07.09.2016 в 18:53

С ограничениями пока не столкнулся, но смысл понятен. Просто нижний порог частоты «!» можно сделать чуть меньше в таком случае, и все. Верно?
Собственно, видимо, поэтому ты все, что выше 1, берешь в СЯ?

Ответить
Majornet
07.09.2016 в 19:28

Беру я все ключи на будущее, чтобы потом не дополнять ядро когда ключи все кончаться частотные и всю тематику охватить, даже если статьи не будут давать трафик или 1-2 посетителя в месяц, все равно ты статьями охватываешь всю тематику ниши и за это получаешь бонус. Конечно все от ниши зависит, если у тебя миллион запросов, то и нет смысла брать маленькие, потому что ты этот миллион за 10 лет не освоишь :)

Ответить
Алексей
07.09.2016 в 19:38

Ясно)

Ответить
Андрей
26.10.2016 в 01:32

А если структуру сайта себе представляешь и уже определил (или у клиента на сайте она уже есть). Есть ли плюсы в том, чтобы парсить запросы и составлять семантику уже исходя из этой структуры. Т.е. по отдельности для каждого раздела сайта. Или лучше все-таки всю тематику одновременно парсить и собирать в одно ядро? Или не имеет значения?

Ответить
Majornet majornet.ru
26.10.2016 в 08:45

Если хочешь охватить все ядро, то лучше парсить всю тематику. Возможно что у клиента не все есть разделы или какие то могут писаться иначе. Можно конечно и так напарсить, но если прям заморочиться, то лучше именно всю тематику. Потому что как ты охватишь ядро, будет зависеть и продвижение, чем ядро полнее охвачено, тем лучше продвигаются остальные запросы, особенно ВЧ.

Ответить
Виталий vernigora.com
12.03.2017 в 08:06

Для новичков статья — просто находка.
Вот если бы раньше мне такие попадались.

Ответить
Оставить комментарий


Следи за нами в FaceBook.
Все новые статьи и много уникального!
Пример текста
Спасибо, не показывайте мне эту штуку больше!
Друг, не уходи!
Тестирую
Хочешь нежности? Подписывайся!