�ݺ�ߣ

КЛАСТЕРИЗАЦИИ ПОИСКОВЫХ ЗАПРОСОВ В IPYTHONКЛАСТЕРИЗАЦИИ ПОИСКОВЫХ ЗАПРОСОВ В IPYTHON
КЛАСТЕРИЗАЦИИ
ПОИСКОВЫХ ЗАПРОСО
В IPYTHON
2016
Михаил Жуковец
SEO Price.ru

НАЗВАНИЕ ПРЕЗЕНТАЦИИКЛАСТЕРИЗАЦИИ ПОИСКОВЫХ ЗАПРОСОВ В
IPYTHON
КЛАСТЕРИЗАЦИИ ПОИСКОВЫХ ЗАПРОСОВ В IPYTHON
Задачи кластеризации
- чистка семантики
- выделение типовых групп запросов
- подбор структуры для сайта
- разбивка ключевых слов по страницам
Кластериза́ция докуме́нтов — одна из задач информационного поиска. Целью кластеризации документов является автоматическое выявление групп
семантически похожих документов среди заданного фиксированного множества документов. Следует отметить, что группы формируются только на
основе попарной схожести описаний документов, и никакие характеристики этих групп не задаются заранее, в отличие от классификации
документов, где категории задаются заранее.
wikipedia.org

IPYTHON
Практическая реализация в IPython
- Векторное представление ключевых слов
- Кластеризация по составу фраз при помощи K-Means
- Кластеризация по SERP при помощи иерархической кластеризации

IPYTHON
Векторное представление
ключевых слов
- CountVectorizer
- Лемматизация
- TfidfVectorizer

IPYTHON
CountVectorizer
sklearn.feature_extraction.text.CountVectorizer
Подготовка ключевых слов
перед кластеризацией
заключается в разбиении
текстов на слова и их
кодировании. Для выполнения
этой процедуры удобно
использовать готовые классы из
библиотеки scikit-learn.
Настройка объектов
CountVectorizer позволяет
производить первичную
фильтрацию признаков.

IPYTHON
CountVectorizer

IPYTHON
Лемматизация
Использование лемматизации позволяет объединить слова с одинаковым смыслом и различным написанием

IPYTHON
Лемматизация входных ключевых слов основной этап препроцессинга,
который в дальнейшем значительно повышает качество кластеризации

IPYTHON

IPYTHON
TF-IDF Vectorizer
Tf-Idf преобразование позволяет учитывать не только наличие слова, но и его значимость

IPYTHON
TF-IDF Vectorizer
Чтобы избежать в дальнейшем путаницы с ключевыми словами, лучше убрать лемматизатор
внутрь векторизатора путем переопределения функции класса

IPYTHON
TF-IDF Vectorizer - настройка
- stop-words – список слов, которые не будут учитываться при векторизации
- token_pattern – регулярное выражение, по которому строка разбивается на
токены. Обычно это просто разделение на слова, но могут быть выделены и
другие сущности
- max_df – токены имеющие частотность выше этого значения не будут
учитываться.
- min_df – токены имеющие частотность ниже этого значения не будут учитываться
Ознакомиться с остальными параметрами можно по ссылке
http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html

IPYTHON
K-Means clustering
Алгоритм разбивает множество элементов
векторного пространства на заранее
известное число кластеров. Алгоритм
стремится уменьшить расстояние от слов к
центрам кластеров в векторном пространстве.

IPYTHON
K-Means clustering - подготовка
- импортируем
зависимости
- загружаем нашу
семантику
- производим
предварительную
обработку данных

IPYTHON
K-Means clustering
– настройка объекта
Основные параметры для настройки
- n_clusters – количество кластеров, на которые будут делиться данные
- max_iter – максимальное количество итераций. Работа будет принудительно остановлена при
достижении этого числа.
- n_init – сколько раз будет инициализироваться алгоритм с различными начальными
центроидами
- tol - доверительный предел, при достижении которого кластеризация будет остановлена
- n_jobs – количество параллельных потоков работы алгоритма
- random_state – параметр позволяющий добиться воспроизводимости одних и тех же
результатов при разных запусках алгоритма
Ознакомиться с остальными параметрами можно по ссылке
http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html

IPYTHON
K-Means clustering - кластеризация
Важным ограничением такого
метода кластеризации
является необходимость
самостоятельно указывать
количество кластеров, на
которые будет производиться
разбиение. В качестве основы
количество кластеров было
взято за 20% от количества
ключевых слов.

IPYTHON
K-Means clustering - результаты

IPYTHON
Hierarchical clustering
Иерархические алгоритмы
строят не одно разбиение
выборки на непересекающиеся
кластеры, а систему вложенных
разбиений. На выходе мы
получаем дерево кластеров,
корнем которого является вся
выборка, а листьями – наиболее
мелкие кластера.

IPYTHON
Hierarchical clustering - подготовка
Для каждого ключевого
слова нужно собрать
текущие URL из топ-10. В
качестве поисковой
системы был выбран
Яндекс, т.к. с ним удобно
работать через XML.
После сбора данных они
были преобразованы в
матрицу признаков для
каждого ключевого
слова

IPYTHON
– настройка
scipy.cluster.hierarchy.linkage
- method = {single, complete, average, weighted, centroid,
median, ward} – различные алгоритмы построения дерева
- metric – метод расчета расстояния между объектами.
Всего их доступно в данной реализации 23 и подробнее
они описаны тут
http://docs.scipy.org/doc/scipy-
0.14.0/reference/generated/scipy.spatial.distance.pdist.html
scipy.cluster.hierarchy.fcluster
- criterion = {inconsistent, distance, maxclust,
monocrit, maxclust_monocrit} – критерий
используемый для формирования
кластеров.
Ознакомиться с остальными настройками и функциями можно по ссылке
http://docs.scipy.org/doc/scipy/reference/cluster.hierarchy.html#module-scipy.cluster.hierarchy

IPYTHON
- кластеризация

IPYTHON
Hierarchical clustering - результаты

IPYTHON
- визуализация

IPYTHON
Практика применения
Для 130 000 запросов новостного сайта была применен алгоритм K-Means с разбивкой на 20 кластеров для
выявления тематик, которые больше всего интересовали аудиторию
query
Cluster
Class
кто победил на евровидении 2016 первое место 19
кто победил на евровидении 2016 19
кто победил на евровидении в 2016 году 19
первое место на евровидении 2016 19
2 место на евровидении 2016 г 19
баллы на евровидении 2016 19
места на евровидении 2016 19
какие места на евровидении 2016 год 19
джастин тимберлейк на евровидении 2016 19
query
Cluster
Class
стрельба на хованском кладбище 17
перестрелка на хованском кладбище 17
стрельба на хованском кладбище 14 мая 17
стрельба на хованском 17
перестрелка на хованском кладбище видео 17
события на хованском кладбище 17
стрельба на хованском кладбище видео 17
стрельба на кладбище 17
события на хованском кладбище сегодня 17
Евровидение Хованское кладбище ЧМ 2016
query
Cluster
Class
как сыграла сборная россии по хоккею 4
состав сборной россии по хоккею на чм
2016 в москве 4
как сыграла сборная россии по хоккею
сегодня 4
состав сборной россии по хоккею на матч
с швейцарией 4
чм по хоккею 2016 дания чехия 4
фан зона чемпионат мира по хоккею 2016
парк горького 4
сборная россии по хоккею 4

IPYTHON
Спасибо!
Михаил Жуковец
SEO Price.ru

�ݺ�ߣ

Кластеризации поисковых запросов в Ipython

More Related Content

Кластеризации поисковых запросов в Ipython