Сегментация рынка с помощью метода кластерного анализа
Сегментация рынка является одним из ключевых вопросов маркетинговой деятельности и предполагает разделение рынка на группы потребителей (рыночные сегменты), потребности которых существенно различаются. Необходимость сегментации обусловлена стремлением менеджмента к более полному удовлетворению запросов потенциальных потребителей и, в конечном итоге, увеличению объема продаж и прибыли.
Сегментации позволяет организации, учитывая свои сильные и слабые стороны выбрать методы и инструменты маркетинга, которые обеспечат концентрацию ресурсов именно в тех сферах деятельности, где имеются наибольшие конкурентные преимущества. При выделении сегментов аналитику приходится иметь дело с множеством факторов, потому наиболее уместными являются методы многомерного статистического анализа, в частности кластерный анализ.
Кластерный анализ представляет собой процедуру разбиения генеральной совокупности данных на подмножества, результатом которой является формирование относительно однородных групп объектов.
Кластер – это множество объектов близких между собой по некоторой мере сходства. В пространстве он представляет собой множество точек (объектов) различной формы. Пример совокупности данных до и после кластеризации представлен на рисунке 2.37
х
y
z
х
y
z
Рисунок 2.37 – Совокупность данных до и после кластеризации
Форма кластеров может быть различной, например, шарообразная, эллипсоидная, треугольная и т.п.
х
y
z
х
y
z
х
y
z
Рисунок 2.38 - Формы кластеров
Кластер имеет следующие математические характеристики: центр, радиус, среднеквадратическое отклонение, размер кластера.
Радиус кластера - максимальное расстояние точек от центра кластера.
Размер кластера может быть определен либо по радиусу кластера, либо по среднеквадратичному отклонению объектов для этого кластера.
Центр кластера - это среднее геометрическое место точек в пространстве переменных.
Объект относится к кластеру, если расстояние от объекта до центра кластера меньше радиуса кластера. Если это условие выполняется для двух и более кластеров, объект является спорным. Неоднозначность данной задачи может быть устранена экспертом или аналитиком.
В целом иерархические методы кластеризации делятся на две группы:
агломеративные (от слова agglomerate - скопление),
итеративные дивизивные (от слова division – деление).
Агломеративные методы кластеризации характеризуется последовательным объединением исходных элементов и соответствующим уменьшением числа кластеров. Т.е. в начале работы алгоритма все объекты выступают отдельными кластерами., далее на первом шаге наиболее схожие объекты объединяются в отдельный кластер. На последующих шагах объединение продолжается до тех пор, пока все объекты не будут составлять один кластер. Процесс такого последовательного объединения можно показать в виде дендрограммы или дерева объединения (см. рис.2.39)
Рисунок 2.39 – Дерево объединения (дендрограмма) стран в кластеры по уровню развития инфокоммуникацийДивизивные методы являются логической противоположностью агломеративного подхода. В начале работы алгоритма все объекты принадлежат одному кластеру, который на последующих шагах делится на меньшие кластеры, в результате образуется последовательность расщепляющих групп. Принцип формирования кластеров на основе рассмотренных подходов представлен на рис.2.40
шаг 0
шаг 1
шаг 2
шаг 3
шаг 4
шаг 4
шаг 3
шаг 2
шаг 1
шаг 0
а
b
c
d
e
ab
de
cde
abcde
Дивизивные методы кластеризации
Агломеративные методы кластеризации
Рисунок 2.40 - Дендрограмма агломеративных и дивизивных методов кластеризации
Дендрограмма - это древовидная диаграмма, содержащая n уровней, каждый из которых соответствует одному из шагов процесса последовательного укрупнения кластеров.
Ключевым моментом в кластерном анализе считается выбор метрики или меры cходства объектов. Наиболее часто в качестве меры сходства объектов используется
Евклидово расстояние. Для двумерной диаграммы на плоскости эту меру можно выразить в виде:
, (2.13)
где
- координаты точек.
Для многомерной ситуации количество пар координат увеличивается.
, (2.14)
х
y
z
х
1х
2y
1y
2z
1z
2O
1(x
1,y
1,z
1)
O
2(x
2,y
2,z
2)
r(O
1,O
2)
Рисунок 2.41 - Расстояние между двумя точками в трехмерном пространстве
Для придания больших весов более отдаленным друг от друга объектам в качестве меры сходства может быть использован квадрат евклидова расстояния.
В качестве меры сходства также может быть использовано
Манхэттенское расстояние (расстояние городских кварталов). Это расстояние рассчитывается как среднее разностей по координатам. В большинстве случаев эта мера расстояния приводит к результатам, подобным расчетам Евклида расстояния. Однако, для этой меры влияние отдельных выбросов меньше, чем при использовании Евклидова расстояния, поскольку здесь координаты не возводятся в квадрат.
Расстояние Чебышева целесообразно использовать, когда необходимо определить два объекта как "различные", если они отличаются по какому-то одному измерению.
Наряду с выбором меры сходства необходимо определить правила объединения или связи для двух кластеров. Альтернативные варианты методов объединения представлены в таблице.
Таблица 2.11 – Методы объединения объектов в кластеры
Наименование метода объединения
| Краткая характеристика
|
1
| 2
|
Метод ближнего соседа (одиночной связи)
| Расстояние между двумя кластерами определяется расстоянием между двумя наиболее близкими объектами (ближайшими соседями) в различных кластерах.
|
Метод дальнего соседа (полной связи)
| Расстояние между кластерами определяются наибольшим расстоянием между любыми двумя объектами в различных кластерах (т.е. "наиболее удаленными соседями").
|
Метод Варда
(Ward's method)
| В качестве расстояния между кластерами берется прирост суммы квадратов расстояний объектов до центров кластеров, получаемый в результате их объединения. В отличие от других методов кластерного анализа для оценки расстояний между кластерами, здесь используются методы дисперсионного анализа. На каждом шаге алгоритма объединяются такие два кластера, которые приводят к минимальному увеличению целевой функции, т.е. внутригрупповой суммы квадратов.
|
Метод невзвешенного попарного среднего
| В качестве расстояния между двумя кластерами берется среднее расстояние между всеми парами объектов в них.
|
Метод взвешенного попарного среднего (unweighted pair-group method using arithmetic averages)
| Этот метод похож на метод невзвешенного попарного среднего, разница состоит лишь в том, что здесь в качестве весового коэффициента используется размер кластера (число объектов, содержащихся в кластере).
|
Невзвешенный центроидный метод (unweighted pair-group method using the centroid average)
| В качестве расстояния между двумя кластерами в этом методе берется расстояние между их центрами тяжести.
|
Взвешенный центроидный метод (weighted pair-group method using the centroid average)
| Этот метод похож на предыдущий, разница состоит в том, что для учета разницы между размерами кластеров (числе объектов в них), используются веса.
|
Выбор масштаба в кластерном анализе имеет большое значение. Рассмотрим на примере. Представим себе, что данные признака Х в наборе данных А на два порядка больше данных признака Y: значения переменной X находятся в диапазоне от 1000 до 5000, а значения переменной Y - в диапазоне от 0 до 1. Тогда, при определении расстояния между точками, отражающими положение объектов в пространстве, переменная, имеющая большие значения будет практически полностью доминировать над переменной с малыми значениями, т.е. переменной Y. Таким образом, из-за неоднородности единиц измерения признаков становится невозможно корректно рассчитать расстояния между точками. Эта проблема решается путем предварительной стандартизации или нормирования переменных.
Стандартизация обеспечивает приведение значений всех переменных к единому диапазону значений. Существуют различные способы стандартизации, наиболее распространенным являются:
, (2.15) , (2.16), (2.17) , (2.18)Наряду со стандартизацией переменных, существует вариант придания каждой из них определенного коэффициента важности, или веса, который бы отражал ее значимость. В качестве весов могут выступать экспертные оценки. Программная реализация алгоритмов кластерного анализа представлена в таких пакетах статистического анализа данных как SPSS и STATISTICA. Рассмотрим последовательность действий по реализации процедуры кластерного анализа в программе STATISTICA.
Реализация процедуры кластерного анализа в StatSoft STATISTICA
Система StatSoft STATISTICA является одним из наиболее известных в мировой практике пакетов статистической обработки данных в среде Windows. Пакет STATISTICA отличается от большинства других программных продуктов для Windows тем, что состоит из отдельных программ-модулей, каждый из которых содержит конкретный метод обработки данных, например кластерный анализ, регрессионный анализ и т.д. Каждый такой модуль можно рассматривать как самостоятельную программу, независимую от остальных. Для запуска пакета требуется войти в среду Windows, нажать на кнопку Пуск, в строке Программы выбрать STATISTICA. Для запуска процедуры кластерного анализа необходимо выполнить следующую последовательность действий:
из переключателя модулей STATISTICA откройте модуль Cluster Analysis (Кластерный Анализ). Выберите название модуля и далее нажмите кнопку Switch to (Переключиться в) либо просто дважды щелкните мышью по названию модуля Cluster Analysis ;
на экране появится стартовая панель модуля, в которой необходимо выбрать один из трех методов кластерного анализа:
Joining (tree clustering) (иерархические агломеративные методы или древовидная кластеризация),
K - means clustering (метод К-средних),
Two-way joining (двувходовое объединение).
Рисунок 2.42 – Диалоговое окно инструмента проведения кластерного анализа в программе STATISTICA
Рассмотрим реализацию каждого из них.
Древовидная кластеризация Joining (tree clustering)
Откройте файл (Open Data) input.sta, содержащий исходные данные для проведения кластерного анализа объектов. Для примера воспользуемся данными об уровне развития стационарной и мобильной телефонной связи и Душевом валовом региональном продукте (ДВРП) по регионам РФ.
После выбора Joining (tree clustering) и нажатия кнопки ОК появляется окно ввода входных параметров Cluster Analysis: Joing (Tree Clustering)
Рисунок 2.43 - Окно ввода входных параметров
Кнопка Variables позволяет выбрать переменные участвующие в кластеризации. Нажмите на кнопку Variables и выберите все переменные Select All, далее нажмите ОК
Нажав маркер рядом с полем Input необходимо задать тип входной информации. Маркер рядом с полем Cluster позволяет определить режим классификации (по строкам или по столбцам).
В последующих полях Amalgamation (linkage) rule и Distance measure определяются правило объединения и метрика расстояний.
Вид диалогового окна после заполнения входных параметров представлен на рис.2.44
Рисунок 2.44 – Диалоговое окно инструмента проведения кластерного анализа в программе STATISTICA
После нажатия кнопки ОК будут произведены вычисления, а на экране появится окно, содержащее результаты кластерного анализа "Joining Results"
Рисунок 2.45 – Результаты кластеризации
Верхняя информационная часть диалогового окна
Joining Results сообщает, что
Number of variables - число переменных ;
Number of cases - число наблюдений;
Missing data were casewise deleted - осуществлена классификация наблюдений или переменных (зависит от параметра в строке Cluster в предыдущем окне настройки.)
Amalgamation (joining) rule - правило объединения кластеров (название иерархического агломеративного метода, заданного в строке Amalgamation rules, а в предыдущем окне настрйки);
Distanse.metric is - Метрика расстояния (зависит от установки в предыдущем окне настройки).
Протокол объединения объектов в кластеры может быть вызван путем нажатия кнопки
. Наглядное представление процесса кластеризации объектов обеспечивает дендрограмма. Пользователь может вызвать на экран горизонтальное и вертикальное ее расположение (Horizontal hierachical plot или Vertical icicle plot).