Читайте также:
|
|
Лекция 16. Кластерный анализ при большом количестве наблюдений.
Метод К–средних.
Иерархический метод выделения кластеров является наиболее точным. Но его сложность (количество выполняемых операций) растет пропорционально третьей степени (почему) количества наблюдений. Поэтому при большом числе наблюдений этот метод оказывается неэффективным.
В этом случае применяется другой метод выделения кластеров – метод к–средних. Основная идея метода состоит в следующем.
Первый важный момент – необходимо заранее предсказать количество кластеров, которые нужно выделить (число К).
Второй важный момент – необходимо предложить К наблюдений, которые будут начальными точками, вокруг которых будут образовываться кластеры.
Каким образом предсказать правильное количество кластеров.
Можно использовать следующую процедуру.
1. Строится случайная выборка из всех имеющихся наблюдений. Количество отобранных элементов должно позволить провести иерархический кластерный анализ (максимум несколько сотен наблюдений)
2. К отобранным в случайную выборку наблюдениям применяется процедура иерархического кластерного анализа. По таблице, показывающей ход агломерации (нас интересует в этот момент расстояние между объединяемыми кластерами), определяем оптимальное количество кластеров для исходной совокупности наблюдений.
3. Используем найденное значение в качестве числа К в выделении кластеров.
4. Центры полученных с помощью иерархического метода кластеров можно сохранить в специальном файле, который можно будет загрузить при проведении анализа методом к–средних.
Можно использовать несколько предварительных расчетов, экспериментируя с количеством кластеров и анализируя их характеристики.
ВАЖНО. В процедуре не предусмотрена автоматическая стандартизация. Поэтому перед выполнением процедуры нужно выполнить стандартизацию самостоятельно и сохранить стандартизованные значения в новых переменных.
Если заранее известно количество кластеров, которые будут выделены, можно использовать специальную возможность SPSS, для автоматического определения начальных центров кластеров. Используя итерационную процедуру, программа автоматически определит начальные центры кластеров. В результатах будет выведена информация о принадлежности наблюдений кластерам и другая дополнительная информация и характеристиках кластеров. Среди дополнительной информации мы получим:
Информацию о финальных центрах кластеров (Final Cluster Centers)
Количество наблюдений в каждом кластере (Number of Cases in each Cluster)
Дата добавления: 2015-01-12; просмотров: 25 | Поможем написать вашу работу | Нарушение авторских прав |