Каким образом предсказать правильное количество кластеров.

Читайте также:

II. Перечень дисциплин модуля «Челюстно-лицевой хирургии, оториноларингологии и офтальмологии» и количество часов по каждой дисциплине
N – количество дат;
SSS198 Для ограничения амплитуды колебаний можно использовать диодный или транзисторный ограничитель. Какими членами предложения являются выделенные слова в порядке следования
U26. Я буду зачитывать Вам высказывания, а Вы для каждого высказывания назовите магазины, которым оно подходит. Вы можете назвать любое количество магазинов?
А. Количество избирателей для назначения проведения общероссийского референдума не менее ...
А. Количество избирателей для назначения проведения общероссийского референдума не менее ...
Абсолютная адсорбция (А) - количество адсорбата на единице поверхности адсорбента.
Банк международных расчетов: кризис в США и мире можно было предсказать заранее
Бифуркация состояния социальных и человекомашинных систем таким образом есть не только объективный факт, но и продукт мыслительной деятельности конкретных личностей.
Большое количество требований

Лекция 16. Кластерный анализ при большом количестве наблюдений.

Метод К–средних.

Иерархический метод выделения кластеров является наиболее точным. Но его сложность (количество выполняемых операций) растет пропорционально третьей степени (почему) количества наблюдений. Поэтому при большом числе наблюдений этот метод оказывается неэффективным.

В этом случае применяется другой метод выделения кластеров – метод к–средних. Основная идея метода состоит в следующем.

Первый важный момент – необходимо заранее предсказать количество кластеров, которые нужно выделить (число К).

Второй важный момент – необходимо предложить К наблюдений, которые будут начальными точками, вокруг которых будут образовываться кластеры.

Каким образом предсказать правильное количество кластеров.

Можно использовать следующую процедуру.

1. Строится случайная выборка из всех имеющихся наблюдений. Количество отобранных элементов должно позволить провести иерархический кластерный анализ (максимум несколько сотен наблюдений)

2. К отобранным в случайную выборку наблюдениям применяется процедура иерархического кластерного анализа. По таблице, показывающей ход агломерации (нас интересует в этот момент расстояние между объединяемыми кластерами), определяем оптимальное количество кластеров для исходной совокупности наблюдений.

3. Используем найденное значение в качестве числа К в выделении кластеров.

4. Центры полученных с помощью иерархического метода кластеров можно сохранить в специальном файле, который можно будет загрузить при проведении анализа методом к–средних.

Можно использовать несколько предварительных расчетов, экспериментируя с количеством кластеров и анализируя их характеристики.

ВАЖНО. В процедуре не предусмотрена автоматическая стандартизация. Поэтому перед выполнением процедуры нужно выполнить стандартизацию самостоятельно и сохранить стандартизованные значения в новых переменных.

Если заранее известно количество кластеров, которые будут выделены, можно использовать специальную возможность SPSS, для автоматического определения начальных центров кластеров. Используя итерационную процедуру, программа автоматически определит начальные центры кластеров. В результатах будет выведена информация о принадлежности наблюдений кластерам и другая дополнительная информация и характеристиках кластеров. Среди дополнительной информации мы получим:

Информацию о финальных центрах кластеров (Final Cluster Centers)

Количество наблюдений в каждом кластере (Number of Cases in each Cluster)

Дата добавления: 2015-01-12; просмотров: 25 | Поможем написать вашу работу | Нарушение авторских прав

12 3 4

lektsii.net - Лекции.Нет - 2014-2024 год. (0.009 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав