Студопедия  
Главная страница | Контакты | Случайная страница

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатика
ИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханика
ОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторика
СоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансы
ХимияЧерчениеЭкологияЭкономикаЭлектроника

Кластерный анализ. Введение.

Читайте также:
  1. I. Введение.
  2. I. ОБЩАЯ ФИЗИОЛОГИЯ. ВВЕДЕНИЕ.
  3. III. Маркетинговый анализ. Ценообразование
  4. Анализ.
  5. Анализ.
  6. Анализ.
  7. Анализ.
  8. Анализ.
  9. Введение в математический анализ.
  10. Введение.

Термин кластерный анализ (впервые ввел Tryon, 1939) в действительности включает в себя набор различных алгоритмов классификации. Общий вопрос, задаваемый исследователями во многих областях, состоит в том, как организовать наблюдаемые данные в наглядные структуры, т.е. развернуть таксономии. Например, биологи ставят цель разбить животных на различные виды, чтобы содержательно описать различия между ними. В соответствии с современной системой, принятой в биологии, человек принадлежит к приматам, млекопитающим, амниотам, позвоночным и животным. Заметьте, что в этой классификации, чем выше уровень агрегации, тем меньше сходства между членами в соответствующем классе.

Цель кластерного анализа - классификация объектов на относительно однородные группы, называемыми кластерами, исходя из рассматриваемого набора переменных. Кластерный анализ проводится для выборок в 100 и более респондентов. По сути это задача многомерной классификации данных.

Для маркетинговой или рекламной деятельности можно решать, например, задачи:

1. сегментация покупателей; например, их можно разбить на группы на основе, выгод, которые они получают от покупки данного товара;

2. восприятие покупателями торговой марки (ТМ) на рынке; производитель может изучить своё текущее положение, чтобы определить потенциальные возможности в продвижении новых товаров;

3. классификация поведения покупателей; идентифицируются однородные группы потребителей, затем поведение каждой группы изучается отдельно.

В менеджменте КА применяется для разбиения персонала на различные по уровню мотивации группы, классификации поставщиков, выявления схожих производственных ситуаций, при которых возникает брак. В медицине - классификация симптомов, пациентов, препаратов. В социологии - разбиение респондентов на однородные группы.

Проверка статистической значимости

Ранее мы говорили о статистической значимости результатов анализа. Фактически, кластерный анализ является не столько обычным статистическим методом, сколько "набором" различных алгоритмов "распределения объектов по кластерам". Существует точка зрения, что в отличие от многих других статистических процедур, методы кластерного анализа используются в большинстве случаев тогда, когда вы не имеете каких-либо априорных гипотез относительно классов, но все еще находитесь в описательной стадии исследования. Следует понимать, что кластерный анализ определяет "наиболее возможно значимое решение". Поэтому проверка статистической значимости в действительности здесь неприменима, даже в случаях, когда известны p-уровни.

Преимущество данного метода - он работает даже тогда, когда данных мало и не выполняются требования нормальности распределений случайных величин и другие трбования классических методов статистического анализа.

Области применения

Техника кластеризации применяется в самых разнообразных областях. Хартиган (Hartigan, 1975) дал прекрасный обзор многих опубликованных исследований, содержащих результаты, полученные методами кластерного анализа. Например, в области медицины кластеризация заболеваний, лечения заболеваний или симптомов заболеваний приводит к широко используемым таксономиям. В области психиатрии правильная диагностика кластеров симптомов, таких как паранойя, шизофрения и т.д., является решающей для успешной терапии. В археологии с помощью кластерного анализа исследователи пытаются установить таксономии каменных орудий, похоронных объектов и т.д. Известны широкие применения кластерного анализа в маркетинговых исследованиях. В общем, всякий раз, когда необходимо классифицировать "горы" информации к пригодным для дальнейшей обработки группам, кластерный анализ оказывается весьма полезным и эффективным.

Пример

Предположим, что мы провели анкетирование сотрудников и хотим определить, каким образом можно наиболее эффективно управлять персоналом. То есть, хотим разделить сотрудников на группы и для каждой из них выделить наиболее эффективные рычаги управления. При этом различия между группами должны быть очевидными, а внутри группы респонденты должны быть максимально похожи.

Для решения задачи предлагается использовать кластерный анализ. В результате мы получим дерево, глядя на которое мы должны определиться на сколько классов (кластеров) мы хотим разбить персонал. Предположим, что мы решили разбить персонал на три группы, тогда для изучения респондентов, попавших в каждый кластер получим табличку примерно следующего содержания:

 

Кластер Муж 30-50 лет >50 лет Рук. Мед Льготы з/п стаж Образов.
  80% 90% 5% 70% 10% 12% 95% 30% 30%
  40% 35% 45% 13% 60% 70% 60% 40% 20%
  50% 70% 10% 5% 30% 20% 70% 20% 50%

Пояснения к таблице

В первом столбце расположен номер кластера - группы, данные по которой отражены в строке. Например, первый кластер на 80% составляют мужчины. 90% первого кластера попадают в возрастную категорию от 30 до 50 лет, а 12% респондентов считает, что льготы очень важны. И так далее.

Попытаемся составить портреты респондентов каждого кластера.

Первая группа - в основном мужчины зрелого возраста, занимающие руководящие позиции. Соцпакет (Мед, Льготы) их не интересует. Они предпочитают получать хорошую зарплату, а не помощь от работодателя.

Группа два наоборот отдает предпочтение соцпакету. Состоит она, в основном из людей "в возрасте", в основном занимающих невысокие посты. Зарплата для них безусловно важна, но есть и другие приоритеты.

Третья группа наиболее "молодая". В отличие от предыдущих двух групп очевиден интерес к возможностям обучения и профессионального роста. У этой категории сотрудников есть хороший шанс в скором времени пополнить первую группу.

Таким образом, планируя, к примеру, кампанию по внедрению эффективных методов управления персоналом, очевидно, что в нашей ситуации можно увеличить соцпакет у второй группы в ущерб, к примеру, зарплате. Если говорить о том, каких специалистов следует направлять на обучение, то можно однозначно рекомендовать обратить внимание на третью группу.

Тема обсуждения для аудитории. Предложите задачи, которые можно изучать, используя группировки респондентов, товаров по степени их схожести, однородности групп.

 

ПРИМЕР

Предположим, что у нас есть данные о стоимости и калорийности пива. Пусть эти данные, вместе с названием фирмы-производителя мы представили в виде диаграммы рассеяния по двум переменным – стоимости и производительности.

Мы видим три отчетливых группировки точек на дмаграмме. Следовательно, мы имеем три «похожих» друг на друга группы, которые образуют кластеры. В реальной ситуации мы, как правило, не сможем выделить таких точно определяемых групп. Границы кластеров часто бывают размытыми и нужно полагаться на различные способы определения мер близости кластеров между собой.

Вопрос. На основании какого критерия мы говорим о близости сортов пива друг по отношению к другу? Как мы определяем расстояние между точками в декартовом пространстве? Что такое евклидово расстояние между двумя точками плоскости?

Определение расстояния – близости между объектами (кластерами)

У нас нет возможности сделать полный обзор всех возможных способов определения меры близости между кластерами, поэтому остановимся лишь на простейших способах.

Пусть имеются две точки двумерного евклидова пространства P1=(X1,Y1) и Р2=(X2,Y2). Расстояние между этими точками определяется формулой:

Вопрос. Если мы рассматриваем евклидово пространство с большим количеством измерений (например, трехмерное пространство), как изменится приведенная выше формула?

Вопрос. Предположим, что одна переменная имеет диапазон значений (0..10), а вторая – (0..100). Одинаковый ли вклад эти переменные будут вносить в вычисление расстояния между точками пространства? Предложите пример анкеты, в которой шкалы, соответствующие переменным имеют различные диапазоны значений.

Замечание. Переменная, которая имеет больший диапазон значений, доминирует в определении расстояния между точками. Выход – стандартизация переменных – приведение их к одинаковому диапазону значений.

Расстояние между клстерами определяется с помощью различных подходов. Предложите, например интерпретацию следующей диаграмме (дентдрограмме), которая получена для наших данных с помощью программы SPSS:


* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *

Dendrogram using Average Linkage (Between Groups)

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25

Label Num +---------+---------+---------+---------+---------+

 

Budweiser 4 òûòø

Holsten 7 ò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòø

Tuborg 5 òûò÷ ó

Petroff 6 ò÷ ùòòòòòòòòòø

Heineken 1 òø ó ó

Becks 2 òôòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ ó

Kronenbourg 3 ò÷ ó

Балтика 3 10 òûòø ó

Арсенальное 11 ò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷

Miller Lightt 8 òòòú

Budweiser Light 9 òòò÷

 

На следующей лекции мы рассмотрим конкретные подходы к группировке в кластеры, которые используются в программе SPSS.

 




Дата добавления: 2015-01-12; просмотров: 43 | Поможем написать вашу работу | Нарушение авторских прав

<== предыдущая лекция | следующая лекция ==>
Кинематический анализ| СПОСОБЫ ВЫЧИСЛЕНИЯ РАССТОЯНИЙ МЕЖДУ НАБЛЮДЕНИЯМИ ПРИ ОПРЕДЕЛЕНИИ КЛАСТЕРОВ

lektsii.net - Лекции.Нет - 2014-2024 год. (0.009 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав