|
При анализе гистограмм иногда в данных можно наблюдать выбросы (сильно отклоняющиеся значения), т.е. такие значения, которые либо слишком велики, либо слишком малы. Существуют два вида выбросов: ошибки и корректные, но «отличающиеся» значения данных.
С ошибками справиться легко – нужно просто отредактировать значение. Например, если значение объема продаж $1597,15 записано как $159715 (без десятичной точки), то оно будет сильно отличаться от остальных значений на гистограмме. В этом случае нужно перепроверить данные, найти ошибку и исправить это значение.
Более сложной является проблема выбросов корректных данных. Если есть убедительное подтверждение того, что выбросы не соответствуют изучаемым данным, то их можно просто удалить и анализировать оставшиеся более согласованные между собой данные. Например, в наборе данных относительно доходов денежного рынка могут появиться несколько значений доходов фондов, не облагаемых налогом. Если цель исследования состоит в анализе рыночной ситуации для обычных фондов, облагаемых налогом, то эти выбросы лучше исключить. При отсутствии достаточно обоснованного аргумента для исключения выбросов можно выполнить два различных анализа: один с учетом выбросов, другой – с исключением их. В лучшем случае может оказаться, что наличие выбросов не имеет существенного значения. Если два анализа дадут разные результаты, то выводы могут быть менее определенными и неоднозначными. В современной статистике в настоящее время разрабатываются устойчивые методы, в которых применяется мощный вычислительный аппарат для учета наличия выбросов.
Задание 6. | Построить гистограмму процентного изменения общих расходов на телевизионную рекламу. Проанализировать выбросы. |
В таблице 4 приведены данные процентного изменения общих расходов на телевизионную рекламу в 1994 г. по сравнению с 1993 г.
Таблица 4. Изменение общих расходов на телевизионную рекламу
Рекламодатель | Изменение расходов на телерекламу, % | Рекламодатель | Изменение расходов на телерекламу, % |
43,2 | -22,7 | ||
27,5 | 73,5 | ||
77,9 | 14,0 | ||
201,0 | 16,5 | ||
16,7 | 217,3 | ||
54,5 | 31,4 | ||
47,7 | 42,4 | ||
104,4 | 2353,7 | ||
65,7 | 28,5 | ||
66,8 | 16,4 | ||
33,3 | 684,0 | ||
65,9 | 12,7 | ||
44,7 |
1. В файле Гистограммы.xls добавьте Лист6.
2. На Листе6 в ячейке A1 задайте метку Процентное изменение расходов, а в диапазон A2:A26 введите из Таблицы 4 значения процентных изменений расходов на телерекламу.
3. Постройте гистограмму и расположите ее вместе с таблицей распределения частот на том же листе в диапазоне E1:L15. Уменьшите разрядность значений, исключив дробную часть.
Обратите внимание! Наличие выброса на гистограмме справа (для компании №21 увеличение расходов составляет колоссальное число 2353,7%) привело к тому, что почти все компании (22 компании) попали в один столбец гистограммы. Такая гистограмма не очень полезна, т.к. нельзя увидеть подробную картину распределения процентных изменений в других компаниях.
4. Исключите из рассмотрения компанию №21. Для этого выделите строку 22 и удалите ее. Постройте снова гистограмму для диапазона данных A1:A25 (включая метку) и расположите ее вместе с таблицей распределения частот в диапазоне E17:L31. Уменьшите разрядность значений, исключив дробную часть.
Обратите внимание! Как видно из гистограммы, большинство деталей все еще скрыто из-за наличия на этот раз другого выброса, равного 684,0% (компания №24).
5. Исключите из рассмотрения компанию №24. Для этого выделите строку 24 и удалите ее. Постройте снова гистограмму для диапазона данных A1:A24 (включая метку) и расположите ее вместе с таблицей распределения частот в диапазоне E33:L47. Уменьшите разрядность значений, исключив дробную часть.
Обратите внимание! В полученной гистограмме большинство компаний сосредоточено в двух столбцах. Можно картину распределения сделать более наглядной, если построить гистограмму с более узкими столбцами. Для этого надо уменьшить интервал, определяющий ширину столбца. В случае явного задания интервалов для облегчения анализа лучше использовать числа, кратные 2, 5, или 10.
6. В ячейку B33 введите метку Карман. В ячейку B34 введите значение –20 (нижняя граница диапазона входных значений). В ячейку B35 введите значение 0, приняв значение интервала равным 20. Теперь выделите обе ячейки B34:B35 и протащите маркер заполнения до ячейки B46, определив тем самым верхнюю границу диапазона значений, равную 220.
7. Постройте гистограмму, задавая в поле параметра Интервал карманов: диапазон ячеек B33:B46, включая метку. Расположите гистограмму вместе с таблицей распределения частот в диапазоне N33:U47. Щелкните на кнопке Сохранить.
Обратите внимание! Хотя в полученной гистограмме после исключения двух выбросов есть еще два выброса – более 200% (компании №4 и №18), можно, наконец, увидеть, что распределение изменений расходов на телерекламу для оставшихся рекламодателей является приблизительно нормальным, с центром около 40%.
Контрольные вопросы
1. Какие шесть свойств набора данных можно выявить при визуальном анализе гистограммы?
2. Что такое нормальное распределение? Почему нормальное распределение играет важную роль в статистике?
3. Если реальный набор данных распределен нормально, то можно ли ожидать, что гистограмма будет иметь идеально гладкую форму в виде колокола?
4. Что такое ассиметричное распределение? Как можно во многих случаях решить проблему ассиметрии?
5. Что такое бимодальное распределение? Что следует предпринять в случае бимодального распределения?
6. Что такое выброс? Какие виды выбросов могут наблюдаться?
7. В каких случаях выбросы можно не учитывать и анализировать только остальные данные?
8. Какие действия нужно предпринять, если при анализе необходимо учитывать наличие выбросов?
Дата добавления: 2015-09-10; просмотров: 96 | Поможем написать вашу работу | Нарушение авторских прав |
<== предыдущая лекция | | | следующая лекция ==> |
Ассиметричное распределение и преобразование данных | | | Контрольные задания |