Студопедия
Главная страница | Контакты | Случайная страница

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатика
ИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханика
ОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторика
СоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансы
ХимияЧерчениеЭкологияЭкономикаЭлектроника

Выбросы

При анализе гистограмм иногда в данных можно наблюдать выбросы (сильно отклоняющиеся значения), т.е. такие значения, которые либо слишком велики, либо слишком малы. Существуют два вида выбросов: ошибки и корректные, но «отличающиеся» значения данных.

С ошибками справиться легко – нужно просто отредактировать значение. Например, если значение объема продаж $1597,15 записано как $159715 (без десятичной точки), то оно будет сильно отличаться от остальных значений на гистограмме. В этом случае нужно перепроверить данные, найти ошибку и исправить это значение.

Более сложной является проблема выбросов корректных данных. Если есть убедительное подтверждение того, что выбросы не соответствуют изучаемым данным, то их можно просто удалить и анализировать оставшиеся более согласованные между собой данные. Например, в наборе данных относительно доходов денежного рынка могут появиться несколько значений доходов фондов, не облагаемых налогом. Если цель исследования состоит в анализе рыночной ситуации для обычных фондов, облагаемых налогом, то эти выбросы лучше исключить. При отсутствии достаточно обоснованного аргумента для исключения выбросов можно выполнить два различных анализа: один с учетом выбросов, другой – с исключением их. В лучшем случае может оказаться, что наличие выбросов не имеет существенного значения. Если два анализа дадут разные результаты, то выводы могут быть менее определенными и неоднозначными. В современной статистике в настоящее время разрабатываются устойчивые методы, в которых применяется мощный вычислительный аппарат для учета наличия выбросов.

Задание 6. Построить гистограмму процентного изменения общих расходов на телевизионную рекламу. Проанализировать выбросы.

В таблице 4 приведены данные процентного изменения общих расходов на телевизионную рекламу в 1994 г. по сравнению с 1993 г.

Таблица 4. Изменение общих расходов на телевизионную рекламу

Рекламодатель Изменение расходов на телерекламу, % Рекламодатель Изменение расходов на телерекламу, %
  43,2   -22,7
  27,5   73,5
  77,9   14,0
  201,0   16,5
  16,7   217,3
  54,5   31,4
  47,7   42,4
  104,4   2353,7
  65,7   28,5
  66,8   16,4
  33,3   684,0
  65,9   12,7
  44,7    

1. В файле Гистограммы.xls добавьте Лист6.

2. На Листе6 в ячейке A1 задайте метку Процентное изменение расходов, а в диапазон A2:A26 введите из Таблицы 4 значения процентных изменений расходов на телерекламу.

3. Постройте гистограмму и расположите ее вместе с таблицей распределения частот на том же листе в диапазоне E1:L15. Уменьшите разрядность значений, исключив дробную часть.

Обратите внимание! Наличие выброса на гистограмме справа (для компании №21 увеличение расходов составляет колоссальное число 2353,7%) привело к тому, что почти все компании (22 компании) попали в один столбец гистограммы. Такая гистограмма не очень полезна, т.к. нельзя увидеть подробную картину распределения процентных изменений в других компаниях.

4. Исключите из рассмотрения компанию №21. Для этого выделите строку 22 и удалите ее. Постройте снова гистограмму для диапазона данных A1:A25 (включая метку) и расположите ее вместе с таблицей распределения частот в диапазоне E17:L31. Уменьшите разрядность значений, исключив дробную часть.

Обратите внимание! Как видно из гистограммы, большинство деталей все еще скрыто из-за наличия на этот раз другого выброса, равного 684,0% (компания №24).

5. Исключите из рассмотрения компанию №24. Для этого выделите строку 24 и удалите ее. Постройте снова гистограмму для диапазона данных A1:A24 (включая метку) и расположите ее вместе с таблицей распределения частот в диапазоне E33:L47. Уменьшите разрядность значений, исключив дробную часть.

Обратите внимание! В полученной гистограмме большинство компаний сосредоточено в двух столбцах. Можно картину распределения сделать более наглядной, если построить гистограмму с более узкими столбцами. Для этого надо уменьшить интервал, определяющий ширину столбца. В случае явного задания интервалов для облегчения анализа лучше использовать числа, кратные 2, 5, или 10.

6. В ячейку B33 введите метку Карман. В ячейку B34 введите значение –20 (нижняя граница диапазона входных значений). В ячейку B35 введите значение 0, приняв значение интервала равным 20. Теперь выделите обе ячейки B34:B35 и протащите маркер заполнения до ячейки B46, определив тем самым верхнюю границу диапазона значений, равную 220.

7. Постройте гистограмму, задавая в поле параметра Интервал карманов: диапазон ячеек B33:B46, включая метку. Расположите гистограмму вместе с таблицей распределения частот в диапазоне N33:U47. Щелкните на кнопке Сохранить.

Обратите внимание! Хотя в полученной гистограмме после исключения двух выбросов есть еще два выброса – более 200% (компании №4 и №18), можно, наконец, увидеть, что распределение изменений расходов на телерекламу для оставшихся рекламодателей является приблизительно нормальным, с центром около 40%.

Контрольные вопросы

1. Какие шесть свойств набора данных можно выявить при визуальном анализе гистограммы?

2. Что такое нормальное распределение? Почему нормальное распределение играет важную роль в статистике?

3. Если реальный набор данных распределен нормально, то можно ли ожидать, что гистограмма будет иметь идеально гладкую форму в виде колокола?

4. Что такое ассиметричное распределение? Как можно во многих случаях решить проблему ассиметрии?

5. Что такое бимодальное распределение? Что следует предпринять в случае бимодального распределения?

6. Что такое выброс? Какие виды выбросов могут наблюдаться?

7. В каких случаях выбросы можно не учитывать и анализировать только остальные данные?

8. Какие действия нужно предпринять, если при анализе необходимо учитывать наличие выбросов?




Дата добавления: 2015-09-10; просмотров: 96 | Поможем написать вашу работу | Нарушение авторских прав

<== предыдущая лекция | следующая лекция ==>
Ассиметричное распределение и преобразование данных| Контрольные задания

lektsii.net - Лекции.Нет - 2014-2025 год. (0.01 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав