Студопедия  
Главная страница | Контакты | Случайная страница

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатика
ИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханика
ОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторика
СоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансы
ХимияЧерчениеЭкологияЭкономикаЭлектроника

Организация данных в МСУБД

В различных МСУБД используются два основных варианта организации данных: гиперкубическая модель и поликубическая модель. Различие состоит в том, что системы, поддерживающие поликубическую модель (например, Oracle Express Server), предполагают, что в МБД может быть определено несколько гиперкубов с различной размерностью и с различными измерениями в качестве их граней. Например, значение показателя Рабочее Время Менеджера, скорее всего, не зависит от измерения Модель компьютера и однозначно определяется двумя измерениями: День и Менеджер. В поликубической модели в этом случае может быть объявлено два различных гиперкуба.

2 гиперкуба:

· двухмерный - для показателя Рабочее Время Менеджера;

· трехмерный - для показателя Объем Продаж.

В случае же гиперкубической модели предполагается, что все показатели должны определяться одним и тем же набором измерений. То есть только из-за того, что Объем Продаж определяется тремя измерения-ми, при описании Показателя Рабочее Время Менеджера придется также использовать три измерения и вводить избыточное для этого показателя измерение Модель Компьютера.

 

Операции с измерениями

 

Наличие измерений позволяет производить следующие виды манипулирования для получения анализируемых данных. Виды манипулирования для получения анализируемых данных: Срез (Slice) Пользователя редко интересуют все потенциально возможные комбинации значений измерений. Более того, он практически никогда не работает одновременно сразу со всем гиперкубом данных. Срез (Slice) – это созданное пользователем подмножество гиперкуба, получившееся в результате фиксации значения одного или более измерений не входящих в это подмножество. Пример. Если ограничится значением измерения Модель Компьютера - Celeron, то получится под-множество гиперкуба (в данном случае - двухмерная таблица), содержащее информацию об истории продаж этой модели различными менеджерами в различные годы. Пример. При выборе элемента "Факт" измерения "Сценарий" срез данных представляет собой под-куб, в который входят все остальные измерения. Данные, которые не вошли в сформированный срез, связаны с теми элементами измерения "Сценарий", которые не были указаны в качестве определяющих (например, "План", "Отклонение", "Прогноз" и т. п.). С позиции конечного пользователя "срезом" наиболее часто является двумерная проекция куба. Отображение страницы (Page Display) Текущее представление среза многомерной информации называется отображением страницы(Page Display). Измерения, расположенные по горизонтали (поперек дисплея), определяют измерения в столбцах таблицы. Строки таблиц измерений определяются измерениями, расположенными по вертикали (вдоль дисплея). Выбор элемента измерения страницы позволяет определить, какая именно страница отображается в данный момент. Страница во многом напоминает обычную электронную таблицу и может быть интегрирована практически с любой программой электронных таблиц, где пользователь может в дальнейшем вносить изменения в каждую ячейку. Slice and Dice (нарезка на кубики и ломтики) Slice and Dice(нарезка на кубики и ломтики) - это термин, использующийся для описания функции сложного анализа данных, обеспечиваемой средствами OLAP выборка данных (продольные и поперечные, плоскостные и объемные срезы) из многомерного куба с заданными значениями и заданным взаимным расположением измерений, при котором пользователь обычно использует операции вращения концептуального куба данных и детализации/агрегирования данных. Вращение (Rotate, Pivot, пивотинг) Изменение порядка представления измерений, применяемое при двухмерном представлении данных, называется вращением (Rotate, Pivot, пивотинг). Эта операция обеспечивает возможность визуализации данных в форме, наиболее комфортной для их восприятия. Операция вращения может заключаться в перестановке местами строк и столбцов таблицы, или перемещении интересующих измерений в столбцы или строки создаваемого отчета, что позволяет придавать ему желаемый вид. Кроме того, вращением куба данных является перемещение вне табличных измерений на место измерений, представленных на отображаемой странице, и наоборот (при этом вне табличное измерение становится новым измерением строки или измерением столбца). Пример для первого случая. Имеется отчет, для которого элементы измерения "Время" располагаются поперек экрана (заголовки столбцов таблицы), а элементы измерения "Компьютеры" -вдоль экрана (заголовки строк таблицы). После применения операции вращения отчет будет иметь следующий вид: элементы измерения "Компьютеры" будут расположены по горизонтали, а элементы измерения "Время" -по вертикали. Пример второго случая. Имеется отчет с измерениями "Меры" и "Компьютеры", расположенными по вертикали, и измерением "Время", расположенным по горизонтали. Вращением преобразуется в отчет, у которого измерение "Меры" располагается по вертикали, а измерения "Время" и "Компьютеры" - по горизонтали. При этом элементы измерения "Время" располагаются над элементами измерения "Компьютеры". Пример третьего случая. Вращением можно изменить отчета с расположенным по горизонтали измерением "Время" и измерением "Компьютеры", расположенным по вертикали, в отчет, у которого по горизонтали представлено измерение "Время", а по вертикали - измерение "География". Отношения (Relation) В данном примере значения показателей определяются только тремя измерениями. На самом деле их может быть гораздо больше и между их значениями обычно существуют множество различных отношений (Relation) типа "один ко многим". Следует отметить, что для измерений, имеющих тип Время (таких как День, Месяц, Квартал, Год), все отношения устанавливаются автоматически, и их не требуется описывать. Пример. Каждый Менеджер может работать только в одном подразделении, а каждой модели компьютера однозначно соответствует фирма, которая ее выпускает: Менеджер→Подразделение; Модель Компьютера→ Фирма-Производитель. Агрегации (консолидация) (Drill Up) В процессе анализа пользователь не только работает с различными срезами данных и выполняет их вращение. Одним из часто встречающихся способов манипулирования данными является операция агрегации (консолидации) (Drill Up) -переход от детализированных данных к агрегированным. С точки зрения пользователя, Подразделение, Регион, Фирма, Страна являются точно такими же измерениями, как и Менеджер. Но каждое из них соответствует новому, более высокому уровню агрегации значений показателя Объем продаж. Пример. Проанализировав, насколько успешно в 2005 г. Петров продавал модели "Celeron" и "Athlon", управляющий может захотеть узнать, как выглядит соотношение продаж этих моделей на уровне Подразделения, где Петров работает. А затем получить аналогичную справку по Региону или Фирме. Детализации (Drill Down) Переход от более агрегированных к более детализированным данным называется операцией детализации (Drill Down). Например, начав анализ на уровне Региона, пользователь может захотеть получить более точную информацию о работе конкретного Подразделения или Менеджера.

 

Аббревиатура OLAP была впервые введена Коддом (E.F.Kodd), известным ученым в области реляционных БД, создателем широко распространенной реляционной модели. В своей работе, инициированной компанией Arbor Software (сегодня это Hyperion Solutions) "Providing OLAP to User Analysis: AN IT MAN-DATE"(Обеспечение OLAP (оперативной аналитической обработки) для пользователей – аналитиков) в 1993 г., он определил:

· основной недостаток реляционной модели как невозможность «объединять, просматривать и анализировать данные с точки зрения множественности измерений, то есть самым понятным для корпоративных аналитиков способом»

· общие требования к системам OLAP, расширяющим функциональность реляционных СУБД и включающим многомерный анализ как одну из своих характеристик.

Кодд сформулировал концепцию комплексного многомерного анализа данных, накопленных в хранилище, в виде 12 основных правил, которым должны удовлетворять OLAP-системы, как продукты, предоставляющие возможность выполнения оперативной аналитической обработки. В 1995 году к ним были добавлены еще шесть (которые известны в значительно меньшей степени). Все эти правила разделены на четыре группы и названы «характеристиками» (features, особенности). Ниже дано краткое описание этих особенностей, однако сегодня они редко цитируются и мало используются:

· Основные характеристики OLAP:

o многомерность модели данных (оригинальное правило 1). Эта особенность - сердцевина OLAP;

o прозрачность (оригинальное правило 2),

o доступность данных, пакетное извлечение данных (оригинальное правило 3),

o архитектура «клиент-сервер» (оригинальное правило 5),

o многопользовательская работа (оригинальное правило 8),

o интуитивные механизмы манипулирования данными (оригинальное правило 10),

o пакетное извлечение против интерпретации (новое). Это правило требует, чтобы продукт в равной степени эффективно обеспечивал доступ как к собственному хранилищу данных, так и к внешним данным. К большому сожалению лишь небольшая часть OLAP продуктов должным образом соответствует ей, и среди них редкие делают это легко или автоматически. Сегодня это соответствует определению гибридных OLAP, которые, в самом деле, становятся наиболее популярной архитектурой

o модели анализа OLAP (новое). OLAP-продукты должны поддерживать четыре модели анализа (Категориальный, Толковательный, Умозрительный и Стереотипный) которые можно определить как формирование параметрически настраиваемых отчетов, формирование разрезов и группировок с обращением, анализом в стиле "что, если" и моделями поиска целей, соответственно.

 

 

· Специальные характеристики:

o Обработка ненормализованных данных (новое)

Указывает на необходимость интеграции между OLAP-машиной и ненормализованными источниками данных. Не должны допускаться изменения данных, которые обычно расцениваются как расчетные ячейки в пределах БД OLAP.,

o Хранение результатов отдельно от исходных данных (новое)

В действительности это боле относится к реализации, чем к сущности продукта. OLAP приложения, работающие в режиме чтения/записи не должны воздействовать напрямую на обрабатываемые данные, и данные, модифицированные в OLAP, должны сохраняться отдельно от данных транзакций. Например, метод обратной записи данных, использованный в Microsoft OLAP Services, является лучшей реализацией этого, поскольку позволяет сохранять данные, измененные в среде OLAP, отдельно от основных данных.

o Выделение пропущенных данных (новое)

Пропущенные данные (Missing Data, Missing Value) – это особый элемент данных, который сигнализирует о том, что в данной ячейке данные отсутствуют и/или не определены. Это может быть как вследствие того, что рассматриваемая комбинация элементов не имеет смысла (например, снегоходы не могут продаваться в экваториальных странах), так и того, что данные не были введены. Термин "Пропущенные данные" по своему значению близок к термину "Пустое значение данных", однако, это не то же самое, что "Нулевое значение". В действительности это интересно только с точки зрения компактности хранения данных, некоторые OLAP инструменты игнорируют это правило без больших потерь в функциональности.

o Обработка отсутствующих значений (новое)

Все отсутствующие значения будут игнорироваться OLAP анализатором без учета их источника. Эта особенность связана с предыдущей и является почти неизбежным следствием того, как OLAP-машина обрабатывает все данные.

· Характеристики построения отчетов:

o стабильная производительность при построении отчетов (оригинальное правило 4),

o автоматическая настройка физического уровня(замена оригинального правила 7),

o гибкое построение отчетов (оригинальное правило 11).

· Управление размерностью:

o общая функциональность - универсальность измерений (оригинальное правило 6),

o неограниченные операции между данными различных измерений (оригинальное правило 9)

o неограниченное число измерений и уровней агрегирования (оригинальное правило 12).

Работа с OLAP-системами может быть построена на основе из двух схем:




Дата добавления: 2015-09-12; просмотров: 24 | Поможем написать вашу работу | Нарушение авторских прав

<== предыдущая лекция | следующая лекция ==>
Прогнозируемые данные| OLAP-средства, встроенные в настольные приложения

lektsii.net - Лекции.Нет - 2014-2024 год. (0.009 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав