1.1 Принципы OLAP
С развитием технологий и постоянными инновациями в области технических наук и бизнес-аналитики термин «технология OLAP» стал обозначать не только многомерное представление данных конечным пользователем, но и многомерное представление данных в целевой базе данных.
OLAP-кубы являются производной от OLAP-сервиса и позволяют анализировать данные любой сложности на любых временных интервалах (соответствующих измерениях). OLAP-сервис, в свою очередь, представляет собой инструмент, позволяющий анализировать большие объемы данных в режиме реального времени. Взаимодействуя с такой системой, пользователь получает множество возможностей для работы с данными: гибкий просмотр информации, получение срезов данных, их детализация, свертка, распределение, сравнение и аналитические операции. Работа с такой системой обычно ведется в определенной предметной области и ориентирована на конкретного пользователя - профессионала в области управления. Таким образом, OLAP (онлайн-аналитическая обработка) представляет собой набор концепций, принципов и требований, лежащих в основе программных продуктов, обеспечивающих аналитикам доступ к данным.
OLAP предоставляет удобные и быстродействующие средства доступа, просмотра и анализа корпоративной информации. Пользователь получает наглядную и понятную модель данных многомерных кубов, организованных в виде OLAP куба. Оси в многомерной системе координат являются атрибутами анализируемого бизнес-процесса. Как правило, время всегда является одним из измерений, другие данные в свою очередь называются измерениями и количественно описывают рассматриваемый процесс.
В зависимости от анализируемой задачи куб может иметь разную размерность (двух-, трех- и многомерную). Каждое измерение куба и гиперкуба в зависимости от поставленной задачи и размера куба может быть комплексной — простой или иерархической с установленными отношениями между ними.
Взаимодействуя с OLAP-кубами, пользователь может выполнять над кубом различные действия в процессе анализа и решения конкретной задачи: срез, вращение, консолидация и детализация. Срез данных происходит, когда куб «нарезается» поверх вложенных кубов для визуализации данных, хранящихся в кубе, часто преобразуя данные в табличные представления. Операция вращения позволяет изменить расположение измерений, отображаемых на рассматриваемой странице, а также выйти за пределы табличных и табличных измерений, заменяя друг друга. Консолидация и детализация являются противоположными операциями - консолидация относится к операции перехода от подробного представления данных к агрегированному; детализация, в свою очередь, есть операция перехода от общего представления данных к индивидуальному представлению.
Конечной целью создания кубов OLAP и взаимодействия с ними является сокращение времени обработки запросов, позволяющее получать необходимую информацию из имеющихся данных. Для выполнения определенной задачи кубы обычно содержат предварительно вычисленный набор агрегированных данных, называемых агрегациями. Это означает, что куб покрывает пространство данных, превышающее реальное пространство, — он содержит логические вычисляемые точки. Вычисление значений точек в логическом пространстве на основе фактических значений позволяет функция агрегации.
В 1993 году Эдгар Кодд [68] впервые определил и использовал термин OLAP в своей опубликованной статье. Хотя попытки создания реляционных моделей представления данных предпринимались с 60-х годов, дату публикации статьи Кодда принято считать датой внедрения технологии OLAP —оперативного анализа данных на основе многомерного представления. Главной особенностью OLAP является многомерность точного представления данных и делает механизм выбора необходимых данных доступным и интуитивно понятным для аналитика, а также позволяет говорить о возможности выполнения специальных запросов и оперативного анализа скорости получения данных [66, 79,84-85].
Как было сказано выше, термин OLAP (On-line Analytical Processing — оперативный анализ данных) впервые был опубликован в 1993 году в статье, опубликованной Эдгаром Коддом и его партнерами при поддержке компании Arbor Software (ныне Hyperion Solutions). В статье предложено 12 правил, которым удовлетворяет программный продукт класса OLAP. Поскольку эти правила, по сути, являются определением OLAP, позже оно было переработано Найджелом Пендсом, автором журнала OLAP Report ('httt)://www.olapreport.com\, после того, как оно оказалось очень трудным для понимания. В тесте FASMI (Fast Analysis of Shared Multidiversity Information — Быстрый Анализ Разделяемой Многомерной Информации) упоминался набор из 5 правил. Это определение было сформулировано в начале 1995 года и с тех пор не нуждалось в пересмотре. Дадим подробное пояснение формулировке теста FASMI с комментариями автора.
«FAST (Быстрый) означает, что система должна гарантировать, что большинство ответов пользователей будут возвращены в течение примерно пяти секунд. Самые простые запросы обрабатываются в течение секунды, и очень немногие из них занимают более 20 секунд. Недавнее исследование в Нидерландах показало, что конечные пользователи считают процесс неудачным, если через 30 секунд не было получено никаких результатов. Если система не предупреждает, что обработка данных займет много времени, то пользователь может нажать клавиши «Alt+Ctrl+Del». Даже если система предупредит, что процесс будет значительно дольше, пользователи будут отвлекаться, а качество анализа будет ухудшаться. Такую скорость непросто достичь при больших объемах данных, особенно в случаях, когда требуются специальные оперативные расчеты.
Весь текст будет доступен после покупки