Contactos

Datos de cubos. Jerarquía en mediciones. Jerarquías y niveles.

07/04/2011 Derek comodidad

Si ha tenido que lidiar con cualquier área relacionada con la tecnología, es probable que haya escuchado el término "cubo"; Sin embargo, la mayoría de los administradores habituales y los desarrolladores de bases de datos con estos objetos no funcionaban. Los cubos son una arquitectura de datos efectiva para la rápida agregación de información multidimensional. Si su organización está obligada a realizar el análisis de grandes cantidades de datos, entonces la solución ideal será el cubo.

¿Qué es un cubo?

Las bases de datos relacionales fueron diseñadas para llevar a cabo miles de transacciones paralelas, al tiempo que mantienen el rendimiento y la integridad de los datos. Por su diseño, las bases de datos relacionales no proporcionan eficiencia en agregación y búsqueda de grandes cantidades de datos. Para agregar y devolver grandes cantidades de datos, la base de datos relacional debe obtener una consulta basada en la consulta, información para la cual se recopilará y agregará "en la marcha". Estas solicitudes relacionales son muy caras porque se basan en múltiples compuestos y funciones agregadas; Solicitudes relacionales agregadas especialmente ineficaces cuando se trabaja con grandes matrices de datos.

Los cubos son entidades multidimensionales diseñadas para eliminar la escasez especificada en las bases de datos relacionales. Usando un cubo, puede proporcionar a los usuarios una estructura de datos que proporciona una respuesta rápida a las consultas con grandes cantidades de agregación. Los cubos realizan esta "magia de agregación" por la pre-agregación de datos (mediciones) en varias dimensiones. La agregación preliminar de la Cuba se realiza generalmente durante su procesamiento. Al procesar un cubo, genera los agregados previos calculados de los datos que se almacenan en el formulario binario en el disco.

Cube es un diseño central de los datos en el Sistema de Análisis de Datos OLAP OLAP Analytical SQL Server (SSA). Los cubos generalmente se construyen a partir de la base de datos principal relacionada con el modelo de dimensiones, pero son esencias técnicas separadas. Lógicamente, Cube es un almacén de datos que está compuesto por dimensiones y mediciones (medidas). La dimensión contiene características y jerarquías descriptivas, mientras que las mediciones son los hechos que usted describe en las dimensiones. Las mediciones se combinan en combinaciones lógicas, que se denominan grupos de medición. Se ata la dimensión a los grupos de medición según el signo del detalle.

EN sistema de archivos El cubo se implementa como una secuencia de archivos binarios relacionados. La arquitectura binaria de la Cuba facilita la rápida extracción de grandes volúmenes de datos multidimensionales.

Mencioné que los cubos están construidos con la principal base de datos relacional, llamada modelo de dimensión. El modelo de dimensiones contiene tablas relacionales (hechos y dimensiones), lo que lo une a las entidades del cubo. Las tablas de datos contienen mediciones, como la cantidad de producto vendido. Las tablas de dimensiones son signos descriptivos almacenados, como nombres de productos, fechas y nombres de empleados. Típicamente, la fábrica de los hechos y la tabla de dimensiones se asocian a través de las limitaciones de la clave externa primaria, a pesar de que las claves externas están en la tabla de datos real (esta relación relacional está relacionada con el signo del grado de detalle del grado de detalle. Cuba, que se mencionó anteriormente). Cuando las tablas de dimensión están asociadas directamente con la tabla de hechos, se forma el esquema STAR. Cuando las tablas de dimensiones no están directamente relacionadas con la tabla de datos, se obtiene el esquema de copos de nieve.

Tenga en cuenta que los modelos Dimensiones se clasifican según el alcance de la aplicación. El Showcase de datos es un modelo de dimensiones, que está destinado a un solo proceso de negocio, como las ventas o la gestión de valores. Data Warehouse es un modelo de dimensiones diseñado para cubrir los procesos de negocios compuestos, por lo que contribuye a la analítica cruzada de los procesos de negocios.

Requisitos de Software

Ahora que tiene una comprensión básica de lo que es Cuba y por qué son importantes, incluiré instrumentos e invitarlo a un recorrido paso a paso: construir su primer cubo usando SSAS. Hay algunos componentes básicos del software que necesita, por lo tanto, antes de continuar con la construcción de la primera Cuba, asegúrese de que su sistema cumpla con los requisitos.

Mi ejemplo de los cubo "Ventas a través de Internet" se construirá sobre la base de la base de datos de prueba de AdventureWorksDW 2005. Construiré un cubo de prueba de un subconjunto de las tablas que se encuentran en la base de datos de prueba que será útil para analizar los datos de ventas. a través de Internet. La Figura 1 muestra el diagrama básico de las tablas de la base de datos. Como utilizo la versión 2005, puede seguir mis instrucciones, aplicando SQL Server 2005 o SQL Server 2008.

Figura 1. Subconjunto de la Aventura Works Internet Ventas Data Showcase

La base de datos de capacitación de Aventure WorksdW 2005 se puede encontrar en CodePlex: MSFTDBPRODSAMPLES.CODEPLEX.COM. Encuentre las bases de datos de muestra del producto SQL Server 2005. Todavía están disponibles enlace (http://codeplex.com/msftdbprodsamples/release/projectreleses.aspx?releaseid\u003d4004). La base de datos de capacitación está contenida en el archivo Adventureworksbi.msi (http://msftdbrodsamples.codeplex.com/releseses/View/4004#DownloaDiDin\u003d11755).

Como ya se mencionó, es necesario tener acceso a una instancia de SQL Server 2008 o 2005, incluidos los componentes de SSAS y Business Intelligence Development (Ofertas). Usaré SQL Server 2008, por lo que puede ver algunas diferencias sutiles si usa SQL Server 2005.

Creando un proyecto SSAS

Lo primero que debe hacer es crear un proyecto SSAS utilizando ofertas. Encuentre las ofertas en el menú Inicio y luego en el menú Microsoft SQL Server 2008/2005 Subpárrbolo SQL Server Business Intelligence Development Studio. Cuando haga clic en este botón, iniciará las ofertas con la pantalla POR PATO SCRENSABLER. Cree un nuevo proyecto SSAS seleccionando Archivo, Nuevo, Proyecto. Verá el cuadro de diálogo Nuevo proyecto (nuevo proyecto), que se muestra en la pantalla 1. Seleccione la carpeta Proyecto del proyecto de Analysis Services y especifique la descripción de este proyecto SQLMAG_MYFIRSTCUBE. Haga clic en Aceptar.

Cuando se crea el proyecto, haga clic con el botón derecho en él en el Explorador de soluciones y seleccione Propiedades de propiedades en el menú contextual. Ahora seleccione la sección de implementación en el lado izquierdo del cuadro de diálogo SQLMAG_MYFIRSTCUBE: Páginas de propiedades y verifique la configuración de la configuración de Configuración de la base de datos del servidor y la base de datos, como se muestra en la pantalla 2. Si trabaja en un entorno de SQL Server distribuido, necesita Aclare el valor de la propiedad del servidor de destino a quien va a hacer implementación. Haga clic en Aceptar cuando organizará la configuración de implementación instalada para este proyecto SSAS.

Definición de fuente de datos

El primer objeto a ser creado es la fuente de datos. El objeto de origen de datos proporciona un circuito y datos utilizados para construir un cúbico y ubicado en sus objetos base. Para crear un objeto de la fuente de datos en ofertas, use el maestro de origen datos de datos Asistente de origen.

Inicie el asistente de origen de datos con un clic derecho en la carpeta de origen de datos en el panel Explorador de soluciones, desde el nuevo elemento de origen de datos. Encontrará que la creación de objetos SSAS en ofertas tiene la naturaleza del desarrollo. Primero, el asistente lo mantiene a través del proceso de creación de un objeto y configuración general. Y luego abre el objeto SSAS resultante en el diseñador y ajústelo en detalle si es necesario. Tan pronto como pase la pantalla de invitación, determine la nueva conexión con los datos presionando el botón Nuevo. Seleccione y cree una nueva conexión basada en el cliente nativo de OLEDB \\ SQL Server 10, lo que indica el servidor SQL deseado para usted, que posee la instancia de la base de datos deseada. Puede usar la autenticación de Windows o SQL Server, dependiendo de la configuración ambiente Servidor SQL. Presione el botón de conexión de prueba para asegurarse de que definí correctamente la conexión a la base de datos, y luego el botón OK.

A continuación, se sigue información de la impersonación, que, así como la comunicación con los datos, depende de cómo se dispare el entorno del servidor SQL. Los derechos de préstamo es el contexto de seguridad a la que se basa SSAS, procesando sus objetos. Si administra la implementación en el principal, el único servidor (o computadora portátil), como supongo, la mayoría de los lectores, simplemente puede seleccionar una opción para usar la cuenta de Servicio de cuenta de uso. Haga clic en Siguiente para completar el asistente de origen de datos y configurar el AWDW2005 como el nombre de la fuente de datos. Es bastante conveniente que este método se pueda usar para fines de prueba, pero en un entorno de producción real, esta no es la mejor práctica: use la cuenta de servicio. Es mejor especificar las cuentas de dominio para pedir los derechos de conexión de SSAS de préstamo a una fuente de datos.

Representación de la fuente de datos.

Para la fuente de datos definida por usted en el siguiente paso durante la construcción del CUBE SSAS, debe crear una vista de Vista de origen de datos (DSV). DSV proporciona la capacidad de dividir el circuito que se espera su CUBO, de un esquema similar de la base de datos principal. Como resultado, DSV se puede usar para expandir el principal esquema relacionatorio al construir un cubo. Algunas de las características clave de DSV para expandir los circuitos de fuentes de datos incluyen solicitudes denominadas, relaciones lógicas entre tablas y nombradas columnas calculadas.

Vamos a ir más allá, haga clic con el botón derecho en la carpeta DSV y seleccione el nuevo elemento de vista de origen de datos para iniciar el nuevo asistente de Vistas DSV. En el cuadro de diálogo Seleccionar un origen de datos, seleccione una conexión a la base de datos relacionales y haga clic en el botón Siguiente. Seleccione FactInternetsales, Dimproduct, DimTime, Dimcustomer Tablas y haga clic en el botón de flecha individual para mover estas tablas en la columna incluida. Finalmente, haga clic en Siguiente y complete el asistente, tomando el nombre predeterminado y presionando el botón Finalizar.

En esta etapa, debe tener una vista DSV, que se encuentra debajo de la carpeta Vistas de origen de datos en Solution Explorer. Haga doble clic en el nuevo DSV para iniciar el constructor DSV. Debe ver las cuatro mesas para este DSV, como se muestra en la Figura 2.

Creando dimensiones de la base de datos

Como explicé anteriormente, la dimensión proporciona signos descriptivos de mediciones y jerarquías que se utilizan para garantizar la agregación por encima del nivel de nivel. Es necesario comprender la diferencia entre la dimensión de la base de datos y el tamaño del cubo: la dimensión de la base de datos proporciona objetos de dimensiones básicas para varias dimensiones de cubo para las cuales se construirá.

Las dimensiones de la base de datos y el cubo proporcionan una solución elegante para el concepto conocido como "Dimensiones de juego de roles". Las dimensiones de juego de roles se aplican cuando necesite usar la única dimensión en Cuba muchas veces. La fecha es un excelente ejemplo en esta instancia de Cuba: construirá la única dimensión de la fecha y se refirió a ella una vez para cada fecha para la cual desea analizar las ventas a través de Internet. La fecha del calendario será la primera dimensión que creará. Haga clic con el botón derecho en la carpeta Dimensiones en el Explorador de soluciones y seleccione una nueva dimensión para iniciar el asistente de dimensión de Dimension Wizard. Seleccione Use una tabla existente y haga clic en Siguiente en el método Seleccionar creación de métodos de creación. En la fuente de fuentes de la fuente de la fuente de la fuente Fuente Fuente de la fuente Especifique la tabla DimTime en la lista desplegable de la tabla principal y haga clic en el botón Siguiente. Ahora, en los pasos de selección de selección, los síntomas de atributos de Dimensión Seleccionar, debe seleccionar los atributos de la dimensión del tiempo. Seleccione cada atributo como se muestra en la pantalla 3.

Haga clic en Siguiente. En el paso final, ingrese la fecha tenue en el campo Nombre y presione el botón Finalizar para completar el asistente de dimensión. Ahora debe ver una nueva dimensión de dimensión ubicada en la carpeta Dimensiones en Solutions Explorer.

Luego use el asistente de dimensión para crear el tamaño de los productos y el cliente. Realice los mismos pasos para crear una dimensión básica como antes. Trabajar con el asistente de dimensión, asegúrese de elegir todos los signos potenciales en el paso Seleccionar atributos de Dimension. Los valores predeterminados para otras configuraciones son bastante adecuados para una instancia de un cubo de prueba.

Creando un cubo de ventas en internet

Ahora, habiendo preparado la dimensión de la base de datos, puede comenzar a construir un cubo. En Solutions Explorer, haga clic con el botón derecho en la carpeta Cubes y seleccione Nuevo CUBE para iniciar el CUBE Wizard Cube Master. En la ventana Seleccionar método de creación, seleccione Usar la opción tablas existentes Use las tablas existentes. Seleccione la tabla FactInternetsales para el grupo de medida en los pasos de selección de selección de tablas de cuadros de grupos de selección. Retire la casilla de verificación junto a las mediciones de la clave de promoción, la clave de la moneda, la clave del territorio de ventas y el número de revisión en SELECT MEDIDAS Paso y haga clic en Siguiente.

En la pantalla Seleccionar Dimensiones existentes, asegúrese de que todas las dimensiones de la base de datos existentes se seleccionen para usarlas aún más como una dimensión de cubo. Como me gustaría hacer que este cubo sea tan simple posible, deseleccione el tamaño de FactInternetsales en la nueva etapa de dimensiones. Dejando la dimensión de FactInternetsales elegidos, crearía lo que se llama la dimensión del hecho o la dimensión degenerada. La dimensionalidad del hecho es la dimensión que se creó utilizando la fábrica principal de los hechos en lugar de la tabla tradicional de dimensiones.

Haga clic en el botón Siguiente para ir a completar el asistente e ingrese "Mi primer cubo" en el campo Nombre Cuba. Presione el botón Finalizar para completar el trabajo del asistente de creación de CUBE.

Desplegando y procesando cubo.

Ahora todo está listo para la implementación y el procesamiento del primer cubo. Haga clic con el botón derecho en el nuevo icono de CUBE en Solutions Explorer y seleccione Process. Verá una ventana con un mensaje de que el contenido parece desactualizado. Haga clic en Sí para implementar un nuevo cubo en el servidor de destino SSAS. Al implementar un cubo, envía el archivo XML para analisis (XMLA) al servidor de destino SSAS que crea un cubo en el propio servidor. Como ya se mencionó, el procesamiento de Cuba llena sus archivos binarios en el disco de datos de la fuente principal, así como metadatos adicionales que ha agregado (configuración de dimensión, medición y cubo).

Tan pronto como se complete el proceso de implementación, aparece un cuadro de diálogo Nuevo proceso de cubo. Presione el botón RUN para iniciar el proceso de procesamiento de CUBE que abre la ventana del progreso del proceso. Cuando se complete el procesamiento, haga clic en el botón Cerrar (dos veces para cerrar ambos cuadros de diálogo) para completar los procesos de implementación y procesar el cubo.

Ahora ha construido, desplegado y procesado su primer cubo. Puede ver este nuevo cubo haciendo clic con el botón derecho en la ventana del Explorador de soluciones y eligiendo Navegar. Arrastre las medidas al centro de la tabla de pivote y los atributos de las dimensiones por líneas y columnas para explorar su nuevo cubo. Tenga en cuenta que la rapidez del cubo trabaja varias solicitudes con agregación. Ahora puede estimar poder ilimitado y, significa, valor comercial, Cuba Olap.

Derek comiendo ( [Correo electrónico protegido]) - Arquitecto Senior en la empresa B. I. Voyage, que tiene el estado de Microsoft Partner en el campo de la inteligencia empresarial. Tiene el título SQL Server MVP y varios certificados de Microsoft



OLAP no es un producto de software separado, no un lenguaje de programación y ni siquiera una tecnología específica. Si intenta cubrir OLAP en todas sus manifestaciones, este conjunto de conceptos, principios y requisitos que subyacen a los productos de software que facilitan el acceso a los datos. Descubrir para qué Los analistas necesitan de alguna manera especialmente facilitar Acceso a los datos.

El hecho es que los analistas son consumidores especiales de información corporativa. Análisis de tareas: encontrar regularidades en grandes matrices de datos. Por lo tanto, el analista no prestará atención a un hecho separado que el jueves se vendió el cuarto número de la contraparte de Chernov por una fiesta de tinta negra, necesitaba información. alrededor de cientos y miles Eventos similares. Los hechos individuales en la base de datos pueden estar interesados, por ejemplo, un contador o jefe del departamento de ventas, cuya competencia es la transacción. El análisis de un registro no es suficiente: para él, por ejemplo, es posible que necesiten todas las transacciones de esta rama o representación para el mes, año. Al mismo tiempo analista lanza lejos Detalles innecesarios como el comprador de la posada, su dirección exacta y su número de teléfono, el índice de contrato y similares. Al mismo tiempo, los datos que requieren análisis para trabajar deben contener necesariamente valores numéricos, esto se debe a la mayoría de las actividades de sus actividades.

Entonces, el analista necesita muchos datos, estos datos son selectivos, y también se preocupan " conjunto de atributos - Número". Este último significa que el analista trabaja con las siguientes tablas:

Aquí " País", "Producto", "Año"son atributos o mediciones, pero " Volumen de ventas" - de este modo significado numérico o la medida. La tarea analítica, la repetición, es identificar las relaciones persistentes entre los atributos y los parámetros numéricos.. Mirando la mesa, se puede observar que se puede traducir fácilmente en tres dimensiones: en uno de los ejes que posponemos a los países, por otro lado, los bienes, en el tercero. Y los valores en esta matriz tridimensional tendremos los volúmenes de ventas correspondientes.

Presentación tridimensional de la tabla. El segmento gris se muestra que para Argentina en 1988 no hay datos

Esa es la matriz tridimensional en términos de OLAP y se llama CUBE. De hecho, desde el punto de vista de las matemáticas estrictas, tal matriz no siempre será: en esta Cuba, el número de elementos en todas las dimensiones debe ser el mismo, y no hay tales restricciones de los cubos OLAP. Sin embargo, a pesar de estos detalles, el término "Cuba OLAP" debido a su brevedad y la imagen se aceptó en general. Olap Cube no necesariamente tiene que ser tridimensional. Puede ser de dos y multidimensionales, dependiendo de la tarea siendo resuelta. Particularmente los analistas de MATE pueden necesitar aproximadamente 20 mediciones, y los productos OLAP graves están en tal cantidad y calculados. Aplicaciones de escritorio más simples Soporte en algún lugar 6 mediciones.

Mediciones Los cubos OLAP consisten en los llamados misterna o miembros (miembros). Por ejemplo, la medición del "país" consiste en las marcas "Argentina", Brasil, "Venezuela", etc.

No se deben llenar todos los elementos de Cuba: si no hay información sobre las ventas de productos de caucho en Argentina en 1988, el valor en la celda correspondiente simplemente no se determinará. También es absolutamente opcionalmente que la aplicación OLAP almacene los datos sin duda en una estructura multidimensional, lo principal es que para el usuario se ve así. Por cierto, son métodos especiales precisamente para el almacenamiento compacto de datos multidimensionales, "vacío" (elementos sin rellenar) en los cubos, no conducen a un tiempo de memoria inútil.

Sin embargo, el Cube en sí no es adecuado para su análisis. Si aún puede enviar o representar adecuadamente un cubo tridimensional, entonces de seis o diecieteiméteres es mucho peor. por lo tanto antes de usar de cubo multidimensional tablas bidimensionales. Esta operación se llama CUBO "CORTE". Este término, de nuevo, con forma. Analista como si toma y "corta" las mediciones de la Cuba por sus intereses. De esta manera, el analista recibe una Cuba de corte bidimensional y funciona con él. Aproximadamente los mismos loggers consideran los anillos anuales en el hechizo.

En consecuencia, solo dos dimensiones permanecen "continuadas", según el número de mediciones de tabla. Sucede, solo la medición permanece "sin cortar": si el cubo contiene varios tipos de valores numéricos, se pueden posponer una de las mediciones de la tabla.

Si aún se ve más estrechamente en la tabla, en la que se nos mostró primero, puede ver que los datos en él son más probables que no son primarios, y se obtienen como resultado suma Para elementos más pequeños. Por ejemplo, un año se divide en bloques, cuartos durante meses, meses durante semanas, semanas durante días. El país consta de las regiones, y las regiones de los asentamientos. Finalmente, en las propias ciudades, las áreas y los puntos de negociación específicos se pueden distinguir. Los bienes se pueden combinar en grupos de productos básicos, etc. En términos de OLAP, tales uniones de varios niveles son completamente lógicos. jerarquia. Las herramientas OLAP permiten en cualquier momento para cambiar al nivel deseado de la jerarquía. Además, como regla general, se admiten varios tipos de jerarquías para los mismos elementos: por ejemplo, un mes mes a mes o un día de decama. Los datos iniciales se toman de los niveles más bajos de la jerarquía, y luego se resumen para obtener los valores de los niveles más altos. Para acelerar el proceso de transición, los valores resumidos para diferentes niveles se almacenan en Cuba. Por lo tanto, el hecho de que del usuario se vea como un cubo, habla aproximadamente, consiste en una variedad de cubos más primitivos.

Ejemplo de jerarquía

Este es uno de los momentos sustanciales que llevaron a la aparición de OLAP - rendimiento y eficiencia. Imagine lo que sucede cuando el analista necesita recibir información, y no hay herramientas OLAP en la empresa. Un analista de forma independiente (que es poco probable) o el uso del programador hace que la consulta de SQL correspondiente y recibe los datos de interés en el informe o los exporte a la hoja de cálculo. Los problemas surgen un gran conjunto. Primero, el analista se ve obligado a participar para no trabajar con su trabajo (programación de SQL) o esperar la tarea, los programadores se realizarán, todo esto afecta negativamente la productividad del trabajo, los asaltos están aumentando, el infarto y el nivel de trazo y así. En segundo lugar, un solo informe o tabla, por regla general, no guarda a los gigantes del pensamiento y los padres del análisis ruso, y todo el procedimiento deberá repetirse una y otra vez. En tercer lugar, como ya hemos encontrado, los analistas en las triples no preguntan: necesitan todo lo inmediatamente. Esto significa (aunque la técnica y avanza con pasos de siete millas) que el servidor de la DBMS relacionales corporativos a los que se basa el analista, puede pensar en profundidad y durante mucho tiempo, bloqueando las otras transacciones.

El concepto de OLAP apareció específicamente para resolver tales problemas. Cuba Olap es esencialmente meta-informes. Corte META-INFORMES (Cuba, es decir,) para mediciones, el analista recibe, de hecho, los informes bidimensionales "ordinarios" que le interesan (esto no es necesariamente informes en la comprensión habitual de este término, estamos hablando de datos de datos. Estructuras con las mismas funciones). Las ventajas de los cubos son obvias: los datos deben solicitarse a partir de la DBM relacional solo una vez, al crear un cubo. Dado que los analistas, por regla general, no trabajen con información que se complementan y cambien "sobre la marcha", el cubo formado es relevante para un tiempo suficientemente largo. Debido a esto, no solo excluye las interrupciones en la operación del servidor DBMS relacional (no hay consultas con miles y millones de líneas de respuestas), sino que también aumenta bruscamente la velocidad de acceso a los datos para el propio analista. Además, como ya se señaló, el desempeño aumenta y contando las sumas intermedias de jerarquías y otros valores agregados en el momento de construir un cubo. Es decir, si inicialmente nuestros datos contenían información sobre los ingresos diarios de un producto en particular en una tienda por separado, al formar una aplicación OLAP de Cuba considera resultados para diferentes niveles de jerarquías (semanas y meses, ciudades y países).

Por supuesto, para el aumento de esta forma de desempeño es necesario pagar. A veces dicen que la estructura de datos simplemente "explota": el cubo OLAP puede ocupar en docenas e incluso cientos de veces más espacio que los datos de origen.

Responde a las preguntas:

    Qué cúbico OLAP?

    Qué etiquetas Medición específica? Crear ejemplos.

    Pueden ellos medidas En Cuba Olap, contienen valores no numéricos.

Los cubos de datos OLAP (procesamiento analítico en línea: análisis de datos operativos) le permiten eliminar y analizar efectivamente los datos multidimensionales. A diferencia de otros tipos de bases de datos, la base de datos OLAP está diseñada específicamente para el procesamiento analítico y extraer rápidamente todo tipo de conjuntos de datos. De hecho, existen varias diferencias clave entre las bases de datos relacionales estándar, como el acceso o el servidor SQL, y las bases de datos OLAP.

Higo. 1. Para conectar un cubo OLAP al libro de Excel, use el equipo. De los servicios del analista

Descargar nota en formato o

En las bases de datos relacionales, la información se presenta en forma de registros que se agregan, se eliminan y se actualizan secuencialmente. En las bases de datos OLAP, solo se almacena una instantánea de los datos. En la base de datos OLAP, la información se archiva en forma de un solo bloque de datos y está destinado solo para la salida a pedido. Aunque en la base de datos OLAP y puedes agregar nueva informaciónLos datos existentes rara vez se editan y más eliminan.

Las bases de datos relacionales y la base de datos OLAP difieren estructuralmente. Las bases de datos relacionales generalmente consisten en un conjunto de tablas que están interconectadas. En algunos casos, la base de datos relacional contiene tantas tablas, que es muy difícil determinar cómo todavía están conectadas. En las bases de datos OLAP, la conexión entre los bloques de datos individuales se determina por adelantado y persiste en la estructura conocida como la OLAP Cuba. En los cubos de datos, se almacenan información completa sobre la estructura jerárquica y las conexiones de la base de datos, que simplifiquen en gran medida la navegación en ella. Además, es mucho más fácil crear informes, si lo sabe con anticipación, donde se encuentran los datos recuperables y qué otros datos están conectados.

La principal diferencia entre bases de datos relacionales y bases de datos OLAP es almacenar información. Los datos en Cuba Olap rara vez se representan en general. Los cubos de datos OLAP generalmente contienen información proporcionada en un formato predeterminado. Por lo tanto, las operaciones de agrupación, filtrado, clasificación y combinación de datos en los cubos se realizan antes de completar su información. Esto hace que la extracción y salida de los datos solicitados sean un procedimiento simplificado. A diferencia de las bases de datos relacionales, no es necesario agilizar la información correctamente antes de visualizarla en la pantalla.

Las bases de datos OLAP suelen ser creadas y respaldadas por los administradores del departamento de TI. Si su organización no tiene una estructura que sea responsable de administrar las bases de datos OLAP, puede comunicarse con el administrador de la base de datos relacional para implementar al menos soluciones OLAP separadas en la red corporativa.

Conectar a Olap Cuba

Para acceder a la base de datos OLAP, primero debe conectarse a la OLAP Cuba. Comience con la transición a la pestaña Ribbon Datos. Haga clic en el botón De otras fuentes y seleccione el comando en el menú desplegable De los servicios del analista (Figura 1).

Al seleccionar el comando especificado del asistente de conexión de datos (Fig. 2). Su principal tarea es ayudarlo a establecer una conexión con el servidor que será utilizado por el programa de Excel al administrar los datos.

1. Primero debe proporcionar información de registro de Excel. Ingrese el nombre del servidor, nombre de inicio de sesión y contraseña para el cuadro de diálogo Acceso a datos como se muestra en la FIG. 2. Haga clic en el botón Más. Si se conecta utilizando la cuenta registros de WindowsLuego configura el interruptor Utilice la autenticación de Windows.

2. Seleccione la base de datos en la lista desplegable con la que trabajará (Fig. 3). En el ejemplo actual, se utiliza la base de datos de Tutorial de Servicios de Análisis. Después de seleccionar esta base de datos, la lista a continuación está invitada a importar todos los cubos OLAP disponibles en ella. Seleccione los datos de CUBE requeridos y haga clic en el botón. Más.

Higo. 3. Seleccione una base de datos de trabajo y un cubo OLAP, que planean solicitar el análisis de datos.

3. En el siguiente cuadro de diálogo, el asistente se muestra en la FIG. 4, debe ingresar una información descriptiva sobre la conexión creada. Todos los campos del cuadro de diálogo que se muestran en la FIG. 4, no requerido para llenar. Siempre puede ignorar el cuadro de diálogo actual sin llenarlo, y no afectará las conexiones.

Higo. 4. Cambiar información de conexión descriptiva.

4. Haga clic en el botón ListoPara completar la conexión. Aparece un cuadro de diálogo en la pantalla. Importaciones de datos (Fig. 5). Establecer el interruptor Informe de la tabla consolidada y haga clic en el botón OK para comenzar a crear una tabla de pivote.

Cuba estructura olap.

En el proceso de crear una tabla de pivotes basada en la base de datos OLAP, notará que la ventana del área de tareas Campos de la tabla consolidada. Se diferirá de eso para la tabla de pivote habitual. La razón está en ordenar la tabla de pivote para poder visualizar de cerca la estructura de la estructura del cubo OLAP que se le adjunta. Para maximizar la OLAP Cuba lo más rápido posible, es necesario familiarizarse con sus componentes y métodos de su interacción. En la Fig. 6 muestra la estructura básica de un cubo OLAP típico.

Como puede ver, los componentes principales del cubo OLAP son la dimensión, la jerarquía, los niveles, los miembros y las medidas:

  • Dimensión. La característica principal de los elementos de datos analizados. Los ejemplos más comunes de dimensiones incluyen productos (bienes), cliente (comprador) y empleado (empleado). En la Fig. 6 muestra la estructura de los productos de dimensión.
  • Jerarquía. Agregación de nivel predefinido en la dimensión especificada. La jerarquía le permite crear datos de resumen y analizarlos en varios niveles de la estructura, no entregados en relaciones que existen entre estos niveles. En el ejemplo mostrado en la FIG. 6, los productos de dimensión tienen tres niveles que se agregan en una sola jerarquía de categorías de productos (categorías de bienes).
  • Niveles. Los niveles son categorías que se agregan en una jerarquía común. Considere los niveles de los campos de datos que se pueden solicitar y analizar por separado entre sí. En la Fig. 6 Son solo tres niveles: categoría (categoría), subcategoría (subcategoría) y nombre del producto (nombre del producto).
  • Miembros. Elemento de datos separado dentro de la dimensión. El acceso a los miembros generalmente se implementa a través de la estructura olar, las dimensiones, las jerarquías y los niveles. En el ejemplo en la FIG. 6 Los miembros se especifican para el nivel del nombre del producto. Otros niveles tienen a sus miembros que no se muestran en la estructura.
  • Medidas - Estos son datos reales en cubos OLAP. Las medidas se conservan en sus propias dimensiones, que se denominan dimensiones de las medidas. Con la ayuda de una combinación arbitraria de dimensiones, jerarquías, niveles y miembros puede solicitar medidas. Un procedimiento similar se denomina medidas de "corte".

Ahora que ha familiarizado con la estructura de los cubos OLAP, echemos un vistazo a la lista de los campos de tabla pivote. La organización de los campos disponibles se aclara y no causa quejas. En la Fig. 7 muestra cómo se presentan los elementos de la tabla de resumen OLAP en la lista de campo.

En la lista de campos de tabla de resumen de OLAP, las medidas se muestran primero e indican primero el ícono de suma (SIGMA). Estos son los únicos elementos de datos que pueden estar en el área de valor. Después de ellos, la lista indica la dimensión indicada por el icono con la imagen de la tabla. En nuestro ejemplo, se utiliza la dimensión del cliente. Esta dimensión se invierte en una serie de jerarquías. Después de implementar una jerarquía, puede familiarizarse con ciertos niveles de datos. Para ver la estructura de datos del cubo OLAP, es suficiente para navegar a través de la lista de los campos de la tabla de pivote.

Restricciones impuestas en las mesas resumidas OLAP.

Trabajando con las tablas consolidadas OLAP, se debe recordar que la interacción con la fuente de datos de la tabla consolidada se realiza en el entorno de OLAP de Servicios de Análisis. Esto significa que cada aspecto de comportamiento del cubo de datos, comenzando con dimensiones y finalización con las medidas que se incluyen en el cubo también está controlado por los servicios analíticos OLAP. A su vez, esto conduce a restricciones impuestas a las operaciones que se pueden realizar en las tablas de resumen OLAP:

  • no se puede colocar en el valor del valor del campo de la tabla de campo, diferente de las medidas;
  • es imposible cambiar la función utilizada para resumir;
  • no puede crear un campo calculado o un elemento calculado;
  • cualquier cambio en los nombres de campo se cancele inmediatamente después de eliminar este campo de la tabla consolidada;
  • no está permitido cambiar los parámetros del campo de la página;
  • el equipo no está disponible. Showpáginas;
  • parámetro deshabilitado Showfirmaselementos en ausencia de campos en el campo de los valores;
  • parámetro deshabilitado Sumas intermedias en los elementos de la página de filtro seleccionados;
  • parámetro inaccesible Fondoconsulta;
  • después de hacer clic doble, solo se devuelven las primeras 1000 entradas de la tabla Cowl Kesh;
  • casilla de verificación no disponible Optimizarmemoria.

Creando cubos de datos autónomos.

En la tabla de resumen estándar, los datos de origen se almacenan en un disco duro local. Por lo tanto, siempre puede administrarlos, así como cambiar la estructura, ni siquiera tener acceso a la red. Pero esto no concierne de ninguna manera las tablas resumidas OLAP. En las tablas de resumen, el caché OLAP no se encuentra en el disco duro local. Por lo tanto, inmediatamente después de la desconexión de la red local, su tabla OLAP consolidada perderá el rendimiento. No podrá mover un solo campo en tal tabla.

Si aún necesita analizar los datos OLAP en ausencia de conexión de red, cree un cubo de datos autónomos. Este es un archivo separado que es una tabla de derechos de autor. Este archivo almacena los datos OLAP que se vieron después de desconectar desde la red local. Para crear un cubo de datos autónomos, primero cree una tabla OLAP consolidada. Coloque el cursor en la tabla de pivote y haga clic en el botón. Olap Análisis de la pestaña contextual incluida en el conjunto de pestañas contextuales. Trabajar con tablas consolidadas.. Selecciona un equipo Modo offline OLAP. (Fig. 8).

Aparece un cuadro de diálogo en la pantalla. Configurando Olap Offline (Fig. 9). Haga clic en el botón Crear un archivo de datos independiente. La primera ventana del archivo Cube Cube crea que aparece la pantalla en la pantalla. Haga clic en el botón MásPara continuar el procedimiento.

En el segundo paso (Fig. 10), especifique la dimensión y los niveles que se incluirán en los datos de CUBE. En el cuadro de diálogo, seleccione los datos importados de la base de datos OLAP. Es necesario resaltar solo las dimensiones que se necesitarán después de desconectar la computadora de la red local. Las más dimensiones indican, cuanto más largo sea el tamaño tendrá un cubo autónomo de datos.

Haga clic en el botón Más Para cambiar al tercer paso (Fig. 11). En esta ventana, seleccione Miembros o elementos de datos que no se incluirán en el cubo. Si la casilla de verificación no está configurada, el elemento especificado no se importará y tomará un exceso de lugar en el disco duro local.

Especifique la ubicación y el nombre del cubo de datos (Fig. 12). Los archivos cúbicos de datos tienen extensión. Cachorro.

Después de algún tiempo, Excel guardará el cubo autónomo de los datos en la carpeta especificada. Para probarlo, haga doble clic en el archivo, que conducirá a la generación automática del libro de trabajo de Excel, que contiene una tabla consolidada asociada con el cubo de datos seleccionado. Después de crear, puede extender el cubo de datos autónomos entre todos los usuarios interesados \u200b\u200bque trabajan en el modo de red local deshabilitado.

Después de conectarse a la red local, puede abrir el archivo del cubo de datos fuera de línea y actualizarlo, así como la tabla de datos correspondiente. Tenga en cuenta que aunque el cubo de datos autónomos se aplica en ausencia de acceso a la red, es obligatorio actualizado después de restaurar la conexión a la red. Un intento de actualizar el cubo de datos autónomos después de romper la conexión a la red causará una falla.

Aplicar las funciones del cubo de datos en las tablas consolidadas.

Las funciones de cubo que se utilizan en las bases de datos OLAP se pueden iniciar desde una tabla consolidada. En las versiones obsoletas de Excel, recibió acceso a las funciones de los cubos de datos solo después de instalar la superestructura del paquete de análisis. En Excel 2013, estas funciones están incrustadas en el programa, y \u200b\u200bpor lo tanto están disponibles para su uso. Para familiarizarse completamente con sus capacidades, considere un ejemplo específico.

Una de las formas más simples de estudiar las funciones del cubo de datos es convertir la tabla de resumen OLAP en la fórmula CUBE. Este procedimiento es muy simple y le permite obtener rápidamente las fórmulas de cubo, sin crearlas desde cero. El principio clave es reemplazar todas las células en la tabla de resumen por fórmulas asociadas con la base de datos OLAP. En la Fig. 13 muestra una tabla de resumen asociada a la base de datos OLAP.

Coloque el cursor en cualquier lugar de la tabla de pivote, haga clic en el botón Olap Tabla de cinta contextual Análisis Y seleccione el equipo Convertir a fórmula (Fig. 14).

Si su tabla de pivote contiene un campo de filtro de informe, aparece un cuadro de diálogo que se muestra en la figura en la pantalla. 15. En esta ventana, especifique si necesita transformarse en los filtros de datos desplegables de fórmulas. Con una respuesta positiva, las listas desplegables se eliminarán y se mostrarán fórmulas estáticas. Si planea usar las listas desplegables para cambiar el contenido de la tabla PIVOT, luego restablecer la casilla de verificación SUS SUS ACTUALIZADOR. Si trabaja en una tabla consolidada en el modo de compatibilidad, los filtros de datos se convertirán a la fórmula automáticamente, sin previo aviso.

Se muestran algunos segundos, en lugar de una tabla de resumen, se muestran fórmulas, que se realizan en cubos de datos y proporcionan una salida en la ventana de Excel. información necesaria. Tenga en cuenta que los estilos aplicados anteriormente se eliminan (Fig. 16).

Higo. 16. Echa un vistazo a la fila de fórmula: en las celdas contienen las fórmulas del cubo de datos.

Dado el hecho de que los valores que observa ahora no forman parte del objeto de tabla pivote, puede agregar columnas, cadenas y elementos calculados, combinarlos con otras fuentes externas, así como cambiar el informe a la mayoría de muchas maneras, Incluyendo fórmulas de arrastre.

Añadiendo computación a las tablas de resumen OLAP

En versiones anteriores de Excel, no se permitió la computación personalizada en las tablas de resumen OLAP. Esto significa que las tablas resumidas OLAP era imposible agregar un nivel adicional de análisis. Del mismo modo, se realiza en las tablas de resumen convencionales que adoptan los campos y elementos calculados (para más detalles, ver; Antes de continuar leyendo, asegúrese de que esté familiarizado con este material).

En Excel 2013, han aparecido nuevas herramientas OLAP: medidas computables y elementos calculados de expresiones multidimensionales. Ahora no se limita al uso de medidas y elementos en el OLAP Cuba proporcionado por el administrador de la base de datos. Obtiene características de análisis adicionales creando computación personalizada.

Conocimiento con MDX.Cuando se usa una tabla de pivote con OLAP CUBE, envía la base de datos de consultas MDX (expresiones multidimensionales - expresiones multidimensionales). MDX es un lenguaje de consulta utilizado para obtener datos de fuentes multidimensionales (por ejemplo, de cubos OLAP). En el caso de un cambio o actualización de la tabla Resumen OLAP, la base de datos OLAP transmite las solicitudes de MDX correspondientes. Los resultados de la consulta se devuelven a Excel y se muestran en el área de la tabla de pivote. Esto garantiza la posibilidad de trabajar con datos OLAP sin una copia local de las tablas crestadas.

Al crear las medidas y elementos calculados de expresiones multidimensionales, se utiliza la sintaxis de lenguaje MDX. Con esta sintaxis, la tabla consolidada proporciona interacción con el cálculo con la parte del servidor de la base de datos OLAP. Los ejemplos considerados en el libro se basan en las estructuras MDX básicas que muestran nuevas características de Excel 2013. Si necesita crear medidas computables complejas y elementos de expresiones multidimensionales, tendrá que pasar tiempo en un estudio más profundo de las capacidades MDX.

Creando medidas calculadas.La medida calculada es una versión OLAP del campo calculado. La idea es crear un nuevo campo de datos basado en algunas operaciones matemáticas realizadas con respecto a los campos OLAP existentes. En el ejemplo mostrado en la FIG. 17, se usa una tabla OLAP consolidada, que incluye una lista y cantidad de bienes, así como los ingresos de la venta de cada uno de ellos. Debe agregar una nueva medida, que calculará el precio promedio por unidad de bienes.

Análisis Trabajar con tablas consolidadas.. En el menú desplegable Olap Seleccione (Fig. 18).

Higo. 18. Seleccione el elemento del menú. Medida calculada de expresión multidimensional.

Aparece un cuadro de diálogo en la pantalla. Creando una medida computada (Fig. 19).

Sigue estos pasos:

2. Seleccione un grupo de medidas en las que será una nueva medida calculada. Si esto no se hace, Excel colocará automáticamente una nueva medida en el primer grupo de medidas accesibles.

3. En el campo Expresión multidimensional (MDX) Ingrese el código especificando un nuevo modo. Para acelerar el proceso de entrada, use la lista de mano izquierda para seleccionar las medidas existentes que se utilizarán en los cálculos. Haga doble clic en el diseñador para agregarlo en el campo de expresión multidimensional. Para calcular el precio promedio de vender una unidad de bienes, se utiliza la siguiente expresión multidimensional:

4. Haga clic en Aceptar.

Tenga en cuenta el botón Compruebe mdxque se encuentra en el lado derecho de la ventana. Haga clic en este botón para verificar la exactitud de la sintaxis de la expresión multidimensional. Si la sintaxis contiene errores, aparecerá el mensaje correspondiente.

Después de completar la creación de una nueva medida calculada, vaya a la lista. Campos de la tabla consolidada. y selecciónelo (Fig. 20).

El alcance de la medida calculada se aplica solo al libro actual. En otras palabras, las medidas calculadas no se crean directamente en el servidor OLAP Cuba. Esto significa que nadie puede acceder a la medida calculada, a menos que se abra acceso general Al libro de trabajo o no publicarlo en internet.

Creación de elementos calculados de expresiones multidimensionales.El elemento calculado de la expresión multidimensional es una versión OLAP del elemento calculado habitual. La idea es crear un nuevo elemento de datos basado en algunas operaciones matemáticas realizadas con respecto a los elementos OLAP existentes. En el ejemplo mostrado en la FIG. 22, se usa una tabla OLAP consolidada, incluida la información de ventas para 2005-2008 (con trimestral descompuesto). Supongamos que necesita realizar la agregación de datos relacionados con el primer y segundo trimestres, creando un nuevo elemento de la primera mitad del año (primera mitad del año). También combine los datos relacionados con los cuartos de tercer y cuarto, habiendo formado un nuevo elemento de la segunda mitad del año (segunda mitad del año).

Higo. 22. Vamos a agregar nuevos elementos calculados de expresiones multidimensionales, la primera mitad del año y la segunda mitad del año.

Coloque el cursor en cualquier lugar de la tabla consolidada y seleccione la pestaña Contexto Análisis de un conjunto de pestañas contextuales Trabajar con tablas consolidadas.. En el menú desplegable Olap Seleccione Elemento calculado de la expresión multidimensional. (Fig. 23).

Aparece un cuadro de diálogo en la pantalla. (Fig. 24).

Higo. 24. Ventana Creando un elemento calculado

Sigue estos pasos:

1. Asigne el mismo nombre calculado.

2. Seleccione la jerarquía de padres para los que se crean nuevos elementos calculados. En el sitio de construcción Elemento parental Nombre Todo. Gracias a esta configuración, Excel obtiene acceso a todos los elementos de la jerarquía de padres al calcular la expresión.

3. En la ventana Expresión multidimensional Ingrese la sintaxis de una expresión multidimensional. Para ahorrar un poco de tiempo, use la lista mostrada para seleccionar los elementos existentes utilizados en términos multidimensionales. Haga doble clic en el elemento seleccionado, y Excel lo agregará a la ventana. Expresión multidimensional. En el ejemplo mostrado en la FIG. 24, la cantidad de los primeros y segundos trimestres se calcula:

..&& +

.. && +

.. && + …

4. Haga clic en Aceptar. Excel mostrará el elemento calculado más creado de la expresión multidimensional en la tabla consolidada. Como se muestra en la FIG. 25, el nuevo elemento calculado se muestra junto con otros elementos calculados de la tabla consolidada.

En la Fig. 26 ilustra un proceso similar utilizado para crear una segunda mitad calculada elemento de año.

Nota: Excel ni siquiera intenta eliminar los elementos iniciales de la expresión multidimensional (Fig. 27). La tabla de pivote aún muestra los registros correspondientes a 2005-2008 con un desglose trimestral. En este caso, no tiene miedo, pero en la mayoría de los escenarios debe ocultar los elementos "extra" para evitar conflictos.

Higo. 27. Excel muestra el elemento calculado creado de la expresión multidimensional en una par con elementos de origen. Pero sigue siendo mejor eliminar los elementos de la fuente para evitar conflictos.

Recuerde: los elementos calculados están solo en el libro de trabajo actual. En otras palabras, las medidas calculadas no se crean directamente en el servidor OLAP Cuba. Esto significa que nadie puede acceder a la medida calculada o al artículo calculado, a menos que abra el intercambio del libro de trabajo o no lo publique en Internet.

Cabe señalar que, en caso de un cambio en la jerarquía de padres o el elemento padre en la OLAP Cuba, el elemento calculado de la expresión multidimensional deja de realizar sus funciones. Será necesario volver a crear este artículo.

Gestión de computación OLAP.Excel admite una interfaz que le permite controlar las medidas y elementos calculados de expresiones multidimensionales en las tablas de resumen OLAP. Coloque el cursor en cualquier lugar de la tabla consolidada y seleccione la pestaña Contexto Análisis de un conjunto de pestañas contextuales Trabajar con tablas consolidadas.. En el menú desplegable Olap Seleccione Gestión informática. En la ventana Gestión de la computación Tres botones están disponibles (Fig. 28):

  • Crear. Creación de una nueva medida calculada o elemento calculado de una expresión multidimensional.
  • Cambio. Cambiando el cálculo seleccionado.
  • Borrar. Eliminar el cálculo seleccionado.

Higo. 28. Cuadro de diálogo Gestión informática

Realización de un análisis "Qué, si" de acuerdo con los datos OLAP.En Excel 2013, puede analizar "Which IF" para los datos ubicados en las tablas de resumen OLAP. Gracias a esto nueva oportunidad Puede cambiar los valores en la tabla de resumen y volver a calcular las medidas y los elementos según los cambios realizados. También puede difundir los cambios de nuevo al cubo OLAP. Para aprovechar el análisis de "qué, si", cree una tabla OLAP consolidada y seleccione la pestaña Contexto Análisis Trabajar con tablas consolidadas.. En el menú desplegable Olap Selecciona un equipo Análisis "que si" –> Incluir un análisis "¿Qué pasa si? (Fig. 29).

A partir de ahora, puede cambiar los valores de la tabla consolidada. Para cambiar el valor seleccionado en la tabla PIVOT, haga clic con el botón derecho en él y seleccione el elemento en el menú contextual. (Fig. 30). Excel volverá a ejecutar todos los cálculos en la tabla consolidada, teniendo en cuenta las ediciones aplicadas, incluidas las medidas calculadas y los elementos calculados de las expresiones multidimensionales.

Higo. 30. seleccione Tener en cuenta el cambio al calcular una tabla pivotePara realizar cambios en la tabla consolidada.

De forma predeterminada, las ediciones hechas a la tabla consolidada en el modo de análisis "que si" son locales. Si desea distribuir cambios en el servidor OLAP, seleccione el comando para publicar cambios. Seleccione una pestaña de contexto AnálisisEn el conjunto de pestañas contextuales. Trabajar con tablas consolidadas.. En el menú desplegable Olap Seleccionar articulos Análisis "que si" – > Publicar el cambio(Fig. 31). Como resultado de la ejecución de este comando, el "reverso" se encenderá en el servidor OLAP, lo que significa la posibilidad de difundir los cambios en el cubo de la fuente OLAP. (Para difundir los cambios en el servidor OLAP, debe tener permisos adecuados para acceder al servidor. Póngase en contacto con su administrador de base de datos, que le ayudará a obtener permisos para acceder al modo de grabación de la base de datos OLAP.)

La nota está escrita sobre la base del Libro de Jelen, Alejandro. . Capítulo 9.

Como parte de este trabajo, se considerarán las siguientes preguntas:

  • ¿Qué son Olap-Cuba?
  • ¿Cuáles son las medidas, medidas, jerarquías?
  • ¿Qué tipos de operaciones se pueden realizar en los cubos OLAP?
Olap Cuba

El principal postulado de OLAP es multidimensionalidad en la presentación de datos. En la terminología OLAP, el concepto de cubo, o hipercubo se usa para describir el espacio de datos discreto multidimensional.

Cúbico Es una estructura de datos multidimensional desde la cual el usuario analista puede solicitar información. Los cubos se crean a partir de hechos y mediciones.

Hechos - Estos son datos sobre objetos y eventos en la empresa que estarán sujetos a análisis. Los hechos de un tipo de tipo medidas (medidas). La medida es el tipo de valor en la célula del cubo.

Mediciones - Estos son elementos de datos para los cuales se realiza el análisis. La recopilación de tales elementos genera un atributo de medición (por ejemplo, los días de la semana pueden formar una medición de atributos "TIEMPO"). En las tareas del análisis empresarial de las empresas comerciales, dichas categorías como "tiempo", "ventas", "bienes", "clientes", "empleados", "ubicación geográfica" a menudo se realizan como medidas. Las mediciones son las estructuras jerárquicas que representan categorías lógicas para las cuales el usuario puede analizar los datos reales. Cada jerarquía puede tener uno o más niveles. Así que la jerarquía de la medición "Ubicación geográfica" puede incluir niveles: "País - Área - Ciudad". En la jerarquía de tiempo, es posible resaltar, por ejemplo, tal secuencia de niveles: una medición puede tener varias jerarquías (cada jerarquía de una medición debe tener el mismo atributo clave de la tabla de medición).

El cubo puede contener datos reales de una o más tablas de datos y con mayor frecuencia contiene varias mediciones. Cualquier cubo específico generalmente tiene una dirección específica de análisis.

La Figura 1 muestra un ejemplo de un cubo diseñado para analizar las ventas de productos de refinación de petróleo por algunas regiones. Este cubo tiene tres dimensiones (tiempo, producto y región) y una medida (ventas, expresadas en dinero equivalente). Las medidas se almacenan en las células de cubo correspondientes (células). Cada célula es identificada únicamente por un conjunto de miembros de cada una de las mediciones llamadas la tupla. Por ejemplo, una celda ubicada en la esquina inferior izquierda de Cuba (contiene valor $ 98399), está dada por la tupla [julio de 2005, el Lejano Oriente, Diesel]. Aquí, el valor de $ 98399 muestra el volumen de ventas (en términos monetarios) de un motor diesel en el Lejano Oriente para julio de 2005.

También vale la pena prestar atención al hecho de que algunas células no contienen ningún valor: estas celdas están vacías, porque la tabla de hechos contiene datos para ellos.

Higo. uno. Cubo con información sobre ventas de productos derivados del petróleo en varias regiones.

El objetivo final de crear dichos cubos es minimizar el tiempo de procesamiento de las solicitudes que extraen la información requerida de los datos reales. Para implementar esta tarea, Cuba generalmente contiene datos finales precalculados, llamados agregados (agregaciones). Esos. El cubo cubre el espacio de datos más que el real, existe puntos lógicos, calculados. Calcule los valores de los puntos en el espacio lógico según los valores reales, permiten las funciones de agregación. Las características de agregación más simples son suma, máx, min, cuenta. Entonces, por ejemplo, utilizando la función máxima, para el cubo dado en el ejemplo, es posible identificarse cuando se produjo un pico de ventas diesel en el Lejano Oriente, etc.

Otra característica específica de los cubos multidimensionales es la complejidad de determinar el punto de origen de las coordenadas. Por ejemplo, ¿cómo establecer un punto 0 para medir "producto" o "regiones"? La solución a este problema es la introducción de un atributo especial que combina todos los elementos de medición. Este atributo (creado automáticamente) contiene solo un elemento: todos ("todos"). Para las funciones de agregación simples, por ejemplo, la cantidad, el elemento es equivalente a la suma de los valores de todos los elementos del espacio real de esta medición.

Un concepto importante de un modelo de datos multidimensional es un subespacio, o un soborno (Sub Cube). El soborno es parte del espacio total de cubo en forma de cierta figura multidimensional dentro del cubo. Dado que el espacio multidimensional de Cuba es discretamente y limitado, el soborno también es discreciado y limitado.

Operaciones en cubos OLAP

Sobre el cubo OLAP, se pueden realizar las siguientes operaciones:

  • cortar;
  • rotación;
  • consolidación;
  • detallando.
Rodaja (Figura 2) es un caso de cazustín privado. Este es el procedimiento para formar un subconjunto de una matriz de datos multidimensional correspondiente al único valor de uno o más elementos de medición que no están incluidos en este subconjunto. Por ejemplo, para averiguar cómo las ventas de productos de petróleo se promocionaron en tiempo solo en una determinada región, a saber, en los Urales, es necesario registrar la medición "Bienes" en el elemento "Ural" y extraer el subconjunto correspondiente (soborno) del cubo.
  • Higo. 2. Canta olap cuba

    Rotación (Figura 3) - Operación de cambios en la ubicación de las mediciones presentadas en el informe o en la página mostrada. Por ejemplo, el funcionamiento de la rotación puede estar en la permutación de líneas y columnas de la tabla. Además, la rotación del cubo de datos es mover las mediciones de fotogramas extra a la ubicación de medición presentada en la página que se muestra, y viceversa.

    Lo que hoy es OLAP, en general conoce a todos los expertos. Al menos, los conceptos de "OLAP" y "datos multidimensionales" están conectados constantemente en nuestra conciencia. Sin embargo, el hecho de que este tema se levante de nuevo, espero, seré aprobado por la mayoría de los lectores, ya que no está desactualizado por la idea de nada con el tiempo, debe comunicarse periódicamente con personas inteligentes o leer artículos en una buena edición. ...

    Almacén de datos (lugar OLAP en estructura de información empresas)

    El término "OLAP" está inextricablemente vinculado con el término "Warehouse de datos" (almacén de datos).

    Damos una definición formulada por los almacenes de datos de "Founder Fountder" Bill Inmona: "Data Warehouse es un tiempo orientado al sujeto y una recopilación de datos inmutables para respaldar el proceso de tomar decisiones de gestión".

    Los datos en el repositorio caen de sistemas operativos (Sistemas OLTP), que están diseñados para automatizar los procesos de negocios. Además, el almacenamiento se puede reponer debido a fuentes externas, como informes estadísticos.

    ¿Por qué construir almacenes de datos, después de todo, contienen información redundante a sabiendas, que vive "en vivo" en bases de datos o archivos del sistema operativo? Puede responder brevemente: analizar los datos de los sistemas operativos no es directamente imposible o muy difícil. Esto se explica por varias razones, incluido el escáner de datos, almacenando en los formatos de varios DBMS y en diferentes "rincones" de la red corporativa. Pero incluso si en la empresa, todos los datos se almacenan en el servidor de la base de datos central (que es extremadamente raro), el analista casi seguramente no se averigua en sus estructuras complejas, a veces intrincadas. El autor tiene una experiencia suficientemente triste de intentos de "alimentar a los analistas hambrientos", los datos crudos de los sistemas operativos, resultó ser "no en los dientes".

    Por lo tanto, la tarea del repositorio es proporcionar "materias primas" para analizar en un solo lugar y en una estructura simple y comprensible. Ralph Kimball En el prefacio de su libro "El kit de herramientas del almacén de datos" escribe que si el lector entenderá solo una cosa en la lectura de todo el libro, a saber: la estructura de almacenamiento debe ser simple, el autor considerará su tarea.

    Hay otra razón por la que justifica la apariencia de un repositorio separado: las solicitudes analíticas complejas para la información operativa inhiben el trabajo actual de la empresa, bloqueando las tablas durante mucho tiempo y la captura de recursos del servidor.

    En mi opinión, bajo el almacenamiento, puede entender no necesariamente una acumulación de datos gigantes: lo principal es que es conveniente para el análisis. En términos generales, un término separado: los Martes de datos (quioscos de datos) están destinados a instalaciones de almacenamiento pequeñas, pero en nuestra práctica rusa, no lo escucha a menudo.

    OLAP - Herramienta de análisis cómodo

    La centralización y la estructuración conveniente no es todo lo que se necesita por análisis. Todavía requiere una herramienta para ver, visualizar información. Los informes tradicionales, incluso construidos sobre la base de un solo almacenamiento, están privados de una flexibilidad. No pueden ser "Twist", "implementar" o "colapso" para obtener la presentación de datos deseada. Por supuesto, puede llamar a un programador (si quiere venir), y él (si no está ocupado) hará un nuevo informe rápidamente, digamos, durante una hora (no creo y no creo, tan rápidamente en La vida no hay nadie; le damos tres horas). Resulta que el analista puede verificar por un día no más de dos ideas. Y él (si es un buen analista), tales ideas pueden llegar a la cabeza varias por hora. Y cuanto más se ve las "secciones" y "Cuts" de estos analistas, mayores las ideas que, a su vez, requieren todos los "recortes" nuevos y nuevos para verificar. ¡Esa sería su herramienta que permitiría implementar y convertir los datos de manera simple y cómoda! Como tal herramienta y realiza OLAP.

    Aunque OLAP no es un atributo necesario del almacén de datos, se usa cada vez más a menudo para analizar la información acumulada en este almacenamiento.

    Los componentes incluidos en el almacenamiento típico se presentan en la FIG. uno.

    Higo. 1. Estructura de almacén de datos

    Los datos operativos se recopilan de varias fuentes, se limpian, se integran y se plegan en el almacenamiento relacional. Al mismo tiempo, ya están disponibles para su análisis utilizando diversos medios de creación de informes. Luego se prepara datos (total o parcialmente) para el análisis OLAP. Se pueden cargar en una base de datos especial OLAP o se deja en un almacenamiento relacional. El elemento más importante es el metadato, es decir, la información sobre la estructura, la colocación y la transformación de los datos. Gracias a ellos, se garantiza la interacción efectiva de varios componentes de almacenamiento.

    Resumiendo, puede definir OLAP como un conjunto de fondos análisis multidimensional Datos acumulados en el repositorio. Teóricamente, las herramientas OLAP se pueden aplicar directamente a los datos operativos o sus copias exactas (para no interferir con los usuarios operativos). Pero, por lo tanto, está arriesgando a pisar el rastrillo ya descrito anteriormente, es decir, comenzar a analizar los datos operativos que no son adecuados para su análisis.

    Definición y conceptos básicos OLAP

    Para empezar, descifrado: OLAP es un procesamiento analítico en línea, es decir, análisis de datos operativos. 12 Los principios definitorios de OLAP formulados en 1993. E. F. CODD - Base de datos relacional "Inventor". Más tarde, su definición se volvió a trabajar en la llamada prueba FASMI, que requiere la aplicación OLAP para proporcionar la capacidad de analizar rápidamente la información multidimensional compartida ().

    Prueba fasmi

    Rápido. (Rápido): el análisis debe hacerse igualmente rápidamente en todos los aspectos de la información. Un tiempo de respuesta aceptable es 5 S o menos.

    Análisis. (Análisis): debería ser posible llevar a cabo los tipos principales de análisis numérico y estadístico predeterminado por el desarrollador de aplicaciones o un usuario definido arbitrariamente.

    Compartido. (Compartido): muchos usuarios deben tener acceso a los datos, es necesario monitorear el acceso a la información confidencial.

    Multidimensional (Multidimensional) es la característica principal y más importante OLAP.

    Información (Información): la solicitud debe poder acceder a cualquier información necesaria, independientemente de su ubicación de volumen y almacenamiento.

    OLAP \u003d Vista multidimensional \u003d CUBO

    OLAP ofrece herramientas convenientes de acceso de alta velocidad, visualizando y analizando información comercial. El usuario recibe un modelo de datos natural e intuitivo, organizándolos en forma de cubos multidimensionales (cubos). Los ejes del sistema de coordenadas multidimensionales sirven como los principales atributos del proceso de negocio analizado. Por ejemplo, para las ventas, puede ser un producto, región, tipo de comprador. El tiempo se utiliza como una de las mediciones. En las intersecciones de los ejes de medición (dimensiones), hay datos, caracterizando cuantitativamente el proceso: medidas (medidas). Estos pueden ser volúmenes de ventas en piezas o en términos monetarios, los restos en stock, costos, etc. La información que analiza el usuario puede "cortar" un cubo en diferentes direcciones, obtener consolidado (por ejemplo, por año) o, por el contrario, Información detallada (durante semanas) y ejerce otras manipulaciones que vendrán a la mente en el proceso de análisis.

    Como medidas en una cuba tridimensional mostrada en la FIG. 2, se utilizan cantidades de ventas, y como medida: tiempo, producto y tienda. Las mediciones se presentan en ciertos niveles de agrupación: los productos se agrupan por categorías, talleres, por país y datos en el momento de las operaciones, por meses. Un poco más tarde, veremos más los niveles de agrupación (jerarquía).


    Higo. 2. Ejemplo Cuba

    Cubo cubo

    Incluso el cubo tridimensional es difícil de mostrar en la pantalla de la computadora para que los valores de las medidas de interés sean visibles. ¿Qué podemos hablar de cubos con el número de mediciones, los tres grandes? Para visualizar los datos almacenados en Cuba, generalmente son habituales bidimensionales, es decir, representaciones tabulares, que tienen títulos complejos jerárquicos de filas y columnas.

    La vista bidimensional del cubo se puede obtener al "cortar" a través de uno o más ejes (mediciones): fijamos los valores de todas las mediciones, excepto dos, y obtenemos una tabla de dos dimensiones convencional. En el eje horizontal de la tabla (encabezados de columna), se presenta una medición, en la vertical (encabezados de cadena), la otra, y en las celdas de la tabla, los valores de las medidas. En este caso, el conjunto de medidas se considera en realidad como una de las mediciones: seleccionamos una medida (y luego podemos colocar dos dimensiones en los encabezados y columnas), o mostrar varias medidas (y luego una de las tablas a Tome el nombre de las medidas, y el otro, los valores de la única medición "no adoptada").

    Eche un vistazo a la Fig. 3 - Aquí hay un corte bidimensional Cuba para una medida: ventas de la unidad (unidades vendidas) y dos mediciones "indiscutibles": tienda (tienda) y hora (tiempo).


    Higo. 3. Rebanada de cubo bidimensionales para una medida

    En la Fig. 4 Muestra una sola tienda "no adoptada", pero los valores de varias medidas se muestran aquí, las ventas de la unidad (vendidas), las ventas de la tienda y el costo de la tienda (gastos de la tienda).


    Higo. 4. Rebanada de cubos bidimensionales para varias medidas.

    La vista bidimensional de la Cuba es posible y cuando se mantiene "continuados" y más de dos dimensiones. Al mismo tiempo, se colocarán dos o más mediciones del cubo "Corte" en los ejes de corte (líneas y columnas): vea la FIG. cinco.


    Higo. 5. Rebanada de cubo bidimensionales con varias mediciones en un eje

    Etiquetas

    Los valores, "pospuestos" a lo largo de las mediciones se denominan miembros o marcas (miembros). Las etiquetas se usan tanto para el "corte" del cubo, y para limitar (filtrado) de los datos seleccionados, cuando se encuentran en la medición restante "incomprensible", no somos todos los valores, sino su subconjunto, por ejemplo, tres ciudades de varios docena. Los valores de las etiquetas se muestran en una vista de cubos bidimensionales como encabezados de cadena y columnas.

    Jerarquías y niveles.

    Las etiquetas se pueden combinar en jerarquías que constan de uno o más niveles (niveles). Por ejemplo, las etiquetas de medición "Tienda" (tienda) se combinan naturalmente en una jerarquía con niveles:

    País (país)

    EXPRESAR

    Ciudad (ciudad)

    Tienda (tienda).

    De acuerdo con los niveles de jerarquía, se calculan los valores agregados, como las ventas para los EE. UU. (Nivel de país) o California (nivel estatal). En una dimensión, puede implementar más de una jerarquía, digamos, por tiempo: (año, trimestre, mes, día) y (año, semana, día).

    Arquitectura de aplicaciones OLAP

    Todo lo que se mencionó anteriormente OLAP, de hecho, se relaciona con la presentación de datos multidimensionales. La forma en que se almacenan los datos, no se encargan de que no se preocupe si el usuario final ni los desarrolladores de herramientas al que usa el cliente.

    La multidimensionalidad en las aplicaciones OLAP se puede dividir en tres niveles:

    • Representación de datos multidimensionales: herramientas de usuario final que proporcionan visualización multidimensional y manipulación de datos; La capa de representación multidimensional se abstiene de la estructura de datos físicas y percibe los datos como multidimensional.
    • Procesamiento multidimensional: medios (idioma) de formular consultas multidimensionales (el idioma relacional de SQL tradicional aquí no es adecuado) y el procesador que puede procesar y ejecutar dicha solicitud.
    • Almacenamiento multidimensional - Medios organización física Datos para garantizar la ejecución efectiva de consultas multidimensionales.

    Los dos primeros niveles están necesariamente presentes en todas las herramientas OLAP. El tercer nivel, aunque está generalizado, no se requiere, ya que los datos para la representación multidimensional pueden eliminarse de las estructuras relativas ordinarias; El procesador de consulta multidimensional en este caso traduce las solicitudes multidimensionales a las consultas SQL que se ejecutan por DBMS relacional.

    Los productos OLAP específicos, por regla general, son un medio de representación de datos multidimensionales, un cliente OLAP (por ejemplo, tablas de pivotes en las empresas de Excel 2000 de Microsoft o PROCLARITY de la compañía Knosys), o un servidor multidimensional DBMS, OLAP Server (para obtener Ejemplo, Servidor de Oracle Express o Microsoft OLAP Services).

    La capa de procesamiento multidimensional generalmente está incrustada en el cliente OLAP y / o en el servidor OLAP, pero se puede resaltar en forma pura, como el componente de servicio de tabla de pivote de Microsoft.

    Aspectos técnicos del almacenamiento de datos multidimensionales.

    Como se mencionó anteriormente, las herramientas de análisis OLAP pueden extraer datos y directamente de los sistemas relacionales. Tal enfoque fue más atractivo en aquellos momentos en que los servidores OLAP estaban ausentes en las hojas de precios de los principales fabricantes de DBMS. Pero hoy y Oracle, e Informix, y Microsoft ofrecen servidores OLAP completos, e incluso aquellos gerentes de TI que no les gusta reproducirse en sus redes "zoológico" de diferentes fabricantes pueden comprar (más precisamente, para aplicarse a la administración de la compañía) Servidor OLAP de la misma marca que el servidor de base de datos principal.

    Los servidores OLAP, o servidores de base de datos multidimensionales, pueden almacenar sus datos multidimensionales de diferentes maneras. Antes de considerar estas formas, debemos hablar sobre un aspecto tan importante como el almacenamiento de agregados. El hecho es que en cualquier almacén de datos, tanto de lo habitual, como en una multidimensional, junto con los datos detallados extraídos de los sistemas operativos, se almacenan los indicadores totales (indicadores agregados, agregados), como la cantidad de volúmenes de ventas por meses, Por las categorías Bienes, etc. Los agregados se almacenan explícitamente con el único propósito, para acelerar la ejecución de las solicitudes. Después de todo, por un lado, el almacenamiento se acumula, como regla general, una gran cantidad de datos, y, por otro lado, en la mayoría de los casos, no detallados, pero los indicadores generalizados están interesados. Y si cada vez que tuviera que resumir millones de ventas individuales para el año para calcular el monto de las ventas, la velocidad más probable es que haya sido inaceptable. Por lo tanto, al cargar datos en bases de datos multidimensionales, todos los indicadores totales o su parte se calculan y guardan.

    Pero, como saben, tienes que pagar por todo. Y para la velocidad de procesamiento de solicitudes en los datos totales, es necesario pagar un aumento en las cantidades de datos y tiempo en su descarga. Además, un aumento en el volumen puede ser literalmente catastrófico, en una de las pruebas estándar publicadas, un conteo completo de unidades para 10 MB de datos de origen requeridos de 2.4 GB, es decir, los datos aumentaron 240 veces. El grado de "hinchazón" de los datos al calcular las unidades depende del número de mediciones de cubo y la estructura de estas mediciones, es decir, la relación de la cantidad de "padres" y "niños" en diferentes niveles de medición. Para resolver el problema de almacenar agregados, a veces se aplican. esquemas sofisticadosPermitir que cuando se calcule lejos de todos los agregados posibles logran un aumento significativo en el desempeño de las consultas.

    Ahora sobre varias opciones de almacenamiento. Ambos datos y agregados detallados se pueden almacenar en estructuras relacionales o multidimensionales. El almacenamiento multidimensional permite que los datos sean tratados como una matriz multidimensional, lo que garantiza los mismos cálculos rápidos de los indicadores totales y varias transformaciones multidimensionales de acuerdo con cualquier medida. Hace algún tiempo, los productos OLAP apoyaron el almacenamiento relacional o multidimensional. Hoy, como regla general, el mismo producto proporciona ambos tipos de almacenamiento, así como el tercer tipo: mixto. Se aplican los siguientes términos:

    • MOLAP. (OLAP multidimensional), y los datos detallados, y los agregados se almacenan en una base de datos multidimensional. En este caso, se obtiene la mayor redundancia, ya que los datos multidimensionales contienen plenamente relacionados.
    • Rolap. (Relacional OLAP): los datos detallados permanecen donde "vivieron" inicialmente en la base de datos relacional; Los agregados se almacenan en la misma base de datos en tablas de servicios especialmente creadas.
    • Holla (OLAP HYBRID): los datos detallados permanecen en su lugar (en la base de datos relacionales), y las unidades se almacenan en una base de datos multidimensional.

    Cada uno de estos métodos tiene sus ventajas y desventajas y debe aplicarse dependiendo de las condiciones, la cantidad de datos, la potencia de los DBM relacional, etc.

    Al almacenar datos en estructuras multidimensionales, se produce el problema potencial de "hinchazón" debido al almacenamiento de valores vacíos. Después de todo, si la matriz multidimensional está reservada en todas las combinaciones posibles de las marcas de medición, y solo una pequeña parte (por ejemplo, una serie de productos se venden solo en un pequeño número de regiones), entonces Bo / incluso parte del cubo volará Estar vacío, aunque el lugar será ocupado. Los productos OLAP modernos pueden hacer frente a este problema.

    Continuará. En el futuro, hablaremos sobre productos OLAP específicos fabricados por los principales fabricantes.



  • ¿Te gustó el artículo? Compártelo