Contacte

Date cuburi. Introducere în bazele de date OLAP și multidimensionale

Adnotare: Această prelegere discută baza designului cuburilor de date pentru depozitele de date OLAP. Exemplul arată metoda de construire a unui cub de date utilizând un instrument de caz.

Scopul prelegerii

După examinarea materialului din prezenta lecție, veți ști:

  • care este datele cubului din OLAP Depozit de date ;
  • cum de a proiecta datele cubului pentru Depozite de date OLAP. ;
  • care este măsurarea cubului de date;
  • de fapt, este asociat cu cubul de date;
  • ceea ce este atributele de măsurare;
  • ce este Ierarhia;
  • ce este o metrică a datelor cubului;

si invata:

  • construi diagrame multidimensionale ;
  • design obișnuit diagrame multidimensionale.

Introducere

Tehnologia OLAP nu este luată separat software., nu limbaj de programare. Dacă încercați să acoperiți OLAP în toate manifestările sale, atunci acest set de concepte, principii și cerințe care stau la baza produselor software facilitează accesul analiștilor la date.

Analiștii sunt principalii consumatori ai informațiilor corporative. O sarcină de analiză este de a găsi regulații în matrice mari de date. Prin urmare, analistul nu va acorda atenție unui fapt separat că, într-o anumită zi, cumpărătorul Ivanov a fost vândut de o petrecere de bile de baloane ", are nevoie de informații despre sute și mii de evenimente similare. Fapte unice în HD pot fi interesate, de exemplu, un contabil sau șef al departamentului de vânzări, ale cărui competențe sunt susținute de un anumit contract. Analizele unei intrări nu este suficientă - pentru el, de exemplu, poate fi necesar pentru toate contractele pentru luna de vânzare pe lună, trimestru sau an. Analytics nu poate fi interesat de cumpărătorul Han sau de telefonul său, - funcționează cu date numerice specifice, ceea ce este esența activităților sale profesionale.

Centralizarea și structurarea convenabilă nu este tot ceea ce este necesar de către analiză. Are nevoie de un instrument de vizionare, vizualizarea informațiilor. Rapoartele tradiționale, chiar construite pe baza unui singur HD, sunt defavorizate, cu toate acestea, o anumită flexibilitate. Ei nu pot fi "răsuciți", "implementați" sau "colaps" pentru a obține prezentarea necesară a datelor. Cu cât mai multe "secțiunile" și "tăieturile" acelui analist pot investiga, cu atât mai mari ideile care, la rândul lor, necesită toate "reduceri" noi și noi pentru a verifica. Ca un astfel de instrument pentru cercetarea datelor, OLAP este analistul.

Deși OLAP și nu constituie atributul necesar al HD, este folosit din ce în ce mai mult pentru a analiza informațiile acumulate în acest sens.

Datele operaționale sunt colectate din diferite surse, curățate, integrate și pliate în HD. În același timp, acestea sunt deja disponibile pentru analiză utilizând diverse mijloace de construire a rapoartelor. Apoi, datele (integral sau parțial) sunt pregătite pentru analiza OLAP. Acestea pot fi încărcate într-o bază de date specială OLAP sau la stânga în relaționarea XD. Cel mai important element al utilizării OLAP este metadate, adică informații despre structură, plasare și transformarea datelor.. Datorită acestora, este asigurată interacțiunea efectivă a diferitelor componente de stocare.

În acest fel, OLAP poate fi definită ca un set de mijloace de analiză multidimensională a datelor acumulate în HD. Teoretic, instrumentele OLAP pot fi aplicate direct datelor operaționale sau copiilor lor exacte. Cu toate acestea, există riscul de analiză a datelor care nu sunt adecvate pentru această analiză.

OLAP pe client și pe server

OLAP se bazează pe analiza datelor multidimensionale. Acesta poate fi produs folosind diverse mijloace care pot fi împărțite în Olaps Client și Server.

Olapsul clientului sunt aplicații care calculează datele agregate (sume, valori medii, valori maxime sau minime) și afișarea acestora, în timp ce datele agregate în sine sunt conținute în cache în spațiul de adrese al unui astfel de OLAP.

Dacă datele inițiale sunt conținute în desktop DBMS, calculul datelor agregate este efectuat de OLAP în sine. Dacă sursa de date sursă este un server DBMS, multe dintre OLAP client sunt trimise la serverul SQL-recorder care conține grupul după declarație și, ca rezultat, se obțin date agregate calculate pe server.

De regulă, funcția OLAP este implementată în mijloacele de prelucrare a datelor statistice (produsele societăților STAT SOFT și SPSS sunt răspândite pe piața rusă) și în unele foi de calcul. În particular, Microsoft Excel 2000 are un mijloc bun de analiză multidimensională. Cu acest produs, puteți crea și salva un mic OLAP multidimensional local în forma unui fișier și afișați-l secțiunile de două sau tridimensionale.

Mulți instrumente de dezvoltare Conține biblioteci de clase sau componente care vă permit să creați aplicații care implementează cea mai simplă funcționalitate OLAP (cum ar fi, de exemplu, ca componente ale cubului de decizie din Borland Delphi și Borland C ++ Builder). În plus, multe companii oferă elemente de control ActiveX și alte biblioteci care implementează funcționalități similare.

Rețineți că utilizările OLAP client sunt utilizate, de regulă, cu un număr mic de măsurători (de obicei nu mai mult de șase) și o mică varietate de valori ale acestor parametri - la urma urmei, datele agregate obținute ar trebui să fie hrănite în Spațiul de adresare a acestui mijloc, iar numărul acestora crește exponențial cu creșterea măsurătorilor numărului. Prin urmare, chiar și cel mai primitiv client OLAP este o descriere, de regulă, vă permite să numărați în mod preliminar volumul memoriei RAM necesare pentru a crea un cub multidimensional.

Multe (dar nu toate) Clientul OLAP vă permite să salvați conținutul memoriei cache cu date agregate ca fișier, care, la rândul său, nu le permite să re-calcule. Trebuie remarcat faptul că această posibilitate este adesea folosită pentru a alieniza datele agregate pentru a le transfera la alte organizații sau pentru publicare. Un exemplu tipic de astfel de date agregate întemeiate este statisticile incidenței din diferite regiuni și în diferite grupe de vârstă, care sunt informații deschise publicate de Ministerul Sănătății din diferite țări și de Organizația Mondială a Sănătății. În același timp, datele inițiale, care sunt informații privind cazurile specifice de boli, sunt date confidențiale ale instituțiilor medicale și în nici un caz nu ar trebui să se încadreze în mâinile companiilor de asigurări și în special de a deveni publicitate.

Ideea de salvare a unui cache cu date agregate din dosar a primit o dezvoltare ulterioară în Olapsul Server, care economisește și schimbă datele agregate, precum și susținerea depozitării acestora sunt efectuate printr-o aplicație sau un proces separat numit OLAP Server. Aplicațiile client pot solicita o depozitare multidimensională similară și ca răspuns la primirea anumitor date. Unele aplicații client pot crea, de asemenea, magazine, astfel încât să le actualizeze în conformitate cu datele sursă modificate.

Avantajele aplicației Server OLAP-utilizări în comparație cu clienții Clientului OLAP sunt similare cu avantajele aplicării DBMS serverului în comparație cu desktop-urile: Dacă se utilizează instrumente de servere, calculul și stocarea datelor agregate apar pe server, iar aplicația client primește numai rezultatele solicitărilor pentru acestea, care le permite, în general, reducerea traficului de rețea, perioada de grație Solicitări și cerințe privind resursele consumate de aplicația client. Rețineți că analiza și prelucrarea datelor la scară întreprinderii se bazează, de obicei, pe serviciul Server OLAP, cum ar fi Oracle Express Server, servicii de analiză Microsoft SQL Server 2000, Hyperion Essbase, produse de decizii de cristal, obiecte de afaceri, Cognos, Institutul SAS. Deoarece toți producătorii de frunte de server DBMS sunt produse (sau licențiate de la alte companii sau alte utilizări OLAP server, alegerea acestora este destul de largă și aproape în toate cazurile Puteți achiziționa un server OLAP de același producător ca baza de date serverul însuși.

Rețineți că mulți clienți OLAP-utilizare (în special Microsoft Excel 2003, analiză Seagate etc.) vă permit să accesați instalațiile de depozitare a serverului OLAP, acționând în acest caz ca aplicații client care efectuează astfel de solicitări. În plus, există destul de puține produse care sunt aplicații client către OLAP-utilizare a diferiților producători.

Aspecte tehnice ale stocării multidimensionale a datelor

HD multidimensional conține date agregate cu diferite grade de detalii, cum ar fi volumele de vânzări de zile, luni, ani, pe categorii de bunuri etc. Scopul stocării datelor agregate este de a reduce perioada de grație Solicitări, deoarece în majoritatea cazurilor nu sunt detaliate, iar datele totale sunt interesante pentru analize și previziuni. Prin urmare, atunci când creați o bază de date multidimensională, unele date agregate sunt întotdeauna calculate și salvate.

Rețineți că păstrarea tuturor datelor agregate nu este întotdeauna justificată. Faptul este că atunci când adăugați noi măsurători, cantitatea de componente de date ale cubului crește exponențial (uneori vorbesc despre "creșterea explozivă" a volumului datelor). Dacă vorbim mai precis, gradul de creștere a datelor agregate depinde de numărul de măsurători ale membrilor cubului și de măsurare la diferite niveluri ale ierarhilor acestor măsurători. Pentru a rezolva problema "creșterii explozive", o varietate de scheme sunt folosite pentru a permite, atunci când se calculează, nu toate datele agregate posibile realizează o viteză acceptabilă de interogări.

Ambele date sursă și agregate pot fi stocate fie în structuri relaționale, fie în structuri multidimensionale. Prin urmare, sunt aplicate în prezent trei moduri de stocare a datelor.

  • Malap. (OLAP multidimensional) - Datele sursă și agregate sunt stocate într-o bază de date multidimensională. Depozitarea datelor în structurile multidimensionale permite manipularea datelor ca o matrice multidimensională, datorită căreia rata de calcul a valorilor agregate este aceeași pentru orice măsurare. Cu toate acestea, în acest caz, baza de date multidimensională este redundantă, deoarece datele multidimensionale conțin pe deplin datele relaționale sursă.
  • Rolap. (OLAP relațional) - datele inițiale rămân în aceeași bază de date relațională, unde au fost inițial și au fost. Datele agregate sunt plasate în tabelele de service create special pentru depozitarea lor în aceeași bază de date.
  • Holap. (Hybrid OLAP) - Datele inițiale rămân în aceeași bază de date relațională, unde au fost păstrate inițial, iar datele agregate sunt stocate într-o bază de date multidimensională.

Unele OLAP utilizează stocarea datelor suport numai în structurile relaționale, unele sunt doar în multidimensional. Cu toate acestea, cele mai moderne Olaps Server sunt susținute de toate cele trei metode de stocare a datelor. Selectarea metodei de stocare depinde de volumul și structura datelor sursă, cerințele pentru viteza de executare a cererilor și frecvența de actualizare a OLAP -CUB-urilor.

De asemenea, menționăm că majoritatea covârșitoare a utilizărilor moderne OLAP nu stochează valori "goale" (un exemplu de valoare "goală" poate fi lipsa de vânzare a bunurilor sezoniere în afara sezonului).

Concepte de bază OLAP.

Testați Famsi.

Tehnologia analizei cuprinzătoare a datelor multidimensionale a fost numită OLAP (procesare analitică on-line). OLAP este componenta cheie a organizației HD. Conceptul OLAP a fost descris în 1993 de Edgar Coddo, un cercetător de bază de date bine-cunoscut și autorul modelului de date relațional. În 1995, pe baza cerințelor stabilite de cod, a fost formulată de așa-numitul testați Fasmi. Analiza rapidă a informațiilor multidimensionale partajate - o analiză rapidă a informațiilor multidimensionale partajate, care include următoarele cerințe pentru aplicațiile de analiză multidimensională:

  • Rapid. (Rapid) - furnizarea utilizatorului rezultatelor utilizatorului pentru un timp acceptabil (de obicei nu mai mult de 5 secunde), chiar dacă prețul este mai puțin decât o analiză detaliată;
  • Analiză. (Analiza) - capacitatea de a pune în aplicare orice analiză logică și statistică caracteristică a acestei aplicații și economisirea acestuia la accesul utilizatorului final;
  • Impartit. (Partajat) - acces multiplayer la date cu suportul mecanismelor relevante de încuietori și mijloace de acces autorizat;
  • Multidimensional. (Multidimensional) - prezentarea conceptuală multidimensională a datelor, inclusiv suportul complet pentru ierarhi și ierarhii multiple (aceasta este cerința cheie OLAP);
  • informație (Informații) - Aplicația ar trebui să poată accesa informațiile necesare, indiferent de volumul său și de depozitare.

Trebuie remarcat faptul că funcționalitatea OLAP poate fi implementată în diferite moduri, începând cu cele mai simple mijloace de analiză a datelor în aplicațiile de birou și se termină cu sisteme analitice distribuite bazate pe produsele serverului.

Prezentarea raportului multidimensional

Cuba

OLAP oferă instrumente convenabile de acces de mare viteză, vizualizarea și analizarea informațiilor de afaceri. Utilizatorul devine natural, intuitiv de înțeles model de date, organizând-le sub formă de cuburi multidimensionale (cuburi). Axele sistemului de coordonate multidimensionale servesc drept principalele atribute ale procesului de afaceri analizat. De exemplu, pentru vânzări, poate fi un produs, regiune, tip cumpărător. Timpul este folosit ca una dintre măsurători. La intersecțiile axelor de măsurare (dimensiuni) există date, caracterizează cantitativ procesul - măsuri (măsuri). Acestea pot fi volume de vânzări în bucăți sau în termeni monetari, rămășițele în stoc, costurile etc. Utilizatorul Analizând informațiile pot "tăia" un cub în direcții diferite, să obțină consolidate (de exemplu, pe an) sau, dimpotrivă, Informații detaliate (de săptămâni) și exercită alte manipulări care vor veni în minte în procesul de analiză.

Ca măsuri într-o Cuba tridimensională prezentată în fig. 26.1, cantități utilizate de vânzări și ca măsurători - timp, produs și magazin. Măsurătorile sunt prezentate la anumite niveluri de grupare: mărfurile sunt grupate pe categorii, magazine - pe țară și date privind timpul operațiunilor - după luni. Un pic mai târziu vom analiza mai mult nivelurile de grupare (ierarhie).


Smochin. 26.1.

Cube cube.

Chiar și cubul tridimensional este dificil de afișat pe ecranul computerului, astfel încât valorile măsurilor de interes să fie vizibile. Ce să vorbim despre cuburi cu numărul de măsurători, cele trei mari. Pentru a vizualiza datele stocate în Cuba, de obicei obișnuite două dimensiuni, adică vederi tabulare cu titluri ierarhice complexe de rânduri și coloane.

Vederea bidimensională a cubului poate fi obținută prin "tăiere" pe unul sau mai multe axe (măsurători): am fixat valorile tuturor măsurătorilor, cu excepția a două și obținem o masă convențională bidimensională. În axa orizontală a mesei (antete de coloană), este prezentată o măsurătoare, în antetele verticale (antetele de șir) - cealaltă și în celulele tabelului - valorile măsurilor. În același timp, setul de măsuri este de fapt considerat unul dintre măsurători: Fie că selectăm o măsură (și apoi putem plasa două măsurători în antete și coloane) sau vom arăta mai multe măsuri (și apoi una dintre axele tabelului vor lua numele măsurilor, iar celelalte - valorile singurei măsurători "non-adoptate").

(Nivele). De exemplu, etichetele prezentate nu sunt acceptate de toate OLAP. De exemplu, ambele tipuri de ierarhi sunt susținute în Microsoft Analiză Services 2000, iar Microsoft OLAP Services 7.0 este doar echilibrat. Numărul de niveluri de ierarhie și numărul maxim admisibil de membri ai unui nivel, iar numărul maxim posibil de măsurători în sine pot fi diferite în diferite instrumente OLAP.

OLAP Arhitectura aplicației

Tot ce a fost menționat mai sus OLAP, de fapt, se referă la prezentarea de date multidimensionale. Modul în care datele sunt stocate, aproximativ vorbitori, nu le pasă dacă utilizatorul final, nici dezvoltatorii instrumentului la care clientul utilizează.

Multidimensionalitatea în aplicațiile OLAP pot fi împărțite în trei nivele.

  • Reprezentarea datelor multidimensionale - Instrumente de utilizator finale care asigură vizualizarea multidimensională și manipularea datelor; Stratul de reprezentare multidimensională este abstrugat din structura de date fizice și percepe datele ca fiind multidimensionale.
  • Prelucrarea multidimensională - mijloace (limba) de formulare a interogărilor multidimensionale (limba tradițională tradițională SQL aici este nepotrivită) și procesorul care poate procesa și executa o astfel de solicitare.
  • Stocarea multidimensională - mijloace ale unei organizații de date fizice care asigură o execuție eficientă a cererilor multidimensionale.

Primele două nivele sunt neapărat prezente în toate instrumentele OLAP. Al treilea nivel, deși este larg răspândit, deoarece datele pentru reprezentarea multidimensională pot fi eliminate din structurile relaționale obișnuite; Procesorul de interogare multidimensională în acest caz traduce cererile multidimensionale la interogările SQL care sunt executate de DBM-uri relaționale.

Produsele OLAP specifice, ca regulă, sunt fie un instrument multidimensional de prezentare a datelor (client OLAP - de exemplu, tabelele pivot în firmele Excel 2000 ale Microsoft sau Proclary de la Knosys) sau un server multidimensional DBMS (OLAP Server - de exemplu, Oracle Express Server sau servicii Microsoft OLAP).

Stratul de procesare multidimensional este de obicei încorporat în clientul OLAP și / sau în serverul OLAP, dar poate fi evidențiat în formă pură, cum ar fi componenta de serviciu de la Microsoft.

În tabelul sumar standard, datele sursă sunt stocate pe un hard disk local. Astfel, puteți să le gestionați întotdeauna și să le reorganizați, nici măcar să aveți acces la rețea. Dar acest lucru nu se referă în niciun fel de tabelele sumare OLAP. În tabelele OLAP consolidate, cache-ul nu este stocat niciodată pe un hard disk local. Prin urmare, imediat după deconectarea de la rețeaua locală, tabelul dvs. consolidat va pierde performanța. Nu veți putea să vă mutați în el nu un singur câmp.

Dacă trebuie încă să analizați datele OLAP după deconectarea din rețea, creați un cub de date autonom. Cubul de date autonome este un fișier separat care este un cache de tabel Pivot și stochează datele OLAP vizualizate după deconectarea de la rețeaua locală. Datele OLAP copiate în tabelul consolidat pot fi tipărite pe site-ul http://everest.ua descris în detaliu despre el.

Pentru a crea un cub de date autonome, creați mai întâi o masă OLAP consolidată. Plasați cursorul în tabelul consolidat și faceți clic pe butonul OLAP Tools (OLAP Tools) al setărilor tabelului de context (Instrumente), care este inclus în fila Context din fila Context, lucrați cu tabele consolidate (instrumente pivottable). Selectați modul OLAP offline (OLAP offline) (figura 9.8).

Pe ecran apare caseta de dialog OLAP Autonomous Cub cube. Faceți clic pe acesta pe butonul Creare fișier de date offline. Ați lansat un expert de creare a fișierelor de date cube. Faceți clic pe butonul Următorul pentru a continua procedura.

Este necesar să se precizeze dimensiunea și nivelurile care vor fi incluse în datele cubului. În caseta de dialog, selectați datele care vor fi importate din baza de date OLAP. Ideea este de a specifica numai acele dimensiuni care vor fi necesare după deconectarea computerului din rețeaua locală. Cu cât indicați mai multe dimensiuni, cu atât dimensiunea va avea un cub autonom de date.

Faceți clic pe butonul Următorul pentru a accesa următoarea casetă de dialog Următorul Wizard. În aceasta, obțineți capacitatea de a specifica elementele membre sau elementele de date care nu vor fi incluse în cub. În special, nu veți avea nevoie de măsura cu volumul extins de vânzări pe Internet, astfel că caseta de selectare pentru acesta va fi descărcată în listă. Caseta de verificare a înghețului indică faptul că elementul specificat nu va fi importat și va lua un loc în exces pe hard diskul local.

În ultima etapă, specificați locația și numele datelor cubului. În cazul nostru, fișierul cubului va fi numit MyofflineCube.cub și va fi localizat în dosarul de lucru.

Datele cubice au o extensie .pui

După ceva timp, Excel va salva cubul autonom al datelor din dosarul specificat. Pentru a testa, faceți dublu clic pe fișier, care va duce la generarea automată a cărții de lucru Excel, care conține un tabel consolidat asociat cu cubul de date selectat. După crearea, puteți prelungi cubul de date autonom în rândul tuturor utilizatorilor interesați care lucrează în modul de rețea locală dezactivată.

După conectarea la rețeaua locală, puteți deschide un fișier autonom al Cubului Date și îl puteți actualiza, precum și tabelul de date corespunzător. Principiul principal precizează că cubul de date autonom se aplică numai la locul de muncă atunci când rețeaua locală este dezactivată, dar este obligatorie actualizată după restabilirea conexiunii. Încercarea de a actualiza cubul autonom după ruperea conexiunii va cauza o eroare.

Ce este astăzi OLAP, în general cunoaște fiecare expert. Cel puțin, conceptele de "OLAP" și "date multidimensionale" sunt legate în mod constant în conștiința noastră. Cu toate acestea, faptul că acest subiect se ridică din nou, sper, va fi aprobat de majoritatea cititorilor, deoarece nu este depășită pentru ideea de ceva în timp, trebuie să comunicați periodic cu oamenii inteligenți sau citiți articole într-o ediție bună ...

Depozitul de date (locația OLAP în structura informațiilor a întreprinderii)

Termenul "OLAP" este legat inextricabil de termenul "depozit de date" (depozit de date).

Dăm o definiție formulată de depozitele de date "Tatăl-Fondator" Bill Inmona: "Depozitul de date este o colecție de date orientată spre subiect, limitată și o colecție de date neschimbată pentru a sprijini procesul de luare a deciziilor de gestionare".

Datele din depozitul devin din sistemele operaționale (sisteme OLTP), care sunt concepute pentru a automatiza procesele de afaceri. În plus, depozitarea poate fi completată din cauza surselor externe, cum ar fi rapoartele statistice.

De ce să construim depozite de date - la urma urmei, ele conțin informații cu bună știință redundante, care trăiesc "în direct" în baze de date sau fișiere de sistem operaționale? Puteți răspunde pe scurt: Analizați datele sistemelor operaționale nu este direct imposibilă sau foarte dificilă. Acest lucru se explică din diverse motive, inclusiv scanerul datelor, stocându-le în formatele diverselor DBMS și în diferite "colțuri" ale rețelei corporative. Dar chiar dacă în companie toate datele sunt stocate pe serverul de baze de date centrale (care este extrem de rar), analistul aproape sigur nu se gândește în structurile complexe, uneori complicate. Autorul are o experiență suficient de tristă de încercări de a "hrăni" analiștii "brut" din sistemele operaționale - s-au dovedit a fi "nu pe dinți".

Astfel, sarcina depozitului este de a furniza "materii prime" pentru a analiza într-un singur loc și într-o structură simplă, ușor de înțeles. Ralph Kimball în prefață în cartea sa "The Data Warehouse Toolkit" scrie că, dacă cititorul va înțelege doar un singur lucru la citirea întregii cărți, și anume: structura de stocare ar trebui să fie simplă, autorul va lua în considerare sarcina sa făcută.

Există un alt motiv care justifică apariția unei depozite separate - solicitări analitice complexe pentru informații operaționale inhibă activitatea curentă a companiei, blocarea tabelelor pentru o lungă perioadă de timp și capturarea resurselor de servere.

În opinia mea, sub depozitul, nu puteți înțelege neapărat o acumulare de date gigantice - principalul lucru este că este convenabil pentru analiză. În general, un termen separat - marts de date (chioșcuri de date) este destinat facilităților mici de depozitare, dar în practica noastră rusă nu o auzi adesea.

OLAP - Instrumentul de analiză confortabil

Centralizarea și structurarea convenabilă nu este tot ceea ce este necesar de către analiză. El încă mai solicită un instrument de vizionare, vizualizare a informațiilor. Rapoartele tradiționale, chiar construite pe baza unui singur spațiu de stocare, sunt lipsiți de o flexibilitate. Ei nu pot fi "răsuciți", "implementați" sau "colaps" pentru a obține prezentarea de date dorită. Desigur, puteți apela un programator (dacă vrea să vină) și el (dacă nu este ocupat) va face un nou raport rapid - spune, pentru o oră (nu cred și nu cred - atât de repede Viața nu este nimeni; Să-i dăm trei ore). Se pare că analistul poate verifica o zi nu mai mult de două idei. Și el (dacă este un analist bun), astfel de idei pot veni la cap de câteva ore pe oră. Și cu atât mai multe "secțiunile" și "reduceri" ale acestor analistare vede, cu atât mai mari ideile care, la rândul lor, necesită toate "tăieturi" noi și noi pentru a verifica. Acesta ar fi instrumentul său care ar permite să se desfășoare și să transforme datele pur și simplu și confortabile! Ca un astfel de instrument și efectuează OLAP.

Deși OLAP nu este un atribut necesar al depozitului de date, acesta este din ce în ce mai utilizat mai des pentru a analiza informațiile acumulate în acest spațiu de stocare.

Componentele incluse în depozitarea tipică sunt prezentate în fig. unu.

Smochin. 1. Structura depozitului de date

Datele operaționale sunt colectate din diverse surse, curățate, integrate și pliate în stocarea relațională. În același timp, acestea sunt deja disponibile pentru analiză utilizând diverse mijloace de construire a rapoartelor. Apoi, datele (complet sau parțial) sunt pregătite pentru analiza OLAP. Acestea pot fi încărcate într-o bază de date specială OLAP sau lăsată într-o depozitare relațională. Cel mai important element este metadate, adică informații privind structura, plasarea și transformarea datelor. Datorită acestora, este asigurată interacțiunea efectivă a diferitelor componente de stocare.

Rezumarea, este posibilă determinarea OLAP ca un set de mijloace de analiză multidimensională a datelor acumulate în depozit. Teoretic, instrumentele OLAP pot fi aplicate direct datelor operaționale sau copiilor lor exacte (astfel încât să nu interfereze cu utilizatorii operaționali). Dar, astfel, riscăm să mergem pe rake deja descrisă mai sus, adică, începe să analizez datele operaționale care nu sunt potrivite pentru analiză.

Definiție și concepte de bază OLAP

Pentru a începe cu, descifra: OLAP este o prelucrare analitică online, adică analiza datelor operaționale. 12 Principiile definitorii ale OLAP formulate în 1993. E. F. Codd - Baza de date relațională "Inventor". Mai târziu, definiția sa a fost refăcută în așa-numitul test Fasmi, care necesită aplicația OLAP să ofere posibilitatea de a analiza rapid informațiile multidimensionale comune ().

Testați fasmi.

Rapid. (Quick) - Analiza trebuie făcută la fel de rapid în toate aspectele informațiilor. Un timp de răspuns acceptabil este de 5 s sau mai puțin.

Analiză. (Analiza) - ar trebui să fie posibilă efectuarea principalelor tipuri de analize numerice și statistice predeterminate de dezvoltatorul de aplicații sau de un utilizator definit arbitrar.

Impartit. (Shared) - Mulți utilizatori trebuie să aibă acces la date, este necesar să se monitorizeze accesul la informații confidențiale.

Multidimensional. (Multidimensional) este principala caracteristică OLAP, cea mai semnificativă.

informație (Informații) - Aplicația ar trebui să poată accesa informațiile necesare, indiferent de volumul său și de depozitare.

OLAP \u003d Vizualizare multidimensională \u003d cub

OLAP oferă instrumente convenabile de acces de mare viteză, vizualizarea și analizarea informațiilor de afaceri. Utilizatorul primește un model natural, intuitiv, organizând-le sub formă de cuburi multidimensionale (cuburi). Axele sistemului de coordonate multidimensionale servesc drept principalele atribute ale procesului de afaceri analizat. De exemplu, pentru vânzări, poate fi un produs, regiune, tip cumpărător. Timpul este folosit ca una dintre măsurători. La intersecțiile axelor de măsurare (dimensiuni) - există date, caracterizează cantitativ procesul - măsuri (măsuri). Acestea pot fi volume de vânzări în bucăți sau în termeni monetari, rămășițele în stoc, costurile etc. Utilizatorul Analizând informațiile pot "tăia" un cub în direcții diferite, să obțină consolidate (de exemplu, pe an) sau, dimpotrivă, Informații detaliate (de săptămâni) și exercită alte manipulări care vor veni în minte în procesul de analiză.

Ca măsuri într-o Cuba tridimensională prezentată în fig. 2, sumele de vânzări sunt utilizate și ca măsurători - timp, produs și magazin. Măsurătorile sunt prezentate la anumite niveluri de grupare: mărfurile sunt grupate pe categorii, magazine - pe țară și date privind timpul operațiunilor - după luni. Un pic mai târziu vom analiza mai mult nivelurile de grupare (ierarhie).


Smochin. 2. Exemplu Cuba.

Cube cube.

Chiar și cubul tridimensional este dificil de afișat pe ecranul computerului, astfel încât valorile măsurilor de interes să fie vizibile. Ce putem vorbi despre cuburi cu numărul de măsurători, cele trei mari? Pentru a vizualiza datele stocate în Cuba, sunt, de obicei, de obicei, reprezentări triculare, adică, care au titluri ierarhice complexe de rânduri și coloane.

Vederea bidimensională a cubului poate fi obținută prin "tăiere" pe una sau mai multe axe (măsurători): am fixat valorile tuturor măsurătorilor, cu excepția a două și obținem o masă convențională bidimensională. În axa orizontală a mesei (antete de coloană), este prezentată o măsurătoare, în antetele verticale (antetele de șir) - cealaltă și în celulele tabelului - valorile măsurilor. În acest caz, setul de măsuri este considerat de fapt unul dintre măsurători - fie că selectăm o măsură (și apoi putem plasa două dimensiuni în antete și coloane) sau să arătăm mai multe măsuri (și apoi unul dintre axele de masă va să ia numele măsurilor, iar celelalte - valorile singurei măsurători "neomodate").

Aruncă o privire la Fig. 3 - Aici este o Cuba tăiată bidimensională pentru o singură măsură - vânzări de unități (unități vândute) și două măsurători "necontestate" - magazin (magazin) și timp (timp).


Smochin. 3. Slice cub bidimensional pentru o singură măsură

În fig. 4 prezintă doar un magazin "non-adoptat" - magazin, dar valorile mai multor măsuri sunt afișate aici - vânzări de unități (vândute), magazin de vânzări și costul magazinului (cheltuieli ale magazinelor).


Smochin. 4. Slice de cub bidimensional pentru mai multe măsuri

Vederea bidimensională a Cubei este posibilă și când "continuă" rămâne și mai mult de două dimensiuni. În același timp, două sau mai multe măsurători ale cubului "tăiat" vor fi plasate pe axele de tăiere (linii și coloane) - vezi fig. cinci.


Smochin. 5. Slice cub bidimensional cu mai multe măsurători pe o singură axă

Etichete

Valorile, "amânate" de-a lungul măsurătorilor sunt numite membri sau mărci (membri). Etichetele sunt utilizate atât pentru "tăierea" cubului, cât și pentru limitarea (filtrarea) datelor selectate - atunci când în măsurarea rămase "incomprehensibilă", nu suntem toate valorile, ci subsetul lor, de exemplu, trei orașe ale mai multor orașe duzină. Valorile etichetelor sunt afișate într-o vedere cu cub bidimensional ca anteturi și coloane de șir.

Ierarhiile și nivelele

Etichetele pot fi combinate în ierarhiile constând din unul sau mai multe niveluri (niveluri). De exemplu, etichetele de măsurare "Magazin" (magazin) sunt combinate în mod natural într-o ierarhie cu nivele:

Țară (țară)

STAT

Orașul (oraș)

Magazin (magazin).

În conformitate cu nivelurile ierarhiei, se calculează valorile agregate, cum ar fi vânzările pentru SUA (nivelul țării) sau California (nivel de stat). Într-o singură dimensiune, puteți implementa mai mult de o ierarhie - spun, pentru timp: (an, trimestru, lună, zi) și (an, săptămână, zi).

OLAP Arhitectura aplicației

Tot ce a fost menționat mai sus OLAP, de fapt, se referă la prezentarea de date multidimensionale. Modul în care datele sunt stocate, aproximativ vorbitori, nu le pasă dacă utilizatorul final, nici dezvoltatorii instrumentului la care clientul utilizează.

Multidimensionalitatea în aplicațiile OLAP pot fi împărțite în trei nivele:

  • Reprezentarea datelor multidimensionale - Instrumente de utilizator finale care asigură vizualizarea multidimensională și manipularea datelor; Stratul de reprezentare multidimensională este abstrugat din structura de date fizice și percepe datele ca fiind multidimensionale.
  • Prelucrarea multidimensională - mijloace (limba) de formulare a interogărilor multidimensionale (limba tradițională tradițională SQL aici este nepotrivită) și procesorul care poate procesa și executa o astfel de solicitare.
  • Stocarea multidimensională - mijloace ale unei organizații de date fizice care asigură o execuție eficientă a cererilor multidimensionale.

Primele două nivele sunt neapărat prezente în toate instrumentele OLAP. Al treilea nivel, deși este larg răspândit, deoarece datele pentru reprezentarea multidimensională pot fi eliminate din structurile relaționale obișnuite; Procesorul de interogare multidimensională în acest caz traduce cererile multidimensionale la interogările SQL care sunt executate de DBM-uri relaționale.

Produsele OLAP specifice, ca regulă, sunt fie un mijloc de reprezentare a datelor multidimensionale, un client OLAP (de exemplu, tabelele PIVOT în firmele Excel 2000 ale Microsoft sau Proclaritatea Companiei Knosys) sau un server multidimensional DBMS, OLAP Server (pentru Exemplu, Oracle Express Server sau Microsoft OLAP Services).

Stratul de procesare multidimensional este de obicei încorporat în clientul OLAP și / sau în serverul OLAP, dar poate fi evidențiat în formă pură, cum ar fi componenta de serviciu de la Microsoft.

Aspecte tehnice ale stocării multidimensionale a datelor

După cum sa menționat mai sus, instrumentele de analiză OLAP pot extrage date și direct din sistemele relaționale. O astfel de abordare a fost mai atractivă în acele momente în care serverele OLAP au fost absente în foile de preț ale producătorilor de conducere DBMS. Dar astăzi și Oracle, și Informix, iar Microsoft oferă servere OLAP cu drepturi depline, și chiar acei manageri IT care nu le place să se reproducă în rețelele lor "Zoo" de la diferiți producători pot cumpăra (mai precis, să se aplice managementului companiei) OLAP Server de aceeași marcă ca serverul principal de bază de date.

Serverele OLAP sau serverele multidimensionale de baze de date, pot stoca datele lor multidimensionale în moduri diferite. Înainte de a lua în considerare aceste moduri, trebuie să vorbim despre un aspect important ca și depozitarea agregatelor. Faptul este că în orice depozit de date - atât în \u200b\u200bobișnuit, cât și într-un multidimensional - împreună cu datele detaliate extrase din sistemele operaționale, sunt stocate indicatorii totali (indicatori agregați, agregate), cum ar fi cantitatea de volum de vânzări după luni, pe categorii, etc. Agregatele sunt stocate în mod explicit cu singurul scop - pentru a accelera executarea cererilor. La urma urmei, pe de o parte, stocarea se acumulează, de regulă, o cantitate foarte mare de date și, pe de altă parte, în majoritatea cazurilor, nu sunt detaliate, dar indicatorii generalizați sunt interesați. Și dacă de fiecare dată ar trebui să rezume milioane de vânzări individuale pentru anul de a calcula suma vânzărilor, viteza ar fi fost cel mai probabil inacceptabilă. Prin urmare, la încărcarea datelor în baze de date multidimensionale, toți indicatorii totali sau părțile lor sunt calculate și salvate.

Dar, după cum știți, trebuie să plătiți pentru tot. Și pentru viteza de prelucrare a cererilor la datele totale, este necesar să se plătească o creștere a sumelor de date și timp de descărcare. Mai mult, o creștere a volumului poate fi literalmente catastrofală - într-unul din testele standard publicate, o numărare completă a unităților de 10 MB de date sursă necesare 2,4 GB, adică datele au crescut de 240 de ori! Gradul de "umflare" de date la calcularea unităților depinde de numărul de măsurători ale cubului și de structura acestor măsurători, adică raportul dintre numărul de "părinți" și "copiii" la diferite niveluri de măsurare. Pentru a rezolva problema depozitării agregatelor, se aplică uneori scheme complexe, permițând nu toate agregatele posibile la calcularea, pentru a obține o creștere semnificativă a performanței interogărilor.

Acum despre diferite opțiuni de stocare. Ambele date detaliate și agregate pot fi stocate fie în structuri relaționale, fie în structuri multidimensionale. Depozitarea multidimensională permite ca datele să fie tratate ca o matrice multidimensională, asigurând astfel aceleași calcule rapide ale indicatorilor totali și diverse transformări multidimensionale în funcție de orice măsurătoare. Cu ceva timp în urmă, produsele OLAP au sprijinit fie stocarea relațională sau multidimensională. Astăzi, de regulă, același produs oferă ambele tipuri de stocare, precum și cel de-al treilea tip mixt. Se aplică următorii termeni:

  • Malap. (OLAP multidimensional) - și date detaliate, iar agregatele sunt stocate într-o bază de date multidimensională. În acest caz, se obține cea mai mare redundanță, deoarece datele multidimensionale conțin pe deplin relațional.
  • Rolap. (OLAP relațional) - Date detaliate rămân în cazul în care au "trăit" inițial în baza de date relațională; Agregatele sunt stocate în aceeași bază de date în tabele de servicii special create.
  • Holap. (Hybrid OLAP) - Date detaliate rămân în vigoare (în baza de date relațională), iar unitățile sunt stocate într-o bază de date multidimensională.

Fiecare dintre aceste metode are avantajele și dezavantajele sale și ar trebui aplicate în funcție de condițiile - cantitatea de date, puterea DBM-urilor relaționale etc.

La stocarea datelor în structuri multidimensionale, apare o problemă potențială "umflături" datorită stocării valorilor goale. La urma urmei, în cazul în care matricea multidimensională este rezervată în toate combinațiile posibile de mărci de măsurare și doar o mică parte (de exemplu, o serie de produse sunt vândute numai într-un număr mic de regiuni), apoi Bo / chiar o parte a cubului Fiți goi, deși locul va fi ocupat. Produsele moderne OLAP sunt capabile să facă față acestei probleme.

Va urma. În viitor, vom vorbi despre produsele OLAP specifice fabricate de producătorii de frunte.

Este posibil ca cineva care utilizează tehnologia OLAP (procesarea analitică on-line) atunci când raportarea clădirilor va părea un fel de exotic, astfel încât aplicarea OLAP Cube nu este deloc una dintre cele mai importante cerințe pentru automatizarea contabilității bugetare și de gestionare.

De fapt, este foarte convenabil să utilizați un cub multidimensional atunci când lucrați cu raportarea managerială. La dezvoltarea formatelor bugetare, vă puteți confrunta cu problema formularelor multivariate (mai multe despre acest lucru poate fi citită în cartea 8 "Tehnologia bugetării în cadrul companiei" și în cartea "Stadializare și Automatizare a contabilității managementului").

Acest lucru se datorează faptului că gestionarea eficientă a companiei necesită rapoarte din ce în ce mai detaliate. Adică, în sistem, se utilizează din ce în ce mai multe secțiuni analitice (în sistemele de informare Analiștii sunt determinați de un set de cărți de referință).

Firește, aceasta duce la faptul că liderii vor să primească declarații în toate reducerile lor analitice care le interesează. Și acest lucru înseamnă că rapoartele trebuie să forțeze într-un fel "respirație". Cu alte cuvinte, se poate spune că în acest caz vorbim despre sensul aceluiași raport ar trebui să furnizeze informații în diferite reduceri analitice. Prin urmare, rapoartele statice nu mai sunt mulțumiți de mulți lideri moderni. Ei au nevoie de o dinamică pe care o poate da un cub multidimensional.

Astfel, tehnologia OLAP a devenit deja un element obligatoriu în sistemele informatice moderne și promițătoare. Prin urmare, când este selectat un produs software, trebuie să acordați atenție dacă este utilizată de tehnologia OLAP.

Și trebuie să puteți distinge cuburile reale de imitație. Una dintre aceste simulări sunt tabele sumare în MS Excel. Da, acest instrument este similar cu un cub, dar de fapt nu este, deoarece este static și nu tabelele dinamice. În plus, acestea sunt mult mai rele decât implementate posibilitatea de a construi rapoarte folosind elemente din cărți de referință ierarhice.

Pentru a confirma relevanța utilizării Cubei la raportarea managementului construirii, puteți aduce cel mai simplu exemplu cu bugetul de vânzări. În acest exemplu, secțiunile analitice actuale ale companiei sunt relevante: produse, sucursale și canale de vânzări. Dacă acești trei analiști sunt importanți pentru companie, vânzările bugetului (sau raportul) pot fi afișate în mai multe opțiuni.

Trebuie remarcat faptul că, dacă creați un buget bazat pe trei secțiuni analitice (ca în exemplul în cauză), vă permite să creați modele bugetare suficient de complexe și să compileze rapoarte detaliate utilizând Cuba.

De exemplu, bugetul de vânzări poate fi compilat utilizând doar o singură analiză (director). Un exemplu de buget de vânzare construit pe baza unui singur analitics prezentat pe figura 1..

Smochin. 1. Un exemplu de buget de vânzare construit pe baza unui singur analitic în OLAP Cuba

Același buget de vânzări poate fi compilat utilizând doi analist (cărți de referință). Un exemplu de buget de vânzări construit pe baza a două "produse" și "ramuri" este prezentat pe figura 2..

Smochin. 2. Un exemplu de buget de vânzări construit pe baza a două "produse" și "ramuri" în Cuba OLAP a complexului software "Integral"

.

Dacă este nevoie să construiți rapoarte mai detaliate, atunci puteți face același buget de vânzări utilizând trei analist (cărți de referință). Un exemplu de buget de vânzări construit pe baza a trei "produse", "ramuri" și "canale de vânzări" sunt prezentate figura 3..

Smochin. 3. Un exemplu de buget de vânzare construit pe baza a trei produse "produse", "ramuri" și "canale de vânzări" în complexul software OLAP Cuba "Integol"

Este necesar să vă amintim că cubul utilizat pentru a genera rapoarte vă permite să transmiteți date în diferite secvențe. Pe figura 3. Bugetul de vânzări primul "dezvăluie" de produse, apoi de către sucursale și apoi pe canale de vânzări.

Aceleași date pot fi reprezentate într-o altă secvență. Pe figura 4. Aceleași bugetul de vânzări "se desfășoară" mai întâi de produse, apoi pe canalele de vânzări și apoi prin ramuri.

Smochin. 4. Un exemplu de buget de vânzări construit pe baza a trei "produse" analist, "canale de vânzări" și "ramuri" în complexul software OLAP Cuba "Integol"

Pe figura 5. Același buget de vânzări "se desfășoară" mai întâi pe ramuri, apoi prin produse, apoi prin canale de vânzări.

Smochin. 5. Un exemplu de buget de vânzări, construit pe baza a trei ramuri "," produse "și" canale de vânzări "în complexul programului OLAP-CHEP" Integral "

De fapt, aceasta nu este toate opțiunile posibile pentru ieșirea bugetului vânzărilor.

În plus, trebuie să acordați atenție faptului că cubul vă permite să lucrați cu structura ierarhică a cărților de referință. În exemplele prezentate, directoarele ierarhice sunt "produse" și "canale de vânzări".

Din punctul de vedere al utilizatorului, primește mai multe rapoarte manageriale în acest exemplu (a se vedea Smochin. 1-5.), iar din punctul de vedere al setărilor din produsul software este un raport. Doar folosind un cub poate fi vizualizat în mai multe moduri.

În mod natural, în practică, un număr foarte mare de opțiuni pentru producția diferitelor rapoarte manageriale sunt posibile dacă articolele lor sunt construite pe unul sau mai mulți analiști. Iar analistul în sine depinde în detaliu de nevoile utilizatorilor. Adevărat, nu ar trebui uitat că, pe de o parte, cu atât mai mult analist, pot fi construite rapoartele mai detaliate. Dar, pe de altă parte, înseamnă că modelul financiar al bugetării va fi mai complex. În orice caz, dacă există un Cuba, compania va avea capacitatea de a vedea raportarea necesară în diferite versiuni, în conformitate cu reduceri analitice interesante.

Este necesar să menționăm mai multe despre mai multe caracteristici OLAP Cuba.

Într-o ierarhică multidimensională OLAP Cuba există mai multe măsurători: un tip de șir, dată, șiruri, carte de referință 1, manualul 2 și manualul 3 (a se vedea Smochin. 6.). Bineînțeles, în raport sunt afișate cât mai multe butoane cu cărți de referință, cât de mult este în șirul de buget care conține numărul maxim de cărți de referință. Dacă nu există niciun director în orice linie de buget, atunci nu vor exista butoane cu cărți de referință.

Inițial, OLAP-Cub se bazează pe toate măsurătorile. În mod implicit, cu construcția inițială a raportului de măsurare, se află în acele zone așa cum se arată în figura 6.. Aceasta este, o astfel de măsură, ca "data", este situată în zona măsurătorilor verticale (măsurători din zona coloanei), măsurătorile "Linii", "Directorul 1", "Directorul 2" și "Directorul 3" - în domeniul măsurătorilor orizontale (măsurători ale zonei) și "tipul liniei" de măsurare - în zona măsurătorilor "subestimate" (măsurători din regiunea paginii). Dacă măsurarea se află în ultima zonă, datele din raport nu vor "dezvălui" pe această măsurătoare.

Fiecare dintre aceste măsurători poate fi plasată în oricare dintre cele trei regiuni. După transferul măsurătorilor, raportul este reconstruit instantaneu în conformitate cu noua configurație de măsurare. De exemplu, puteți schimba data și rândurile cu cărți de referință. Sau puteți transfera una dintre referințele la zona de măsurare verticală (a se vedea Smochin. 7.). Cu alte cuvinte, raportul din OLAP Cuba poate fi "răsucire" și alegeți ieșirea raportului, care este cea mai convenabilă pentru utilizator.

Smochin. 7. Un exemplu de raportare a raportului după schimbarea configurației măsurării complexului software "Integral"

Configurația măsurării poate fi modificată fie în forma principală a cubului, fie în editorul de carduri de schimbare (a se vedea Smochin. opt). În acest editor, puteți de asemenea să trageți măsurătorile dintr-o zonă la alta. În plus, este posibilă modificarea locurilor de măsurare într-o singură zonă.

În plus, în aceeași formă puteți configura unii parametri de măsurare. Pentru fiecare măsurătoare, puteți configura locația rezultatelor, ordinea de sortare a elementelor și a numelor elementelor (a se vedea Smochin. opt). De asemenea, puteți specifica ce nume de afișare: abreviat (nume) sau plin (Fullname).

Smochin. 8. Harta de măsurare a hărții editorului a complexului software integrat

Editați parametrii de măsurare pot fi direct în fiecare dintre ele (a se vedea Smochin. nouă). Pentru a face acest lucru, faceți clic pe pictograma situată pe butonul de lângă numele de măsurare.

Smochin. 9. Un exemplu de editare a directoarelor 1 Produse și servicii în

Cu acest editor, puteți selecta elementele care trebuie afișate în raport. În mod implicit, toate elementele sunt afișate în raport, dar dacă este necesar, nu se poate afișa o parte din elementele sau folderele. De exemplu, dacă doriți să afișați un singur grup de produse la raport, atunci toate celelalte trebuie să elimine casetele de selectare din editorul de măsurare. După aceasta, numai un singur grup va fi în raport (a se vedea Smochin. 10.).

De asemenea, în acest editor puteți sorta elemente. În plus, elementele pot fi rearanjate în diferite moduri. După o astfel de regrupare, raportul este reconstruit instantaneu.

Smochin. 10. Un exemplu de ieșire în raportul unui singur grup de produse (folder) din pachetul software "integral"

În editorul de măsurare, puteți crea prompt grupurile, trageți elementele IT din cărțile de referință acolo. În mod implicit, numai grupul "Altele" este creat automat, dar pot fi create alte grupuri. Astfel, folosind editorul de măsurare, puteți configura ce elemente de cărți de referință și în ce ordine ar trebui să fie afișate în raport.


Trebuie remarcat faptul că toate rearanjările nu sunt înregistrate. Adică, după închiderea raportului sau după recalculare, toate directoarele vor fi afișate în raport în conformitate cu metodologia configurată.

De fapt, toate aceste schimbări s-ar putea face inițial atunci când se înființează rânduri.

De exemplu, utilizarea restricțiilor, puteți specifica, de asemenea, care elemente sau grupuri de cărți de referință trebuie afișate în raport și care nu sunt.

Notă: În detaliu, subiectul acestui articol este considerat la ateliere de lucru "Gestiunea bugetului întreprinderii" și "Oprirea și automatizarea contabilității managementului" Cine deține autorul acestui articol - Alexander Karpov.

Dacă utilizatorul trebuie să retragă doar anumite elemente sau foldere de referință în raport, atunci astfel de setări sunt mai bune de făcut în avans atunci când creați linii de raport. Dacă diferite combinații de elemente de referință din rapoarte sunt importante pentru utilizator, atunci când se configurează tehnica, nu trebuie instalate restricții. Toate aceste restricții pot fi configurate rapid utilizând editorul de măsurare.

În articolul precedent al acestui ciclu (a se vedea nr. 2'2005), am vorbit despre principalele inovații ale serviciilor analitice ale SQL Server 2005. Astăzi vom examina mijloacele de a crea soluții OLAP care sunt incluse în acest produs.

Pe scurt despre elementele de bază ale OLAP

o conversație despre crearea soluțiilor OLAP, reamintim că OLAP (procesare analitică on-line) este o tehnologie cuprinzătoare de analiză multidimensională a datelor, conceptul a fost descris în 1993 de EF Koddom, faimosul autor al relaționalului Model de date. În prezent, suportul OLAP este implementat în multe instrumente DBMS și alte instrumente.

Olap-Cuba.

Ce sunt datele OLAP? Ca răspuns la această întrebare, luați în considerare cel mai simplu exemplu. Să presupunem că, în baza de date corporativă a unor întreprinderi, există un set de tabele care conțin informații despre vânzările de bunuri sau servicii și pe baza facturilor, țara (țară), oraș (țară), personalizan, țară, vânzători (vânzări manager), Orderdate (Data de plasare a comenzilor), categoria (categoria de produse), produsul de produs, expedier (compania de transport), extindePrice (plata bunurilor), în timp ce ultimul câmp listat, de fapt, este un obiect de analiză.

Selectarea datelor dintr-o astfel de vizualizare pot fi implementate utilizând următoarea interogare:

Selectați țara, orașul, personalizarea, vânzătorul,

Orderdate, Categorie, Nume produs, ShipPerName, ExtendedPrice

De la facturi.

Să presupunem că suntem interesați de costul total al comenzilor făcute de clienți din diferite țări. Pentru a primi un răspuns la această întrebare, trebuie să faceți următoarea interogare:

Selectați țara, suma (extindePrice) de la facturi

Grup pe țară.

Rezultatul acestei interogări va fi un set unidimensional de date agregate (în acest caz - sumele):

Țară. Suma (ExtendedPrice)
Argentina. 7327.3
Austria. 110788.4
Belgia. 28491.65
Brazilia 97407.74
Canada. 46190.1
DANEMARCA. 28392.32
Finlanda. 15296.35
Franţa. 69185.48
209373.6
...

Dacă vrem să știm care costul total al comenzilor făcute de clienți din diferite țări și livrat de diferite servicii de livrare, trebuie să executăm o solicitare care să conțină doi parametri în grup de clauză:

Selectare, expediere, suma (extindePrice) de la facturi

Grup de țară, expeditor

Pe baza rezultatelor acestei interogări, puteți crea un tabel din formularul de mai jos:

Acest set de date se numește tabel consolidat (tabel de pivot).

Selectare, expeditor, sumă de vânzări (ExtendedPrice) de la facturi

Grup de țară, expediere, an

Pe baza rezultatelor acestei solicitări, puteți construi un cub tridimensional (figura 1).

Adăugând parametri suplimentari pentru analiză, puteți crea un cub cu un teoretic în orice număr de măsurători, în timp ce împreună cu cantitățile din celulele Cubului OLAP pot conține rezultatele calculării altor funcții agregate (de exemplu, media, Valori minime, minime, numărul de intrări de reprezentare inițială care corespund acestor parametri setați). Câmpurile bazate pe care se calculează rezultatele se numesc măsuri cubului.

Ierarhia în măsurători

Să presupunem că suntem interesați nu numai de costul total al ordinelor făcute de clienți în diferite țări, ci și valoarea totală a comenzilor făcute de clienți în diferite orașe ale unei țări. În acest caz, puteți utiliza faptul că valorile aplicate pe axă au nivele diferite de detalii - aceasta este descrisă ca parte a conceptului de ierarhie a schimbărilor. Spuneți, la primul nivel al ierarhiei, există țări, în cele două orașe. Trebuie remarcat faptul că, de la SQL Server 2000, serviciile analitice suportă așa-numitele ierarhii dezechilibrate care conțin, de exemplu, astfel de membri ai căror copii nu sunt conținut în nivelurile vecine de ierarhie sau absente pentru unii membri ai schimbării. Un exemplu tipic al unei astfel de ierarhii este luarea în considerare a faptului că în diferite țări nu pot exista un astfel de unități administrativ-teritoriale, cum ar fi personalul sau un spațiu situat într-o ierarhie geografică între țări și orașe (fig.2).

Rețineți că, recent, ierarhiile tipice au fost alocate, de exemplu, conținând date geografice sau temporare, precum și menținând existența mai multor ierarhii într-o singură dimensiune (în special pentru anul calendaristic și anul fiscal).

Crearea de cuburi OLAP în SQL Server 2005

SQL Server 2005 cuburi sunt create utilizând SQL Server Business Intelligence Studio de dezvoltare. Acest instrument este o versiune specială a Visual Studio 2005, concepută pentru a rezolva această clasă de sarcini (și dacă există deja un mediu de dezvoltare fixă, lista șabloanelor de proiect este actualizată cu proiecte concepute pentru a crea soluții bazate pe SQL Server și serviciile sale analitice) . În special, șablonul de proiect de servicii de analiză este conceput pentru a crea soluții bazate pe servicii analitice (figura 3).

Pentru a crea un cub OLAP, în primul rând, ar trebui să fie rezolvată, pe baza datelor pentru ao forma. Cel mai adesea, Cuburile OLAP sunt construite pe baza depozitelor de date relaționale cu schemele de "Star" sau "Snowflake" (ni sa spus despre partea anterioară a articolului). În kitul de livrare SQL, există un exemplu de bază de date de stocare - ADVENTUREWORWSDW, pentru a utiliza care dosarul surselor de date ar trebui să fie găsit ca sursă, selectați noul element de meniu contextual de date și răspundeți în mod consecvent la întrebările corespunzătoare Expertul (figura 4).

Apoi se recomandă crearea unei vizualizări sursă de date - o vizualizare bazată pe care va fi creat un cub. Pentru a face acest lucru, selectați elementul corespunzător al dosarului vizualizări sursă de date și răspundeți în mod consecvent în expert. Rezultatul acțiunilor specificate va fi diagrama de date prin care vor fi construite sursele de date, iar în schema rezultată, în loc de original, puteți specifica nume de tabele "prietenoase" (figura 5).

Cubul descris în acest mod poate fi transferat pe serverul de servicii analitice selectând opțiunea Implementare din meniul contextual al proiectului și vizualizați datele (fig.7).

La crearea cuburilor, sunt utilizate în prezent multe caracteristici ale noii versiuni de SQL Server, cum ar fi prezentarea surselor de date. Conținutul datelor sursă pentru construcția cubului, precum și descrierea structurii cubului, este acum produsă cu ajutorul unui prieten la multe dezvoltatori de instrumente Visual Studio, ceea ce reprezintă un avantaj considerabil al noii versiuni a acestui produs - Studiul dezvoltatorilor de soluții analitice ale noului set de instrumente în acest caz este minimizat.

Rețineți că în Cuba creat, puteți modifica compoziția de măsuri, ștergeți și adăugați atribute de măsurare și adăugați atributele calculate ale elementului de măsurare pe baza atributelor disponibile (figura 8).

Smochin. 8. Adăugarea unui atribut calculat

În plus, în cuburile SQL Server 2005, puteți efectua gruparea automată sau sortarea membrilor de măsurare prin valoarea atributului, pentru a determina legăturile dintre atribute, implementarea legăturilor "Multe la mulți", identificați indicatorii cheie ai afacerilor, precum și rezolvarea Multe alte sarcini (detalii despre modul în care se efectuează toate aceste acțiuni, puteți găsi în secțiunea Tutorial SQL Server Services Services din sistemul de referință al acestui produs).

În părțile ulterioare ale acestei publicații, vom continua să vă familiarizăm cu serviciile analitice ale SQL Server 2005 și vom afla ce a apărut în zona de asistență minieră a datelor.



Ți-a plăcut articolul? Împărtășește-l