Reducerea dimensiunii · Loginom Wiki. Introducere la o scădere a dimensiunii Ce metodă ajută la reducerea dimensiunii datelor

Capitolul 13. Metoda componentei principale

13.1. Esența problemei dimensiunii reduse și a diferitelor metode ale soluției sale

În cercetarea și lucrările statistice practice, este necesar să se ocupe de situațiile în care numărul total de semne înregistrate pe fiecare dintre numeroasele subiecte (țări, orașe, întreprinderi, familii, pacienți, sisteme tehnice sau de mediu) este foarte mare - aproximativ o sută mai mult. Cu toate acestea, observațiile multidimensionale existente

ar trebui să fie supusă procesării statistice, înțelegerea sau intrarea în baza de date pentru a le putea folosi la momentul potrivit.

Dorința statisticilor reprezintă fiecare dintre observațiile (13.1) sub forma unui vector Z al unor indicatori auxiliari cu un număr semnificativ mai mic (decât) al pielii se datorează în primul rând din următoarele motive:

necesitatea unei reprezentări vizuale (vizualizare) a datelor sursă (13.1), care se realizează prin proiecția lor pe un spațiu tridimensional special selectat al planului sau al numericului direct (obiectivele acestui tip IV);

dorința de a fi laconism în cadrul modelelor investigate datorită necesității de a simplifica contul și interpretarea concluziilor statistice obținute;

necesitatea de a comprima substanțial volumele informațiilor statistice stocate (fără pierderi vizibile în informativitatea sa), dacă vine vorba de înregistrarea și stocarea marmelor de tip (13.1) într-o bază de date specială.

În același timp, noile caracteristici (auxiliare) pot fi selectate din numărul de inițial sau de a fi determinate de orice regulă privind setul de semne sursă, de exemplu, combinațiile lor liniare. Când se formează sistem nou Semnează către acesta din urmă, împiedic diferitele noastre cerințe, cum ar fi cea mai mare informație (într-un anumit sens), non-corozitatea reciprocă, cea mai mică denaturare a structurii geometrice a unui set de date sursă etc., în funcție de Specificarea formală a acestor cerințe (vezi mai jos, și, de asemenea, secțiunea IV) ajungem la un algoritm de reducere a dimensiunii. Există cel puțin trei tipuri de premisități fundamentale care determină posibilitatea de tranziție de la un număr mare de indicatori sursă ai statului (comportament, eficiență funcțională) a sistemului analizat la un număr semnificativ mai mic de variabile cele mai informative. Aceasta este, în primul rând, duplicarea informațiilor livrate semne puternic interdependente; În al doilea rând, non-informativitatea semnelor, schimbarea puțin în timpul tranziției de la un obiect la altul (mic "variabilitate" de semne); În al treilea rând, posibilitatea de agregare, adică o sumare simplă sau "ponderată", potrivit unor semne.

În mod oficial, sarcina tranziției (cu cea mai mică pierdere în informativă) la un nou set de caracteristici poate fi descrisă după cum urmează. Să presupunem că - o anumită funcție vectorială p-dimensională a variabilelor inițiale și lăsate într-un anumit mod măsura specifică a sistemului de informare-dimensională a caracteristicilor alegerea specifică a funcționalului depinde de specificul sarcinii reale rezolvate și se bazează pe unul dintre acestea Criteriile posibile: criteriul de autoformativitate, destinat informațiilor maxime de economisire conținute în matricea sursă față de semnele sursă; și criteriul informativității externe destinate maximului "stoarcere" maximă a informațiilor conținute în această matrice față de alți indicatori (externi).

Sarcina este de a determina un astfel de set de semne z, găsit în clasa F de transformări admise ale indicatorilor inițiali care

Una sau altă formă de realizare a acestei formulări (definind alegerea specifică Măsurile de informare) și clasa de transformări admise) duce la o metodă de reducere a dimensiunii specifice: la metoda principală a componentelor, analiza factorilor, gruparea extremă a parametrilor etc.

Să o explicăm pe exemple.

13.1.1. Metoda componentei principale (a se vedea § 13.2-§ 13.6).

Este vorba despre primele componente principale pe care le va veni cercetătorul, dacă clasa transformărilor admise F va determina tot felul de combinații normalizate ortogonale liniare de indicatori inițiali, adică.

(AICI) - Așteptările matematice A ca măsură a informativității - indicatori de sistem dimensional

(Aici, ca înainte, semnul funcționării de calcul a dispersiei variabilei aleatorie corespunzătoare).

13.1.2. Analiza factorilor (vezi capitolul 14).

Așa cum este cunoscut (vezi § 14.1), modelul analizei factorilor explică structura legăturilor dintre indicatorii inițiali, deoarece comportamentul fiecăruia depinde statistic de același set de așa-numiți factori comuni.

În cazul în care - "sarcina" factorului general de pe indicatorul sursă este componenta aleatorie "specifică" reziduală, și - în perechi sunt necorelate.

Se pare că dacă f, ca o clasă de toate tipurile de combinații liniare, luând în considerare limitele menționate mai sus, să aleagă valoarea problemei de optimizare (13.2) ca măsură a informativității (13.2), coincide cu comunele factori în modelul de analiză a factorilor. Aici - matricea de corelare a indicatorilor inițiali Matricea de corelare a indicatorilor - norma euclidiană a matricei A.

13.1.3. Metoda de grupare extremă (vezi pct. 14.2.1).

În această metodă, vorbim despre o astfel de partiție a setului de indicatori inițiali la un anumit număr de grupuri pe care semnele aparținând aceluiași grup ar fi relativ puternic puternic, în timp ce semnele aparținând diferitelor grupuri ar fi corelate slab. În același timp, sarcina de a înlocui fiecare grup de indicatori inițiali puternici este rezolvată de un indicator auxiliar de "azil" care, desigur, ar trebui să fie în strânsă corelație cu semnele grupului său. După definit ca o clasă de transformări admise F a indicatorilor inițiali, toate combinațiile liniare normalizate caută o maximizare a soluției (prin s și) funcționalități

unde este coeficientul de corelație între variabile.

13.1.4. Scalarea multidimensională (vezi capitolul 16).

Într-o serie de situații, în primul rând, în situațiile în care statisticile inițiale sunt obținute utilizând sondaje speciale, chestionare, estimări ale experților, există cazuri în care elementul observației primare nu este starea obiectului descris de vector și caracteristica de proximitate pereche (distanță) a două obiecte (sau semne), respectiv cu numere

În acest caz, cercetătorul are o matrice de dimensiune ca o serie de date statistice sursă (dacă sunt luate în considerare caracteristicile perechilor de obiecte de obiecte) sau (dacă sunt luate în considerare caracteristicile perechilor de semne de semne) ale speciilor

În cazul în care valorile sunt interpretate fie ca distanțe între obiecte (caracteristici) I și fie ca rânduri care stabilesc raționalizarea acestor distanțe. Sarcina de scalare multidimensională este de a "imerse" obiectele noastre (semne) într-un spațiu atât de dimensional, adică să aleagă axa de coordonate astfel încât configurația geometrică originală a setului de puncte analizate (sau caracteristici de puncte) specificate Prin (13.1) sau (13.5), ar fi cel mai puțin distorsionat în sensul unui anumit criteriu pentru "gradul de distorsiune" mediu al perechilor reciproce de distanțe.

Unul dintre sistemele generale suficiente de scalare multidimensională este determinată de criteriu.

În cazul în care este distanța dintre obiectele din spațiul sursă, distanța dintre aceleași obiecte în spațiul solicitat de parametri liberi de dimensiuni mai mici, selectarea valorilor specifice care se face la discreția cercetătorului.

Identificați o măsură a informativității setului de semne z, de exemplu, ca o magnitudine invers menționată mai sus valoarea gradului de denaturare a structurii geometrice a setului original de puncte, reducem această sarcină la formularea generală ( 13.2), crezând

13.1.5. Selectarea indicatorilor cei mai informativi în modelele analizei discriminante (a se vedea § 1.4; 2.5).

Funcțiile de mai sus sunt contoarele informative autografice ale sistemului corespunzător de semne. Acum oferim exemple de criterii informative externe. În special, vom fi interesați de informativitatea sistemului de indicatori din punctul de vedere al corectitudinii clasificării obiectelor în acești indicatori în schema de analiză discriminantă. În același timp, clasa de transformări admise f Definim cu privire la cerințele cerințelor pe care le pot fi luate în considerare numai reprezentanții setului de indicatori inițiali, adică.

O teză comună sursă în rezolvarea problemei de identificare a celor mai informativi indicatori din setul inițial este afirmația că vectorul indicatorilor unei dimensiuni date este mai informativ decât diferența dintre legislația distribuției sale probabiliste definite în diferite clase din diferite clase Sarcina de clasificare în cauză. Dacă introduceți modul de diferență pereche în legile care descriu distribuția probabilităților caracteristicilor caracteristicilor din clasele cu numere, este posibilă formalizarea principiului de selecție a celor mai informativi indicatori. Determinarea acestora de la maximizare condiție (software) a mărimii

Cele mai multe măsuri comune Diferențele dintre legile distribuției de probabilitate sunt distanța tip de informație. (Distanța Doljkakak, distanța Mahalanobis), precum și "Distanța de variație" (vezi mai multe detalii despre el.

13.1.6. Selectarea variabilelor cele mai informative din modelele de regresie (vezi).

La construirea dependențelor de tip de regresie, una dintre centrale este de a identifica un număr relativ mic de variabile (de la un set priori de semne cele mai semnificative ale rezultatului rezultat al rezultatului rezultat.

Astfel, ca și în paragraful anterior, clasa F constă în tot felul de seturi de variabile selectate din setul inițial de factori de argumentare și se ocupă de criteriul informativității externe a acestor seturi. Vizualizarea sa este setată de obicei utilizând un coeficient de determinare multiplă - caracteristicile gradului de etanșeitate a conexiunii indicatorului Y cu un set de variabile. În același timp, pentru o dimensiune fixă, setul de variabile va fi în mod evident considerat Majoritatea informativă (în ceea ce privește acuratețea descrierii comportamentului indicatorului indicatorului), dacă valoarea informativității este pe acest set atinge maximul.

În statistici, teoria învățării și informațiilor, reducerea dimensiunii este de a transforma datele constând în reducerea numărului de variabile prin primirea principalelor variabile. Conversia poate fi împărțită în selecția de caracteristici și selectarea caracteristicilor.

Concepte conectate

Menționat în literatură

- Date de intrare și preprocesare - aspectul manual și automat al stimulului (selectarea zonelor de interes), - algoritm pentru calcularea matricei de reprezentare succesor, - construirea unei tabele de date extinse cu valorile variabilelor de intrare necesare pentru analiza ulterioară - metodă dimensiune redusă Spații spațiale (metoda componentei principale); - vizualizarea încărcăturilor componente pentru a selecta componenta interpretabilă - algoritmul de învățare a copacului de soluții, este un algoritm pentru evaluarea capacității predictive a copacului, - vizualizarea copacului de soluții.

Concepte legate (continuare)

Tehnicile de grupare spectrale utilizează spectrul (valorile proprii) ale matricei de similaritate a datelor pentru a reduce dimensiunea înainte de gruparea în spații mai mici. Matricea de similitudine este furnizată ca intrare și constă în estimări cantitative ale similitudinii relative a fiecărei perechi de puncte din date.

Metodele spectrale sunt o clasă de tehnician utilizat în matematica aplicată pentru o soluție numerică a unor ecuații diferențiale, este posibil să se implice transformarea rapidă Fourier. Ideea constă în realizarea ecuațiilor diferențiale de rezolvare a recensământului ca suma unor "funcții de bază" (de exemplu, deoarece seria Fourier sunt suma sinusoidului), apoi selectați coeficienții în cantitate pentru a satisface cât mai mult ecuația diferențială.

Analiza matematică (analiza matematică clasică) este un set de secțiuni de matematică corespunzătoare secțiunii istorice sub denumirea "Analiza infinit de mici", combină calculul diferențial și integral.

Evoluția diferențială (Eng. Differențial Evolution) - Metoda de optimizare matematică multidimensională legate de clasa algoritmilor de optimizare stochastică (adică funcționează folosind numere aleatorii) și folosind unele idei de algoritmi genetici, dar, spre deosebire de ele, nu necesită muncă cu Variabile în cod binar.

Metoda elementului discret (DEM, din metoda elementului discret) este o familie de metode numerice destinate calculării mișcării unui număr mare de particule, cum ar fi moleculele, pietrișul, pietrișul, pietricelele și alte medii granulate. Metoda a fost aplicată inițial cundall în 1971 pentru a rezolva problemele de mecanică rock.

Scopul studiului:

Evaluarea eficacității metodologiei de reducere a dimensiunii datelor pentru a optimiza aplicarea lor în practica de recunoaștere (identificare).

Sarcini de cercetare:

1. Revizuirea surselor literare despre metodele existente Reduceți dimensiunea datelor.

2. Efectuarea de cercetări (experimente) pentru a compara eficacitatea algoritmilor de reducere a datelor aplicate în practică în sarcinile de clasificare

Metode de cercetare (software):

C ++ Limba de programare, Biblioteca OpenCV

Percepția datelor cu dimensiuni mari pentru o persoană este dificilă și, uneori, este imposibilă. În acest sens, destul de natural a fost dorința de a trece de la un eșantion multidimensional la datele unei dimensiuni mici, astfel încât "ei ar putea să se uite la ele", să evalueze și să utilizeze, inclusiv pentru a atinge sarcinile de recunoaștere. În plus față de vizibilitate, reducerea dimensiunii vă permite să scăpați de factori (informații) care interferează cu analiza statistică, extinzând timpul de colectare a informațiilor, creșterea dispersiei estimărilor parametrilor și caracteristicilor distribuțiilor.

Reducerea dimensiunii este transformarea datelor sursă cu o dimensiune mare într-o nouă reprezentare a unei dimensiuni mai mici, care menține informații de bază. În cazul perfect, dimensiunea reprezentării convertite corespunde dimensiunii interne a datelor. Dimensiunea datelor interne este numărul minim de variabile necesare pentru a exprima toate proprietățile posibile de date. Un model analitic, construit pe baza unor date multiple reduse, ar trebui să fie mai ușor de prelucrare, implementare și înțelegere decât modelul construit pe setul sursă.

Decizia privind alegerea metodei de reducere a dimensiunii se bazează pe cunoașterea caracteristicilor sarcinii care sunt rezolvate și rezultatele așteptate, precum și timpul limitat și resurse computaționale. Conform recenzii literare, cele mai frecvent utilizate metode de reducere a dimensiunii includ analisul principal al componentelor (PCA), analisii independenți (ICA) și descompunerea de valoare singulară (SVD).

Analiza componentei principale (PCA) - cea mai ușoară metodă de reducere a dimensiunii datelor. Este utilizat pe scară largă pentru a converti semnele, reducând în același timp dimensiunea datelor în sarcinile de clasificare. Metoda se bazează pe proiecția datelor către un nou sistem de coordonate de o dimensiune mai mică, care este determinată de vectorii proprii și de numerele proprii ale matricei. Din punct de vedere al matematicii, metoda principală a componentelor este o transformare liniară ortogonală.

Ideea principală a metodei este de a calcula valorile proprii și a eigenvectoarelor din matricea de covariance a datelor pentru a minimiza dispersia. Matricea de covariance este utilizată pentru a determina împrăștierea în raport cu media relativă unul față de celălalt. Covariance de două variabile aleatorii (dimensiuni) - măsura dependenței lor liniare:

În cazul în care - așteptarea matematică a valorii aleatorie a lui X, - așteptarea matematică a variabilei aleatorie y. De asemenea, putem scrie formula (1) sub forma:

unde - media x, unde - media Y, N este dimensionalitatea datelor.

După calcularea vectorilor săi și a numerelor proprii, valorile lor sunt sortate în ordine descrescătoare. Astfel, componentele sunt obținute pentru a reduce semnificația. Vector propriu cu cel mai mare număr natural și este componenta principală a setului de date. Principalele componente sunt obținute prin înmulțirea rândurilor de la vectorii proprii pe valori proprii sortate. Pentru a găsi spațiul optim de o dimensiune mai mică, formula (3) este utilizată, ceea ce calculează eroarea minimă între setul sursă de date și următorul criteriu:

În cazul în care P este dimensiunea spațiului nou, N este dimensiunea eșantionului original, - valoroase, - prag. În timpul funcționării algoritmului, obținem o matrice cu date MP, convertită liniar din Mn, după care PCA găsește o mapare liniară M, o funcție de estimare minimizantă:

în cazul în care - distanța euclideană între puncte și, - distanța euclidiană între puncte și, . Minimul acestei funcții estimate poate fi calculat prin efectuarea unei descompuneri spectrale a matricei gram și multiplicând vectorul propriu al acestei matrice la rădăcina de la valori proprii.

Analiza componentelor independente ( ICa. ) , Spre deosebire de PCA, suficient de nou, dar câștigând rapid metoda de popularitate. Se bazează pe ideea unei transformări liniare a datelor în componente noi, care sunt cele mai independente din punct de vedere statistic și opțional ortogonale unul față de celălalt. Pentru cercetarea în această lucrare, algoritmul FASTASTIC a fost selectat, descris în detaliu în articol. Principalele sarcini aceasta metoda Acestea sunt centrate (scăderea medie a datelor) și "albire" (conversia liniară a vectorului x în vector cu coordonate necorelate, dispersia căreia este egală cu una).

Criteriul de independență din Fastica este non-Geasura, care este măsurat utilizând coeficientul excese:

Pentru variabilele aleatorie Gaussian, această valoare este zero, astfel încât FASTASTA maximizează valoarea acestuia. Dacă - datele "albite", apoi matricea de covarianie a datelor "albite" este o singură matrice.

O astfel de transformare este întotdeauna posibilă. Metoda populară de "albire" utilizează descompunerea spectrală a matricei de covarianțe , în cazul în care - matricea ortogonală a vectorilor săi, A este o matrice diagonală a numerelor proprii,. Se pare că "albire" poate fi reprezentată ca:

În cazul în care matricea este calculată de operațiunea pomoponentă:

Experimente

Pentru studiul experimental al metodelor propuse, a fost utilizată o secvență video bazată pe dicționar din baza de date Casia Gait. Baza conține secvențele de imagini binare corespunzătoare cadrelor individuale ale secvenței video pe care a fost deja făcută alocarea obiectelor în mișcare.

Dintre toate numeroasele videoclipuri, 15 clase au fost luate în mod aleatoriu, în care unghiul de împușcare este de 90 de grade, oamenii sunt descriși în haine obișnuite non-iarnă și fără saci. În fiecare clasă au fost 6 secvențe. Lungimea fiecărei secvențe a fost de cel puțin 60 de cadre. Clasele au fost împărțite în eșantioane de învățare și de testare de câte 3 secvențe fiecare.

Caracteristicile obținute ca urmare a metodelor PCA și ICA au fost utilizate pentru a studia clasificatorul, care în lucrarea de față a fost vectorii de sprijin (mașini vectoriale de sprijin, SVM).

Pentru a determina calitatea metodei metodei, a fost estimată acuratețea clasificării, definită ca fiind proporția obiectelor clasificate corect. În timpul experimentului, timpul petrecut în modul de instruire și testare a fost, de asemenea, fixat.

Figura 1. (a) Componenta principală (PCA) b) Metoda componentă independentă (ICA)

Figura 1 (a, b) prezintă relația dintre precizia de clasificare din valoarea dimensiunii de ieșire a datelor după conversie. Se poate observa că în PCA acuratețea clasificării cu o creștere a numărului de componente variază ușor și când se utilizează ICA, precizia pornind de la o anumită valoare, începe să cadă.

Figura 2. Dependența timpului de clasificare pe numărul de componente dar) PCA. b) ICa.

Figura 2 (a, b) prezintă dependența timpului de clasificare pe numărul de componente PCA și ICA. Creșterea dimensiunii în ambele cazuri a fost însoțită de o creștere liniară a timpului de procesare. Graficele arată că clasificatorul SVM a lucrat mai repede după scăderea dimensiunii utilizând metoda componentă principală (PCA).

Componenta principală Analisysys (PCA), analisii independenți de componente (ICA) au lucrat destul de repede și parametrii definiți Rezultatele ridicate au fost obținute în sarcina de clasificare. Dar, cu date cu o structură complexă, aceste metode nu vă permit întotdeauna să atingeți rezultatul dorit. Prin urmare, B. În ultima vreme Metodele locale neliniare sunt din ce în ce mai plătite la proiecția datelor pe unele varietăți, ceea ce vă permite să mențineți structura de date.

În viitor, este planificată extinderea atât a listei de algoritmi utilizați pentru a forma o descriere a caracteristicilor, cât și o listă de metode de clasificare utilizate. Un alt domeniu important de cercetare pare să reducă timpul de procesare.

Bibliografie:

Jolliffe, I.T, Analiza principală a componentelor, Springer, 2002
Hyvärinen și Erkki OJA, analiză independentă a componentelor: algoritmi și aplicații, rețele neuronale, 13, 2000
Josiński, H. Extragerea caracteristică și clasificarea bazată pe HMM a secvențelor video de mers în scopul identificării umane / Springer, 2013 - Vol 481.

Cuvinte cheie

Matematică / Statistici aplicate / Matematică Statistici / Puncte de creștere / Metoda componentei principale / ANALIZA FACTORILOR / Scară multidimensională / Evaluarea dimensiunii datelor / Estimarea dimensiunii modelului / Matematică / Statistică aplicată / Statistici matematice / Puncte de creștere / Analiza principală a componentelor / Analiza factorului / Scalarea / estimarea dimensiunii de date / Evaluarea dimensiunii modelului

adnotare articol științific în matematică, autor al muncii științifice - Orlov Alexander Ivanovich, Lutsenko Evgeny Veniaminovich

Unul dintre "punctele de creștere" statistici aplicate sunt metode de reducere a dimensiunii spațiului datelor statistice. Acestea sunt utilizate din ce în ce mai mult în analizarea datelor în studii specifice aplicate, de exemplu, sociologice. Luați în considerare cele mai promițătoare metode de dimensiune redusă. Metoda componentei principale Este una dintre metodele de dimensiuni cele mai frecvent utilizate. Pentru analiza vizuală a datelor, sunt utilizate adesea proiecții ale vectorilor inițiali pe planul primelor două componente principale. De obicei, structura de date este clar vizibilă, se disting clustere de obiecte compacte și vector eliberat separat. Metoda componentei principale este una dintre metode analiza factorilor. Noua idee în comparație cu metoda componentelor principale Este că pe baza încărcăturilor, factorii sunt împărțiți în grupuri. Într-un grup, factorii sunt combinați, având un efect similar asupra elementelor noii baze. Apoi, de la fiecare grup se recomandă să lase un reprezentant. Uneori, în loc să aleagă un reprezentant, se formează un nou factor, care este esențial pentru grupul în cauză. Reducerea dimensiunii are loc în timpul tranziției la sistemul de factori care sunt reprezentanți ai grupurilor. Factorii rămași sunt aruncați. Privind utilizarea distanțelor (măsuri de proximitate, indicatoarele de diferențe) între semne și clasa extinsă de metode se bazează scalarea multidimensională. Ideea principală a acestei metode este reprezentarea fiecărui obiect al punctului de spațiu geometric (de obicei dimensiunea 1, 2 sau 3), coordonatele care servesc drept valorile factorilor ascunși (latent), care sunt descriind destul de adecvat obiectul. Ca exemplu de aplicare a modelării statistice probabiliste și a rezultatelor non-statinești, justificăm coerența măsurării dimensiunii spațiului de date în scalarea multidimensionalăpropuse anterior de colomal din considerente euristice. Considerat o serie de lucrări pe evaluarea dimensiunilor modelelor (în analiza de regresie și în teoria clasificării). Dana Informații despre algoritmii Reducerea dimensiunii într-o analiză automată a sistemului-cognitiv

Subiecte similare lucrări științifice privind matematica, autorul muncii științifice - Orlov Alexander Ivanovich, Lutsenko Evgeny Veniaminovich

Metode matematice în sociologie timp de patruzeci și cinci de ani
Varietate de obiecte de non-natura
Evaluarea parametrilor: estimările într-o singură etapă sunt preferabile estimărilor maxime de credibilitate
Statistici aplicate - Statistici și perspective
2016 / Orlov Alexander Ivanovich
Statul și perspectivele de dezvoltare a statisticilor aplicate și teoretice
2016 / Orlov Alexander Ivanovich
Relația dintre teoremele limită și metoda Monte Carlo
2015 / Orlov Alexander Ivanovich
Privind dezvoltarea statisticilor obiectelor non-naturale
2013 / Orlov Alexander Ivanovich
Puncte de creștere a metodelor statistice
2014 / Orlov Alexander Ivanovich
Despre noile instrumente matematice promițătoare de control
2015 / Orlov Alexander Ivanovich
Distanțe în spațiile statistice
2014 / Orlov Alexander Ivanovich

Unul dintre "punctele de creștere" ale statisticilor aplicate este metodele de reducere a dimensiunii datelor statistice. Acestea sunt utilizate din ce în ce mai mult în analiza datelor în cercetări aplicate specifice, cum ar fi sociologia. Investigăm cele mai promițătoare metode de reducere a dimensionalității. Componentele principale sunt una dintre cele mai frecvent utilizate metode de reducere a dimensionalității. Pentru analiza vizuală a datelor sunt adesea folosite proiecțiile vectorilor originali pe planul primelor două componente principale. De obicei, structura de date este vizibilă, evidențiată Clustsere compacte de obiecte și vectori alocați separat. Componentele principale reprezintă o metodă de analiză a factorilor. Noua idee a analizei factorilor în comparație cu metoda principală a componentelor este că, pe baza încărcăturilor, factorii se descompun în grupuri. Într-un grup de factori, noul factor este combinat cu un impact similar asupra elementelor noii baze. Apoi, fiecare grup este recomandat să lase un reprezentant. Uneori, în loc de alegerea reprezentantului prin calcul, un nou factor care este esențial pentru grupul în cauză. Dimensiunea redusă are loc în timpul tranziției la factorii de sistem, care sunt reprezentanți ai grupurilor. Factorii OTER sunt aruncați. La utilizarea distanței (măsuri de proximitate, indicatori de diferențe) între caracteristici și clasa extinsă se bazează pe o scalare multidimensională. Ideea de bază a acestei clase de metode este de a prezenta fiecărui obiect ca punct al spațiului geometric (de obicei de dimensiune 1, 2 sau 3) ale căror coordonate sunt valorile factorilor ascunși (latent) care se combină în mod adecvat Descrieți obiectul. Ca exemplu de aplicare a modelării probabiliste și statistice și a rezultatelor statisticilor de date non-numerice, justificăm coerența estimatorii dimensiunii datelor în scalarea multidimensională, care sunt propuse anterior de Kruskal din considerente euristice. Am considerat o serie de estimări consecvente ale dimensiunii modelelor (în analiza de regresie și în teoria clasificării). De asemenea, oferim despre algoritmii pentru reducerea dimensionalității în analiza automată a sistemului-cognitiv

Textul lucrărilor științifice pe tema "Metode de reducere a dimensiunii spațiului datelor statistice"

UDC 519.2: 005.521: 633.1: 004.8

01.00.00 Fizică și matematică

Metode de reducere a dimensiunii spațiului de date statistice

Orlov Alexander Ivanovich.

d.E.N., D.T.N., K.F.-M.N., profesor

Codul RINZ BOSH: 4342-4994

Moscova tehnică tehnică

universitate. ANUNȚ Bauman, Rusia, 105005,

Moscova, a doua Baumanskaya St., 5, [E-mail protejat]t.

Lutsenko Evgeny Veniaminovich D.E.N., Ph.D., Profesor Rinz Brosh Cod: 9523-7101 Kuban State Universitatea Agrară, Krasnodar, Rusia [E-mail protejat] Com.

Unul dintre "punctele de creștere" ale statisticilor aplicațiilor este metodele de reducere a dimensiunii spațiului de date statistice. Acestea sunt utilizate din ce în ce mai mult în analizarea datelor în studii specifice aplicate, de exemplu, sociologice. Luați în considerare cele mai promițătoare metode de dimensiune redusă. Metoda principală componentă este una dintre cele mai frecvent utilizate metode de reducere a dimensiunii. Pentru analiza vizuală a datelor, sunt utilizate adesea proiecții ale vectorilor inițiali pe planul primelor două componente principale. De obicei, structura de date este clar vizibilă, se disting clustere de obiecte compacte și vector eliberat separat. Metoda principală a componentelor este una dintre metodele de analiză a factorilor. Noua idee în comparație cu metoda principală a componentelor este aceea că pe baza încărcăturilor, factorii sunt împărțiți în grupuri. Într-un grup, factorii sunt combinați, având un efect similar asupra elementelor noii baze. Apoi, de la fiecare grup se recomandă să lase un reprezentant. Uneori, în loc să aleagă un reprezentant, se formează un nou factor, care este esențial pentru grupul în cauză. Reducerea dimensiunii are loc în timpul tranziției la sistemul de factori care sunt reprezentanți ai grupurilor. Factorii rămași sunt aruncați. Cu privire la utilizarea distanțelor (măsuri de proximitate, indicatoarele de diferențe) între semne și clasa extinsă de metode de scalare multidimensională se întemeiază. Ideea principală a acestei clase de metode este de a reprezenta fiecare obiect cu un punct geometric (de obicei dimensiunea 1, 2 sau 3), ale căror coordonate sunt valorile factorilor ascunși (latent), în agregat , care descriu suficient de adecvat

UDC 519.2: 005.521: 633.1: 004.8

Fizica și științele matematice

Metode de reducere a dimensiunii spațiului a datelor statistice

Orlov Alexander Ivanovich.

Dr.sci.chon., Dr.sci.Tech., Cand.phys-Math.sci.,

Bauman Moscova Universitatea Tehnică de Stat, Moscova, Rusia

Lutsenko Eugeny Veniaminovich Dr.sci.con., Cand.tech.sci., Profesor RSCI Cod spin: 9523-7101

Universitatea Agrară State Kuban, Krasnodar, Rusia

[E-mail protejat] Com.

Unul dintre "punctele de creștere" ale statisticilor aplicate este metodele de reducere a dimensiunii datelor statistice. Acestea sunt utilizate din ce în ce mai mult în analiza datelor în cercetări aplicate specifice, cum ar fi sociologia. Investigăm cele mai promițătoare metode de reducere a dimensionalității. Componentele principale sunt una dintre cele mai frecvent utilizate metode de reducere a dimensionalității. Pentru analiza vizuală a datelor sunt adesea folosite proiecțiile vectorilor originali pe planul primelor două componente principale. De obicei, structura de date este vizibilă, evidențiată Clustsere compacte de obiecte și vectori alocați separat. Componentele principale reprezintă o metodă de analiză a factorilor. Noua idee a analizei factorilor în comparație cu metoda principală a componentelor este că, pe baza încărcăturilor, factorii se descompun în grupuri. Într-un grup de factori, noul factor este combinat cu un impact similar asupra elementelor noii baze. Apoi, fiecare grup este recomandat să lase un reprezentant. Uneori, în loc de alegerea reprezentantului prin calcul, un nou factor care este esențial pentru grupul în cauză. Dimensiunea redusă are loc în timpul tranziției la factorii de sistem, care sunt reprezentanți ai grupurilor. Factorii OTER sunt aruncați. La utilizarea distanței (măsuri de proximitate, indicatori de diferențe) între caracteristici și clasa extinsă se bazează pe o scalare multidimensională. Ideea de bază a acestei clase de metode este de a prezenta fiecărui obiect ca punct al spațiului geometric (de obicei de dimensiune 1, 2 sau 3) ale căror coordonate sunt valorile factorilor ascunși (latent) care se combină în mod adecvat Descrieți obiectul. Ca exemplu de aplicare a modelării probabiliste și statistice și a rezultatelor statisticilor privind datele non-numerice, justificăm coerența estimatorilor

un obiect. Ca exemplu de aplicare a modelării statistice probabiliste și a rezultatelor statisticilor non-statistice, susținem coerența măsurării dimensiunii spațiului de date în scalarea multidimensională, propusă anterior de către Colromal din considerente euristice. Au fost luate în considerare o serie de lucrări la evaluarea dimensiunilor modelelor (în analiza de regresie și în teoria clasificării). Dana Informații despre algoritmii Reducerea dimensiunii într-o analiză automată a sistemului-cognitiv

Cuvinte cheie: matematică, statistici aplicate, statistici matematice, puncte de creștere, metoda componentă principală, analiza factorului, scalarea multidimensională, estimarea dimensiunii datelor, estimarea dimensiunii modelului

dimensiunea datelor în scalarea multidimensională, care sunt propuse anterior de Kruskal din considerente euristice. Am considerat o serie de estimări consecvente ale dimensiunii modelelor (în analiza de regresie și în teoria clasificării). De asemenea, oferim despre algoritmii pentru reducerea dimensionalității în analiza automată a sistemului-cognitiv

Cuvinte cheie: matematică, statistici aplicate, statistici matematice, puncte de creștere, analiza principală a componentelor, analiza factorului, scalarea multidimensională, estimarea dimensiunii datelor, estimarea dimensiunii modelului

1. Introducere

După cum sa menționat deja, unul dintre "punctele de creștere" ale statisticilor de aplicare sunt metode de reducere a dimensiunii spațiului de date statistice. Acestea sunt utilizate din ce în ce mai mult în analizarea datelor în studii specifice aplicate, de exemplu, sociologice. Luați în considerare cele mai promițătoare metode de dimensiune redusă. Ca exemplu de aplicare a modelării statistice probabiliste și a rezultatelor non-statistici, justificăm coerența dimensiunii spațiului propus anterior de către colomic din considerente euristice.

În analiza statistică multidimensională, fiecare obiect este descris de un vector, al cărui dimensiune este arbitrar (dar același pentru toate obiectele). Cu toate acestea, o persoană poate percepe numai numai date sau puncte numerice în avion. Analizați acumulările de puncte din spațiul tridimensional este deja mult mai dificil. Percepția directă a datelor de dimensiune superioară este imposibilă. Prin urmare, destul de natural este dorința de a trece de la o probă multidimensională la datele de dimensiuni mici, astfel încât "ar putea

uite". De exemplu, un comerciant poate vedea în mod clar câte tipuri diferite de comportament de consum (adică cât de mult este recomandabil să aloce segmente de piață) și care proprietăți sunt (cu proprietăți) consumatori în ele.

În plus față de dorința de claritate, există și alte motive pentru reducerea dimensiunii. Acești factori din care variabila este interesată de cercetător, nu numai că interferează cu analiza statistică. În primul rând, resursele financiare, temporare, de personal sunt cheltuite pentru colectarea de informații despre acestea. În al doilea rând, cum să demonstreze, includerea lor în analiză agravează proprietățile procedurilor statistice (în special, crește dispersia estimărilor parametrilor și caracteristicilor distribuțiilor). Prin urmare, este de dorit să scape de astfel de factori.

Atunci când analizați datele multidimensionale, nu una, dar multe sarcini, în special, alegând variabile independente și dependente în moduri diferite. Prin urmare, luăm în considerare problema dimensiunii reduse în următoarea formulare. Dana multidimensională. Este necesar să se deplaseze de la acesta la totalitatea vectorilor unei dimensiuni mai mici, salvând în același timp structura datelor sursă, dacă este posibil, fără a pierde informații conținute în date. Sarcina este specificată în cadrul fiecărei metode particulare de dimensiune redusă.

2. Metoda componentei principale

Este una dintre metodele de dimensiuni cele mai frecvent utilizate. Ideea principală este în concordanță cu detectarea zonelor în care datele au cea mai mare scatter. Lăsați eșantionul să fie compus din vectori distribuiți în mod egal cu vectorul x \u003d (1), x (2), ..., x (n)). Luați în considerare combinațiile liniare

7 (^ (1), x (2) ,., l (n)) \u003d x (1) x (1) + x (2) x (2) + ... + l (n) x (n) .

X2 (1) + x2 (2) + ... + x2 (N) \u003d 1. Aici, vector x \u003d (x (1), x (2), ..., x (n)) se află pe unitate sfera în spațiul p-dimensional.

În metoda principală a componentelor, în primul rând găsiți direcția de împrăștiere maximă, adică. Astfel de x, la care dispersia maximă a unei variabile aleatorie este 7 (x) \u003d 7 (x (1), x (2), ..., x (n)). Apoi vectorul X stabilește prima componentă principală, iar valoarea de 7 (x) este proiecția vectorului random al axei primei componente principale.

Apoi, exprimând termenii algebrei liniare, luați în considerare hiperplanul în spațiul p-dimensional, perpendicular la prima componentă principală și proiectarea tuturor elementelor eșantionului pe această hiperplană. Dimensiunea hiperplanei este de 1 mai mică decât dimensiunea spațiului sursă.

În hiperplanul în cauză, procedura este repetată. Se găsește direcția cea mai mare scatter, adică. A doua componentă principală. Apoi este izolat hiperplanul perpendicular la primele două componente principale. Dimensiunea sa este de 2 mai mică decât dimensiunea spațiului sursă. Apoi - următoarea iterație.

Din punctul de vedere al algebrei liniare vorbim despre construirea unei noi baze într-un spațiu p-dimensional, ale căror iituri servesc ca principalele componente.

Dispersie corespunzătoare fiecărei componente principale noi, mai puțin decât cea precedentă. De obicei opriți când este mai mică decât pragul specificat. Dacă este selectat pentru componentele principale, aceasta înseamnă că din spațiul p-dimensional a fost posibil să mergem la K-dimensional, adică Reduceți dimensiunea cu P-la K, practic fără a distorsiona structura datelor sursă.

Pentru analiza vizuală a datelor, sunt utilizate adesea proiecții ale vectorilor inițiali pe planul primelor două componente principale. Obișnuit

structura de date este clar vizibilă, sunt distinse clustere de obiecte compacte și vector eliberate separat.

3. Analiza factorilor

Metoda principală a componentelor este una dintre metodele de analiză a factorilor. Diferiți algoritmi pentru analiza factorilor sunt combinate de faptul că în toate acestea există o tranziție la o nouă bază în spațiul inițial n-dimensional. IMPORTANT este conceptul de "sarcină factor" utilizat pentru a descrie rolul factorului sursă (variabila) în formarea unui anumit vector de la noua bază.

Noua idee în comparație cu metoda principală a componentelor este aceea că pe baza încărcăturilor, factorii sunt împărțiți în grupuri. Într-un grup, factorii sunt combinați, având un efect similar asupra elementelor noii baze. Apoi, de la fiecare grup se recomandă să lase un reprezentant. Uneori, în loc să aleagă un reprezentant, se formează un nou factor, care este esențial pentru grupul în cauză. Reducerea dimensiunii are loc în timpul tranziției la sistemul de factori care sunt reprezentanți ai grupurilor. Factorii rămași sunt aruncați.

Procedura descrisă poate fi efectuată nu numai cu ajutorul analizei factorilor. Vorbim Pe o analiză a semnelor (factori, variabile). Pentru a împărți semnele de grupuri, pot fi aplicate diferite algoritmi de analiză a clusterului. Este suficient să introduceți distanța (măsura de proximitate, indicatorul diferenței) între semne. Fie X și Y două semne. Diferența D (x, y) între ele poate fi măsurată utilizând coeficienți de corelare selectivă:

di (x, y) \u003d 1 - \\ rn (x, y) \\, d2 (x, y) \u003d 1 - \\ pn (x, y) \\, în cazul în care rn (x, y) este un coeficient de corelare liniar Pearson , Pn (x, y) este un coeficient selectiv al corelației fluviului al spirmei.

4. Scalarea multidimensională.

Cu privire la utilizarea distanțelor (măsuri de proximitate, indicatoarele de diferențe) d (x, y) între semnele x și u, se bazează clasa extinsă de metode de scalare multidimensională. Ideea principală a acestei metode este reprezentarea fiecărui obiect al punctului de spațiu geometric (de obicei dimensiunea 1, 2 sau 3), coordonatele care servesc drept valorile factorilor ascunși (latent), care sunt descriind destul de adecvat obiectul. În același timp, relațiile dintre obiecte sunt înlocuite de relațiile dintre puncte - reprezentanții acestora. Deci, date privind similitudinea obiectelor - distanțe între puncte, datele privind superioritatea - locația reciprocă a punctelor.

5. Problema evaluării dimensiunii reale a spațiului factorului

În practica analizării datelor sociologice utilizate diferite modele Scalare multidimensională. În toate acestea, problema evaluării dimensiunii reale a spațiului factorului. Luați în considerare această problemă cu privire la exemplul de prelucrare a datelor privind similitudinea obiectelor care utilizează scalarea metrică.

Să nu existe obiecte N 0 (1), O (2), ..., O (n), pentru fiecare pereche de obiecte 0 (/), o (j), măsura similarității lor (ij) este dată . Credem că întotdeauna s (i, j) \u003d s (j, i). Originea numărului S (IJ) nu contează pentru a descrie funcționarea algoritmului. Acestea ar putea fi obținute fie prin măsurarea directă, fie prin utilizarea experților sau prin calcularea combinației de caracteristici descriptive sau cumva altfel.

În spațiul Euclidian, n Obiectele luate în considerare ar trebui să fie reprezentate de configurația punctelor n, iar distanța Euclidian D (i, j) pare ca măsură de proximitate a reprezentanților punctelor

între punctele corespunzătoare. Gradul de conformare dintre setul de obiecte și combinația punctelor lor este determinat prin compararea matricelor de similaritate || i (,) || și distanțele funcționalității SM-metrice a asemănărilor

i \u003d £ | * (/,]) - th (/, m

Configurația geometrică trebuie selectată astfel încât funcționalitatea să fie cea mai mică valoare.

Cometariu. În scalarea nonetică, în locul proximității proximității și distanțelor în sine, se ia în considerare proximitatea Ordinilor asupra setului de măsuri de proximitate și setul de distanțe corespunzătoare. În loc de funcțional S, sunt folosite analogii coeficienților de rang de corelație a spiritului și Kendalla. Cu alte cuvinte, scalarea nemetrică provine din ipoteza că măsurile de proximitate sunt măsurate în scara ordinală.

Fie ca spațiul Euclidian să fie dimensiunea T. Luați în considerare cel puțin eroarea la jumătatea pătratului

În cazul în care minimul este luat în toate configurațiile posibile ale punctelor din spațiul T-Merne Euclidian. Se poate demonstra că minimul în cauză este realizat pe o anumită configurație. Este clar că odată cu creșterea T, valoarea de la scăderi monotonice (mai precis, nu crește). Se poate demonstra că la t\u003e P-1 este egal cu 0 (IF - metric). Pentru a spori posibilitățile de interpretare semnificativă, este de dorit să acționăm în spațiu posibilă mai mică dimensiune. În același timp, totuși, dimensiunea trebuie aleasă astfel încât punctele să reprezinte obiecte fără o denaturare mare. Întrebarea apare: cum să alegeți rațional dimensiunea spațiului, adică. Numărul natural t?

6. Modele și metode de estimare a dimensiunii spațiului de date

Ca parte a analizei deterministe a datelor unui răspuns rezonabil la această întrebare, aparent nu. Prin urmare, este necesar să se studieze comportamentul AM în anumite modele probabiliste. Dacă proximitatea S (iJ) este valori aleatorii, a căror distribuție depinde de "dimensiunea adevărată" M0 (și, eventual de la orice alți parametri), apoi în stilul clasic matematic-statistic, pentru a stabili sarcina estimată de M0, la Căutați evaluări bogate și etc.

Să începem să construim modele probabiliste. Vom presupune că obiectele sunt puncte în spațiul euclidian de dimensiune, unde suficient de mare. Faptul că "adevărata dimensiune" este egală cu M0, înseamnă că toate aceste puncte se află pe hiperplanul dimensiunii M0. Acceptăm certitudine că setul de puncte în cauză este un eșantion de distribuție normală circulară cu dispersie O (0). Aceasta înseamnă că obiectele 0 (1), 0 (2), ..., O (n) sunt independente în agregarea vectorilor aleatorii, fiecare dintre care este construită ca

Z (1) E (1) + Z (2) E (2) + ... + Z (M0) E (M0), unde E (1), E (2), ..., E (M0) - Baza ortonormală în subspațiul dimensiunii M0, în care punctele considerate luate în considerare și Z (1), Z (2), Z (M0) sunt independente în variabilele aleatorie normale ansidimensionale agregate cu așteptări matematice 0 și dispersie O (0).

Luați în considerare două modele pentru obținerea proximității S (IJ). În primul dintre acestea, S (iJ) diferă de distanța euclidiană dintre punctele corespunzătoare datorită faptului că punctele sunt cunoscute de denaturarea. Lăsați cu (1), cu (2), ..., C (n) - punctele luate în considerare. Atunci

s (i, j) \u003d d (c (i) + e (i), c (j) + s (/)), ij \u003d 1, 2, ..., n,

În cazul în care Y este distanța Euclidiană între punctele din spațiul de măsurare, vectorul E (1), E (2), ..., E (p) sunt o probă de distribuție normală circulară a unui spațiu de măsurare cu o așteptare matematică zero și o matrice de covarianță pe (1) /, unde matricea i-a -edită. Cu alte cuvinte,

e (0 \u003d P (1) E (1) + P (2) E (2) + ... + C (K) în (k), unde E (1), E (2), ... E (k) - bază ortonormală într-un spațiu de măsurare și [c ^^), i \u003d 1, 2, ..., p,? \u003d 1, 2, ..., k) este un set de independență în agregarea variabilelor aleatorie unidimensionale, cu o așteptare matematică zero și dispersie a O (1).

În al doilea model de distorsiune se impune direct distanțelor în sine:

Kch) \u003d (f)) + £ (uh și \u003d 1, 2., n, i f j,

În cazul în care și, la primul interval, scade mai repede decât pe al doilea. De aici rezultă că statisticile

m * \u003d arg minam + 1 - 2am + an-x)

este o evaluare bogată a adevăratei dimensiuni M0.

Deci, din teoria probabilistică implică recomandarea - ca o estimare a dimensiunii spațiului factorial de utilizat T *. Rețineți că o astfel de recomandare a fost formulată ca fiind una euristică a fondatorilor scalării multidimensionale de către J. Kraskal. El a continuat din experiența utilizării practice a scalării multidimensionale și a experimentelor computaționale. Teoria probabilistică a făcut posibilă justificarea acestei recomandări euristice.

7. Evaluarea dimensiunii modelului

Dacă este posibil, subseturile de semne formează o familie în expansiune, de exemplu, gradul de polinom este estimat, este natural să se introducă termenul "dimensiune model" (acest concept este în mare parte similar cu dimensiunea spațiului de date în scară multidimensională). Autorul acestui articol are o serie de lucrări privind evaluarea dimensiunii modelului, care este recomandabilă să se compare cu lucrările privind estimarea dimensiunii spațiului de date, discutate mai sus.

Prima astfel de lucrare a fost efectuată de autor al acestui articol în timpul unei călătorii în Franța în 1976. O evaluare a dimensiunii modelului în regresie a fost studiată în acesta, și anume o evaluare a gradului de polinom conform ipotezei că dependența este descris de polinom. Această estimare a fost cunoscută în literatură, dar mai târziu sa confundat cu atribuirea autorului acestui articol, care și-a studiat proprietățile, în special, a constatat că nu este bogat și și-a găsit distribuția geometrică limită. Altele, deja estimări bogate ale dimensiunii modelului de regresie au fost propuse și studiate în articol. Acest ciclu a completat lucrarea care conține o serie de rafinări.

Publicația extremă pe această temă include o discuție despre rezultatele studierii vitezei convergenței în teoremele limită obținute de Monte Carlo.

Similar cu metodologia de estimare a dimensiunii modelului în problema amestecurilor de divizare (parte a teoriei de clasificare) sunt luate în considerare în articol.

Estimările de mai sus ale dimensiunii modelului în scalarea multidimensională sunt studiate în lucrări. În aceleași lucrări, comportamentul limită al caracteristicilor metodei componentelor principale (folosind teoria asimptotică a comportamentului deciziilor de probleme statistice extreme).

8. Algoritmi de reducere a dimensiunii într-o analiză automată a sistemului-cognitiv

Analiza automată a sistemului-cognitiv (ASC-analiza) este de asemenea propusă în sistemul EIDOS, este implementată o altă metodă de dimensiune redusă. Este descris în locul de muncă în secțiunile 4.2 "Descrierea algoritmilor operațiunilor cognitive de bază ale analizei sistemului (BKOS)" și 4,3 "algoritmi detaliați BKOS (ASK Analiză)". Aici scurta descriere Două algoritmi - BKOS-4.1 și BKOS-4.2.

Bkosa-4.1. "Abstragerea factorilor (reducerea dimensiunii spațiului semantic al factorilor)"

Folosind metoda de aproximări consecutive (algoritm iterativ), într-o anumită limită, dimensiunea spațiului de atribut este redusă fără o scădere semnificativă a volumului său. Criteriul de oprire a procesului iterativ este realizarea uneia dintre condițiile de graniță.

BKOS-4.2. "Abstracția clasei (scăderea dimensiunii spațiului semantic al claselor)"

Folosind metoda de aproximări consecutive (algoritm iterativ), în condiții limită specificate, dimensiunea spațiului clasei este redusă fără o reducere semnificativă a volumului său. Criteriul de oprire a procesului iterativ este realizarea uneia dintre condițiile de graniță.

Iată toți algoritmii reali implementați în sistemul EIDOS al versiunii care au fost implementate la momentul pregătirii lucrărilor (2002): http: //lc.kubagro .ru / AIDOS / AIDOS02 / 4.3 .htm

Esența algoritmilor este după cum urmează.

1. Cantitatea de informații se calculează în valorile tranziției obiectului la starea corespunzătoare claselor.

2. Calculează valoarea valorii factorului pentru diferențierea obiectului prin clase. Această valoare este pur și simplu variabilitatea informativelor valorilor factorilor (măsuri cantitative de variabilitate: deviația medie de la media, deviația medie patrată, etc.). Cu alte cuvinte, dacă în valoarea factorului, în medie, există puține informații despre apartenență și nu aparțin obiectului la clasă, atunci această valoare nu este foarte valoroasă și dacă este valoroasă.

3. Calculează valoarea scalelor descriptive pentru diferențierea obiectelor pe clase. În lucrările lui E.V. Lutsenko se face acum ca medie de valorile gradațiilor acestei scale.

4. Apoi se efectuează optimizarea trecerii valorilor factorilor și a scalelor descriptive:

Valorile factorilor (gradarea scalării descriptive) sunt clasificate în ordinea scăderii valorii și sunt îndepărtate din modelul cel mai puțin valoros, care merg la dreapta curbei Pareto de 45 °;

Factorii (scale descriptive) sunt clasificate în ordinea descrescătoare a valorii și sunt eliminate din modelul celui mai puțin valoros, care merg la dreapta de 45 ° Curba de trecere.

Ca rezultat, dimensiunea spațiului construit pe scară descriptivă este semnificativ redusă prin îndepărtarea cântarelor care se corelează între ele, adică. În esență, este un spațiu ortonormal într-o metrică informativă.

Acest proces poate fi repetat, adică să fie iterativ în același timp versiune noua Sistemul "Eidos" este pornit manual.

În mod similar, spațiul de informare al claselor este omis.

Scala și gradațiile pot fi numerice (apoi sunt procesate valorile intervalului) și pot fi, de asemenea, text (ordinale sau chiar nominale).

Astfel, cu ajutorul algoritmilor BKOS (ASK Analiza), dimensiunea spațiului este redusă maximă cu pierderea minimă a informațiilor.

Pentru a analiza datele statistice în statisticile aplicate, au fost elaborate o serie de algoritmi de reducere a dimensiunii. Sarcinile acestui articol nu includ o descriere a întregului colector al acestor algoritmi.

Literatură

1. Orlov A.i. Puncte de creștere a metodelor statistice // Jurnalul științific al rețelei poligrafice a Universității Agrar State Kuban. 2014. Nr. 103. P. 136-162.

2. Paint J. Relația dintre scalarea multidimensională și analiza cluster // Clasificarea și cluster. M.: MIR, 1980. C.20-41.

4. Harman G. Analiza modernă a factorilor. M.: Statistici, 1972. 489 p.

5. Orlov A.i. Note privind teoria clasificării. / Sociologie: metodologie, metode, modele matematice. 1991. Nr. 2. C.28-50.

6. Orlov A.i. Rezultatele de bază ale teoriei matematice a clasificării // Rețeaua poliatică Jurnalul științific al Universității Agrar State Kuban. 2015. № 110. P. 219-239.

7. Orlov A.i. Metode matematice Teoriile de clasificare // Rețeaua poligrafică electronică Jurnalul științific al Universității Agrare de Stat Kuban. 2014. Nr. 95. P. 23 - 45.

8. Terekhina A.Yu. Analiza acestor metode de scalare multidimensională. -M.: Science, 1986. 168 p.

9. Perekrest V. T. Analiza tipologică neliniară a informațiilor socio-economice: metode matematice și computaționale. - l.: Știință, 1983. 176 p.

10. Tyurin Yu.N., Litvak B.g., Orlov A.i., Satarov G.A., Smerling D.S. Analiza informațiilor nevalide. M.: Consiliul științific al Academiei de Științe a URSS asupra problemei complexe "Cybernetics", 1981. - 80 s.

11. Orlov A.i. O viziune generală a statisticilor obiectelor non-naturale // Analiza informațiilor non-informative în studiile sociologice. - M.: ȘTIINȚĂ, 1985. S.58-92.

12. Orlov A.i. Distribuția limită a unei estimări a numărului de funcții de bază în regresie // Analiza statistică multidimensională aplicată. Oamenii de știință privind statisticile, T.33. - M.: ȘTIINȚĂ, 1978. P.380-381.

13. Orlov A.i. Evaluarea dimensiunii modelului în regresie // algoritmică și software. Analiza statistică aplicată. Oamenii de știință pentru statistici, T.36. - M.: ȘTIINȚĂ, 1980. P.92-99.

14. Orlov A.i. Asimptotice ale unor estimări ale dimensiunii modelului în regresie // statistici aplicate. Oamenii de știință pentru statistici, T.35. - M.: ȘTIINȚĂ, 1983. P.260-265.

15. Orlov A.i. La evaluarea laboratorului de regresie polinom //. Diagnosticarea materialelor. 1994. T.60. № 5. P.43-47.

16. Orlov A.i. Unele întrebări de clasificare probabilistică // statistici aplicate. Oamenii de știință pentru statistici, T.35. - M.: ȘTIINȚĂ, 1983. C.166-179.

17. Orlov A.i. Privind elaborarea statisticilor obiectelor nonnumerice // Proiectarea experimentelor și analiza datelor: noi tendințe și rezultate. - M.: ANTAL, 1993. R.52-90.

18. Orlov A.i. Metode de reducere a dimensiunii // Apendicele 1 la carte: Tolstova Yu.N. Elementele de bază ale scalării multidimensionale: Tutorial Pentru universități. - M.: Editorul CDU, 2006. - 160 p.

19. Orlov A.i. Asimptotica problemelor statistice extreme // Analiza datelor non-numerice în studiile de sistem. Colecția de muncitori. Vol. 10. - M.: Institutul de Cercetare al Sistemului All-Union, 1982. P. 412.

20. Orlov A.i. Modelarea organizațională și economică: Tutorial: în 3 ore. Partea 1: Statistici non-state. - M.: Editura MSTU. ANUNȚ Bauman. - 2009. - 541 p.

21. Lutsenko E.v. Analiza automată a sistemului-cognitiv în gestionarea obiectelor active (teoria sistemului și aplicarea acesteia în studiul sistemelor economice, socio-psihologice, tehnologice și organizaționale și tehnice): monografia (publicarea științifică). -SRASNODAR: KUBGU. 2002. - 605 p. http://elibrary.ru/item.asp?id\u003d18632909.

1. Orlov A.i. Tocki Rosta Statisticikih Metodov // Politematheskij setevoj Jelektronnyj Nauchnyj Zhurnal Kubanskogo Gosudarstvennogo Agraarnogo Universita. 2014. № 103. S. 136-162.

2. Kraskal DZH. Vzaimosvjaz "Mezhdu Mnogomernym Shkalirovaniem I Klaster-Analizom // Klassifikacija i Klaster .: Mir, 1980. S.20-41.

3. Kruskal J.B., dorință M. Scalarea multidimensională // Sage University Hartie Series: Aplicații calitative în științele sociale. 1978. №11.

4. Harman G. Sovremennyj Faktornyj Analiz. M.: STATISTIKA, 1972. 489 S.

5. Orlov A.i. Zametki Po Teoriii Klassifikacii. / Sociologija: Metodologija, Metody, Matematheskie Modeli. 1991. Nr. 2. S.28-50.

6. Orlov A.i. Bazovye rezul "Taty Matematheskoj Teorii Klassifikacii // Politematheskij Setevoj Jelektronnyj Nauchnyj Zhurnal Kubanskogo Gosudarstvennogo Agrarnogo Universiteta 2015. № 110. S. 219-239.

7. Orlov A.i. Matematheskie Mediu Teorie Klassifikacii // Politematheskij setevoj Jelektronnyj Nauchnyj Zhurnal Kubanskogo Gosudarstvennogo Agrannogo Universita. 2014. № 95. S. 23 - 45.

8. Terehina a.ju. Analiz Dannyh Metodami Mnogomernogo Shkalirovanija. - M.: Nauka, 1986. 168 S.

9. Perekrest V.T. NelineJnyj Tipologicheskij Analiz Social "No-Jekonomicheskoj Informația: Matematheskie i Vychislitel" Nye Meody. - L.: Nauka, 1983. 176 S.

10. TJURIN JU.N., LITVAK B.G., Orlov A.i., Satarov G.A., Shmerling D.S. Analiz Nechislovoj Informația. M.: Nauchnyj Sovet Un SSRS PO Kompleksnoj Probleme "Kibernetika", 1981. - 80 s.

11. Orlov A.i. OBSHHIJ VZGLJAD NA STATISTIKU OB # EKTOV NECHISLOVOJ PRIODY // Analiz Nechislojoj informacii / sociologicheskih isdledovanijah. - M.: Nauka, 1985. S.58-92.

12. Orlov A.i. Predede "NOE RAPREDLENIE ODNOJ ONKIJ CHISLA Bazisnyh Funkcij v Regresii // Prikladnoj mnogomernyj statisticikij analiz. UCHENYE ZAPISKI PO Statistica, T.33. - M.: Nauka, 1978. S.380-381.

13. Orlov A.i. Ocenka Razmernosti Modeli v Regresii // AlgoritMicheskoe i Programmnoe obespechnie prikladnogo statisticikogo analiza. UCHENYE ZAPISKI PO Statistica, T.36. - M.: Nauka, 1980. S.92-99.

14. Orlov A.i. Asimptotika Nekotoryh Ocenok Razmernosti Modeli v Regresii // Prikladnaja Statistika. UCHENYE ZAPISKI PO Statistica, T.45. - M.: Nauka, 1983. S.260-265.

15. Orlov A.i. OB OCENIVANII REGSONIONNOGO POLINOMA // ZAVODSKAJA Laboratorija. Diagnetika Materialov. 1994. T.60. № 5. S.43-47.

16. Orlov A.i. Nekotorye Verojatnostnye VoproSy Teorii Klassifikacii // Prikladnaja Statistika. UCHENYE ZAPISKI PO Statistica, T.45. - M.: Nauka, 1983. S.166-179.

17. Orlov A.i. Privind elaborarea statisticilor obiectelor nonnumerice // Proiectarea experimentelor și analiza datelor: noi tendințe și rezultate. - M.: ANTAL, 1993. R.52-90.

18. Orlov A.i. METODY SNIZHENIJA RAZMERNOSTI // prilozhenie 1 k knilometru: Tolstova ju.n. Osnovy Mnogomernogo Shkalirovanija: Uchebnoe Posobie Dlja Vuzov. - M.: Izdatel "STVO KDU, 2006. - 160 S.

19. Orlov A.i. Asimptotika reshenij jekstremal "NYH Statisticikih Zadach // Analiz Nechislovyh Dannyh v Sbornknyh Issdovanija Sbornik Trudov Vyp.10 -... m.: VSEOJUZNYJ NAUCHNO-ISSDEDODEL" SKIJ Institut Sistemnyh Issdovanij, 1982. S. 4-12.

20. Orlov A.i. Organizație-Jekonomicheskoe Modelirovanie: Uchebnik: V 3 Ch. CHAST "1: NECHISLOVAJA STATISTIKA. - M.: IZD-VO MGTU IM. N.JE. BAUMANA. - 2009. - 541 s.

21. LUCENNKO E.V. Avtomatizirovannyj sistemno-kognitivnyj analiz v upravlenii aktivnymi ob # ektami (sistemnaja teorija informácií i ee primenenie v issledovanii jekonomicheskih, sociale „no-psihologicheskih, tehnologicheskih i organizacionno-tehnicheskih sistem): Monografija (nauchnoe izdanie) - Krasnodar :. KubGAU 2002. -. 605 s. Http://elibrary.ru/item.asp?id\u003d18632909

Ca urmare a studiului materialului capitolului 5, elevul trebuie:

știi

Concepte de bază și sarcini de dimensiune inferioară:
Abordări pentru rezolvarea problemei transformării spațiului caracteristic;

a fi capabil să

Utilizați metoda componentei principale pentru tranziția la caracteristicile ortogonale standardizate;
Evaluați reducerea informativă a datelor atunci când o scădere a dimensiunii spațiului de caracteristici;
Rezolvați problema construirii scalelor multidimensionale optime pentru cercetarea obiectelor;

proprii

Metode de reducere a dimensiunii pentru a rezolva sarcinile aplicate de analiză statistică;
Abilitățile de interpretare a variabilelor într-un spațiu semne transferat.

Concepte de bază și sarcini de dimensiune inferioară

La prima vedere decât mai multe informatii Obiectele studiului sub forma unui set de caracterizare a semnelor lor vor fi folosite pentru a crea un model, cu atât mai bine. Cu toate acestea, cantitatea excesivă de informații poate duce la o scădere a eficacității analizei datelor. Există chiar și termenul "blestem de dimensiune" Blestem de dimensionalitate), caracterizând problemele de lucru cu date foarte produse. Cu necesitatea de a reduce dimensiunea într-o singură formă sau alta, soluția este asociată cu diferite probleme statistice.

Caracteristicile non-informative reprezintă o sursă suplimentară de zgomot și afectează acuratețea evaluării parametrilor modelului. În plus, seturile de date cu un număr mare de caracteristici pot conține grupuri de variabile corelate. Prezența unor astfel de semne de semne înseamnă duplicarea informațiilor care pot distorsiona specificația modelului și pot afecta calitatea parametrilor săi. Cu cât este mai mare dimensiunea datelor, cu atât volumul calculelor în timpul procesării lor algoritmice.

Două direcții se pot distinge în reducerea dimensiunii spațiului caracteristic pe principiul variabilelor utilizate pentru aceasta: selectarea semnelor de la setul sursă existentă și formarea de noi caracteristici prin transformarea datelor inițiale. În cazul ideal, reprezentarea abreviată a datelor trebuie să aibă dimensiunea corespunzătoare dimensiunii, datelor inerente intern. Dimensionalitate intrinsecă.

Căutarea celor mai informative caracteristici care caracterizează fenomenul studiat este o direcție evidentă de reducere a dimensiunii problemei care nu necesită transformarea variabilelor sursă. Acest lucru vă permite să faceți un model mai compact și să evitați pierderile asociate cu efectul de interferență al caracteristicilor reduse-informative. Selectarea caracteristicilor informative este găsirea celui mai bun subset al multor variabile sursă. Criteriile conceptului de "cele mai bune" pot servi sau cel mai mult calitate superioară Simulare cu o dimensiune dată a spațiului caracteristicilor sau cea mai mică dimensiune a datelor la care este posibilă construirea unui model al calității specificate.

Soluție directă la sarcina de a crea cel mai bun model Legate de bustul tuturor combinațiilor posibile ale semnelor, care este de obicei excesiv de laborioasă. Prin urmare, de regulă, acestea recurg la o selecție directă sau inversă a semnelor. În procedurile de selecție directă, se face o adăugare secvențială de variabile din setul original pentru a obține calitatea dorită a modelului. În algoritmii reducerii consecvente ale spațiului original al caracteristicilor (selecție inversă), există o eliminare treptată a variabilelor cele mai puțin informative la reducerea permisă a conținutului de informații al modelului.

Ar trebui să se țină cont de faptul că informativitatea semnelor este relativă. Selecția ar trebui să asigure informativitatea ridicată a setului de caracteristici și nu totalul informativ al componentelor variabilelor sale. Astfel, prezența corelației între semne reduce informativitatea lor generală datorită duplicării informațiilor comune acestora. Prin urmare, adăugarea unei noi caracteristici către deja selectată asigură o creștere a informativității în măsura în care conține informatii utileAbreparabile în variabilele selectate anterior. Cea mai simplă este situația selecției semnelor ortogonale reciproc, în care algoritmul de selecție este foarte simplu: variabilele se clasifică pe informativitate, iar compoziția primelor semne în acest clasament este utilizată, ceea ce asigură informativitatea specificată.

Metoda limitată de metode de selecție pentru reducerea dimensiunii spațiului este asociată cu presupunerea prezenței imediate a semnelor necesare în datele sursă, care este de obicei incorectă. O abordare alternativă a reducerii dimensiunii prevede conversia caracteristicilor într-un set redus de variabile noi. Spre deosebire de selecția semnelor originale, formarea unui nou spațiu caracteristică implică crearea de noi variabile, care sunt de obicei funcții ale semnelor sursă. Aceste variabile observate direct sunt adesea numite ascunse, sau latent. În procesul de creare, aceste variabile pot fi dotate cu diverse proprietăți utile, cum ar fi ortogonalitatea. În practică, semnele inițiale sunt de obicei interconectate, prin urmare transformarea spațiului lor la ortogonal generează noi coordonate, în care nu există niciun efect de duplicare a informațiilor despre obiectele studiate.

Afișarea obiectelor într-un nou spațiu caracteristic ortogonal creează capacitatea de a prezenta vizual utilitatea fiecărui semne din punctul de vedere al diferențelor dintre aceste obiecte. În cazul în care coordonatele noii baze sunt aranjate de dispersia care caracterizează gama de valori pe ele pentru observațiile luate în considerare, devine imposibilitate evidentă din punct de vedere practic al unor caracteristici cu variabile mici, deoarece obiectele de pe aceste caracteristici sunt practic indistinguizabil în comparație cu diferențele lor pe mai multe variabile informative. Într-o astfel de situație, putem vorbi despre așa-numita degenerare a spațiului inițial de la k. Variabile și dimensiunea reală a acestui spațiu t. poate fi mai puțin sursă (m< k.).

Reducerea spațiului caracteristicilor este însoțită de o anumită scădere a informațiilor privind datele, dar nivelul de reducere admisibilă poate fi determinat în avans. Selectarea caracteristicilor este proiectarea unui set de variabile sursă într-un spațiu de dimensiune mai mic. Comprimarea spațiului de caracteristici la două-tridimensionale poate fi utilă pentru vizualizarea datelor. Astfel, procesul de formare a unui nou spațiu de caracteristici duce, de obicei, la un set mai mic de variabile cu adevărat informative. Pe baza lor, un model mai bun poate fi construit ca pe baza unui număr mai mic de caracteristici cele mai informative.

Formarea de noi variabile bazate pe sursă este utilizată pentru analiza semantică latentă, comprimarea datelor, clasificarea și recunoașterea imaginilor, creșterea vitezei și eficienței proceselor de învățare. Datele comprimate sunt de obicei aplicate la analiza și modelarea ulterioară.

Una dintre aplicațiile importante de transformare a spațiului caracteristic și reduce dimensiunea este de a construi categorii latente sintetice bazate pe semnele măsurate de semne. Aceste semne latente pot caracteriza caracteristicile specifice ale fenomenului care integrează proprietățile private ale obiectelor observate, ceea ce ne permite să construim indicatori integrați de diferite niveluri de generalizare a informațiilor.

Rolul metodelor de reducere a spațiului de caracteristici în studiul problemei duplicării informațiilor în semnele inițiale, ceea ce duce la "umflarea" dispersiei estimărilor modelelor de regresie, este esențială. Tranziția la un nou caz ideal ortogonal și semnificativ interpretabil, variabilele sunt un instrument eficient Modelarea în condițiile multicollinearității datelor sursă.

Transformarea spațiului de caracteristici inițiale în ortogonală este convenabilă pentru a rezolva sarcinile de clasificare, deoarece face posibilă aplicarea în mod rezonabil anumite măsuri de proximitate sau diferențe de obiecte, cum ar fi distanța euclidană sau pătratul distanței euclidane. În analiza de regresie, construcția ecuației de regresie pe componentele principale permite rezolvarea problemei multicollinearității.