Kontakty

Zníženie rozmeru · Loginom Wiki. Úvod k zníženiu dimenzie Akú metódu pomáha znížiť rozmer údajov

Kapitola 13. Spôsob hlavnej zložky

13.1. Podstatu problému zníženého rozmeru a rôznych metód jeho riešenia

V oblasti výskumu a praktickej štatistickej práce je potrebné riešiť situácie, keď je celkový počet známok zaznamenaných na každom z mnohých predmetov subjektov (krajiny, mestá, podniky, rodiny, pacienti, technické alebo environmentálne systémy) veľmi veľké - asi sto a viac. Existujúce multidimenzionálne pozorovania

malo by byť podrobené štatistickému spracovaniu, pochopiť alebo zadať do databázy, aby boli schopní ich používať v správny čas.

Túžba štatistík predstavuje každý z pripomienok (13.1) vo forme vektora z niektorých pomocných indikátorov s výrazne menším (ako) počet zložiek plilu je splatná predovšetkým z nasledujúcich dôvodov: \\ t

potreba vizuálnej reprezentácie (vizualizácia) zdrojových údajov (13.1), ktorá sa dosahuje svojou projekciou na osobitne vybranej trojrozmernom priestore roviny alebo numerickej priamej (ciele tohto typu IV);

túžba laconizmu podľa skúmaných modelov z dôvodu potreby zjednodušiť účet a výklad získaných štatistických záverov;

potreba podstatne stláčať objemy uložených štatistických informácií (bez viditeľných strát v jeho informative), ak sa dostane k záznamu a ukladaniu polí typu (13.1) v špeciálnej databáze.

Zároveň je možné zvoliť nové (pomocné) funkcie z počtu počiatočných alebo na určenie akéhokoľvek pravidla na súbore zdrojových značiek, napríklad ich lineárnych kombinácií. Pri vytváraní nový systém Známky k tomuto druhému, bránim našim rôznym druhom požiadaviek, ako je najväčšia informatiovanosť (v určitom zmysle), vzájomnej non-korózii, najmenšie skreslenie geometrickej štruktúry množiny zdrojových dát, atď v závislosti od Formálna špecifikácia týchto požiadaviek (pozri nižšie, a tiež oddiel IV) dospejeme k určitému algoritmu redukcie dimenzií. Existujú aspoň tri základné typy základných predpokladov, ktoré určujú možnosť prechodu z veľkého počtu ukazovateľov zdroja štátu (správanie, účinnosť fungovania) analyzovaného systému na výrazne menší počet najinmatívnejších premenných. To je po prvé, duplikačné informácie dodané silne vzájomne prepojené značky; Po druhé, neformatívnosť príznakov, malá zmena počas prechodu z jedného objektu na inú (malú "variabilitu" značiek); Po tretie, možnosť agregácie, t.j. jednoduchým alebo "váženým" súčtom podľa niektorých značiek.

Úlohou prechodu (s najmenšou stratou informatívne) na novú sadu funkcií môže byť opísaná nasledovne. Predpokladajme, že - niektoré p-dimenzionálne vektorové funkcie počiatočných premenných a nechať - v určitom spôsobe špecifikované meradlo informatiovatelnosti-dimenzionálneho systému funkcií špecifický výber funkčných závisí od špecifiká riešenej skutočnej úlohy a spolieha sa na jeden z Možné kritériá: Kritérium autoformativity zamerané na maximálne ukladanie informácií obsiahnutých v zdrojovom poli vzhľadom na zdroje značiek; a kritérium externej informatizity zameranej na maximálnu "stláčanie" informácií obsiahnutých v tomto poli vzhľadom na niektoré iné (externé) ukazovatele.

Úlohou je určiť takýto súbor značiek Z, nachádzajúci sa v triede F prípustných transformácií počiatočných ukazovateľov, ktoré

Jedno alebo iné uskutočnenie tejto formulácie (definovanie Špecifická voľba Opatrenia týkajúce sa informatiovanosti) A Trieda prípustných transformácií) vedie k špecifickému metód redukcie rozmerov: na hlavnú metódu komponentov, faktorovej analýze, extrémne zoskupenie parametrov atď.

Vysvetlime ho na príkladoch.

13.1.1. Spôsob hlavnej zložky (pozri § 13.2 - § 13.6).

Je to prvá hlavná zložka, že výskumník príde, ak trieda prípustných transformácií F určí všetky druhy lineárnych ortogonálnych normalizovaných kombinácií počiatočných ukazovateľov, t.j.

(tu) - matematické očakávania A ako meradlo indikátorov informatívnosti

(Tu d, ako predtým, znamenie opracovania disperzie príslušnej náhodnej premennej).

13.1.2. Analýza faktora (pozri CH. 14).

Ako je známe (pozri § 14.1), model faktorovej analýzy vysvetľuje štruktúru väzieb medzi počiatočnými ukazovateľmi, pretože správanie každého z nich štatisticky závisí od toho istého súboru takzvaných spoločných faktorov.

kde - "zaťaženie" všeobecného faktora na zdrojovom indikátore je zvyšková "špecifická" náhodná zložka a - v pároch sú nekorelované.

Ukazuje sa, že ak F, ako trieda všetkých druhov lineárnych kombinácií, berúc do úvahy vyššie uvedené limity, vybrať si hodnotu optimalizačného problému (13.2) ako miera informatizity (13.2), sa zhoduje so spoločným faktory v modeli faktora analýzy. Tu - korelačná matica počiatočných ukazovateľov korelačnú matricu indikátorov - euklidovská norma matice A.

13.1.3. Metóda extrémnej zoskupenia (pozri časť 14.2.1).

V tejto metóde hovoríme o takomto rozdelení súboru počiatočných ukazovateľov k danému počtu skupín, ktoré by znamenia patriace do tej istej skupiny boli relatívne výrazne silne, zatiaľ čo znamenia patriace do rôznych skupín by boli slabo korelované. Úlohou nahradenia každej skupiny silne prepracovaných indikátorov je súčasne riešená jedným pomocným "azylovým" ukazovateľom, ktorý by mal byť v úzkej korelácii so znakmi jeho skupiny. Po definovaní ako trieda prípustných transformácií f počiatočných ukazovateľov, všetky normalizované lineárne kombinácie hľadajú riešenie maximalizáciu (podľa S a) funkčnosti

kde je korelačný koeficient medzi premennými.

13.1.4. Multidimenzionálne škálovanie (pozri CH. 16).

V mnohých situáciách, v prvom rade, v situáciách, keď sa počiatočné štatistiky získavajú pomocou špeciálnych prieskumov, dotazníkov, expertných odhadov, existujú prípady, keď prvok primárneho pozorovania nie je stav objektu opísaného vektorom a charakteristikou párovej blízkosti (odľahlosť) dvoch objektov (alebo označení) s číslami

V tomto prípade má výskumník maticu veľkosti ako rad zdrojových štatistických údajov (ak sa zvažujú vlastnosti párov objektov objektov), \u200b\u200balebo (ak sú charakteristiky párov príznakov značiek) druhu

tam, kde sú hodnoty interpretované buď ako vzdialenosti medzi objektmi (funkcie) I a buď ako rady, ktoré sú stanovené zefektívnením týchto vzdialeností. Úlohou multidimenzionálneho škálovania je "ponoriť" naše objekty (značky) v takom rozmerovom priestore, to znamená vybrať si osi súradnice tak, že pôvodná geometrická konfigurácia množiny analyzovaných bodov objektov (alebo funkcií bodov) (13.1) alebo (13.5), bolo by to najmenej skreslené v zmysle určitého kritéria pre priemerný "stupeň skreslenia" vzájomných párov vzdialeností.

Jedným z dostatočných všeobecných schém multidimenzionálneho škálovania je určené kritériom.

kde je vzdialenosť medzi objektmi v zdrojovom priestore, vzdialenosť medzi rovnakými objektmi v hľadanom priestore menšieho rozmeru - bezplatné parametre, pričom výber špecifických hodnôt je vykonané podľa uváženia výskumníka.

Identifikujte meradlo informatizity požadovanej sady označení Z, napríklad ako veľkosť, ktorá je nepriamo spomínaná nad hodnotou stupňa skreslenia geometrickej štruktúry pôvodného súboru bodov, znížime túto úlohu na všeobecnú formuláciu ( 13.2), veriť

13.1.5. Výber najinmatívnejších ukazovateľov na modeloch diskriminačnej analýzy (pozri § 1.4; 2.5).

Vyššie uvedené funkcie sú autografické informatívne merače zodpovedajúceho systému značiek. Teraz uvádzame príklady externých informatívnych kritérií. Najmä budeme mať záujem o informativity systému ukazovateľov z hľadiska správnosti klasifikácie predmetov v týchto ukazovateľoch v oblasti diskriminačnej analýzy. Zároveň trieda prípustných transformácií F sme definovali na požiadavky požiadaviek, ktoré možno zvážiť len zástupcovia súboru počiatočných ukazovateľov, to znamená,

SPOLOČNOSTI Zdrojová práca pri riešení problému identifikácie najinmatívnejších ukazovateľov z pôvodného súboru je tvrdenie, že vektor ukazovateľov daného rozmeru je informatívnejší ako rozdiel v zákonoch jeho pravdepodobnostného distribúcie definovaného v rôznych triedach v \\ t Posudzovaná úloha klasifikácie. Ak zadáte režim dvojitého rozdielu v zákonoch, ktoré opisujú rozdelenie pravdepodobností charakteristík charakteristík tried s číslami, je možné formalizovať vyššie uvedený princíp výberu najviac informatívnych ukazovateľov. Určenie ich z maximalizácie stav (softvér) veľkosti

Najčastejšie opatrenia rozdiely medzi zákonmi rozdelenia pravdepodobnosti sú vzdialenosťou typ informácií (Vzdialenosť Doljalkak, vzdialenosť Mahalanobis), ako aj "variačná vzdialenosť" (pozri viac podrobností o tom.

13.1.6. Výber najinmatívnejších premenných v regresných modeloch (pozri).

Pri konštrukcii regresných závislostí závisí od centrálneho je identifikovať relatívne malý počet premenných (z priori sady najvýznamnejších príznakov výsledného výsledného výsledku.

Tak, ako v predchádzajúcom odseku, trieda F sa skladá zo všetkých druhov premenných vybraných z pôvodného súboru faktorov argumentov a riešiť kritérium externej informatizity týchto súborov. Jeho pohľad je zvyčajne nastavený s použitím koeficientu viacnásobného stanovenia - charakteristiky stupňa tesnosti spojenia indikátora Y so sadou premenných. Súbor premenných bude zrejme zrejme Väčšina informatívnych (pokiaľ ide o presnosť opisu správania indikátora indikátora), ak je hodnota informatizity na tejto hodnote dosahuje maximum.

  • V štatistike, strojové učenia a teórii informácií je zníženie rozmeru konvertovať údaje pozostávajúce z redukcie počtu premenných prijímaním hlavných premenných. Konverzia je možné rozdeliť na výber funkcií a výber funkcií.

Pripojené koncepty

Uvedené v literatúre

- nakladanie a predspracovanie vstupných dát - manuálne a automatické usporiadanie stimulov (výber zón záujmu), - algoritmus pre výpočet nástupcu reprezentácie matice, - budovanie rozšírenej dátovej tabuľky s hodnotami vstupných premenných potrebných na následnú analýzu - metóda znížený rozmer Priestorové priestory (metóda hlavnej zložky), - vizualizácia zaťaženia komponentov Ak chcete vybrať interpretáciu komponentu - algoritmus pre učenie stromu Solutions, je algoritmus na posúdenie prediktívnej schopnosti stromu, - vizualizácia stromov riešení.

Súvisiace koncepty (pokračovanie)

Spektrálne clusteringové techniky používajú spektrum (eigenvalues) matricu podobnosti dát na zníženie rozmeru pred klastrovaním v menších priestoroch. Matica podobnosti sa dodáva ako vstup a pozostáva z kvantitatívnych odhadov relatívnej podobnosti každého páru bodov v údajoch.

Spektrálne metódy sú trieda technika použitého v aplikovanej matematike pre číselné riešenie niektorých diferenciálnych rovníc, je možné zahrnúť rýchlu fourierovú transformáciu. Táto myšlienka spočíva v sčítaní riešení diferenciálnych rovníc ako súčet niektorých "základných funkcií" (napríklad ako Fourierové série sú súčtom sínusoidov) a potom vyberte koeficienty v množstve, aby sa čo najviac splnila rozdielna rovnica.

Matematická analýza (klasická matematická analýza) je súbor častí matematiky zodpovedajúce historickej časti pod názvom "Analýza nekonečne malých", kombinuje diferenciálny a integrálny počet.

Diferenciálna evolúcia (Eng. Rozdielna evolúcia) - Metóda multidimenzionálnej matematickej optimalizácie súvisiacej s triedou stochastických optimalizačných algoritmov (to znamená, že funguje pomocou náhodných čísel) a pomocou niektorých myšlienok genetických algoritmov, ale na rozdiel od nich nevyžaduje prácu Premenné v binárnom kóde.

Metóda diskrétneho prvku (DEM, z anglického. Diskrétne metód prvok) je rodina numerických metód určených na výpočet pohybu veľkého počtu častíc, ako sú molekuly, štrk, štrk, kamienky a iné granulované médiá. Spôsob bol pôvodne aplikovaný Cundall v roku 1971 na riešenie problémov skalných mechaniky.

Účel štúdie:

Vyhodnotenie účinnosti metodiky zníženia údajov o znížení údajov na optimalizáciu ich uplatňovania v praxi uznania (identifikácia).

Výskumné úlohy:

1. Preskúmanie literárnych zdrojov existujúce metódy Znížiť dátový rozmer.

2. Vedenie výskumu (experimentov) na porovnanie účinnosti algoritmov redukcie údajov uplatňovaných v praxi v klasifikačných úlohách

Metódy výskumu (softvér):

C ++ Programovací jazyk, Knižnica OpenCV

Vnímanie údajov s vysokým rozmerom pre osobu je ťažké a niekedy je to nemožné. V tomto ohľade bola dosť prirodzená, že je túžba presťahovať sa z multidimenzionálnej vzorky k údajom malého rozmeru, aby "mohli na ne pozerať," hodnotiť a používať, vrátane na dosiahnutie úloh uznávania. Okrem viditeľnosti vám zníženie rozmeru umožňuje zbaviť sa faktorov (informácií), ktoré zasahujú do štatistickej analýzy, ktorá predĺži čas na zhromažďovanie informácií, zvýšenie disperzie odhadov parametrov a charakteristík distribúcií.

Zníženie rozmeru je transformácia zdrojových dát s veľkým rozmerom v novej reprezentácii menšieho rozmeru, ktorý udržiava základné informácie. V dokonalom prípade rozmer prevedeného znázornenia zodpovedá vnútornému rozmeru údajov. Vnútorný dimenzia údajov je minimálny počet premenných potrebných na vyjadrenie všetkých možných dátových vlastností. Analytický model, ktorý je postavený na základe znížených viac údajov, by mal byť jednoduchšie spracovanie, implementáciu a porozumenie ako model postavený na súpravu zdrojov.

Rozhodnutie o výbere metódy redukcie rozmeru je založené na znakových vlastnostiach riešenia úlohy a očakávaných výsledkov, ako aj obmedzeným časom a výpočtové zdroje. Podľa literárnych reviews, najčastejšie používané metódy redukcie rozmerov zahŕňajú hlavné zložky analýzy (PCA), nezávislý komponent Analisys (ICA) a rozkladu singulárnej hodnoty (SVD).

Analýza hlavnej zložky (PCA) - najjednoduchší spôsob zníženia rozmeru údajov. Je široko používaný na konverziu značiek a zároveň znížiť rozmer údajov v úlohách klasifikácie. Metóda je založená na projekcii údajov do nového súradnicového systému menšieho rozmeru, ktorý je určený vlastnými vektormi a vlastným počtom matrice. Z hľadiska matematiky je hlavnou metódou komponentov ortogonálnou lineárnou transformáciou.

Hlavnou myšlienkou metódy je vypočítanie vlastníctva a eigenvektorov kovariankovej matici údajov s cieľom minimalizovať disperziu. Matrica kovariancie sa používa na určenie rozptylu vzhľadom na priemerný vzhľadom na seba. Kovaristika dvoch náhodných premenných (rozmery) - miera ich lineárnej závislosti:

kde - matematické očakávania náhodnej hodnoty X, - matematické očakávania náhodnej premennej Y. Môžeme tiež zapísať vzorca (1) vo formulári:

kde - priemer X, kde - priemer y, n je rozmerová hodnota údajov.

Po výpočte vlastných vektorov a ich vlastných čísel sú ich hodnoty triedené v zostupnom poradí. Zložky sú teda získané, aby sa znížil význam. Vlastný vektor s najväčším prirodzeným číslom a je hlavnou zložkou súboru údajov. Hlavné komponenty sa získavajú vynásobením radov z vlastných vektorov na triedených eigenvalues. Ak chcete nájsť optimálny priestor menšieho rozmeru, použije sa vzorca (3), ktorý vypočíta minimálnu chybu medzi zdrojovým súborom údajov a nasledujúcim kritériom: \\ t

kde p je rozmer nového priestoru, n je rozmer pôvodnej vzorky, - eigenvalues, - prah. Počas prevádzky algoritmu získame maticu s dátami MP, lineárne konvertované z MN, potom, čo PCA nájde lineárne mapovanie M, minimalizovanú funkciu odhadu:

kde - euklidovská vzdialenosť medzi bodmi a - euklidovou vzdialenosťou medzi bodmi a ,, . Minimálne tejto odhadovanej funkcie sa môže vypočítať vykonaním spektrálneho rozkladu gramovej matrice a vynásobením vlastného vektora tejto matrice do koreňa zo zodpovedajúcich vlastníkov.

Analýza nezávislých zložiek ( Ica ) , Na rozdiel od PCA, dostatočne nového, ale rýchlo získať metódu popularity. Je založený na myšlienke lineárnej transformácie dát na nové komponenty, ktoré sú najstatočnejšie nezávislé a voliteľne ortogonálne navzájom. Pre výskum v tomto príspevku bol vybraný algoritmus Fastica, podrobne opísaný v článku. Hlavné úlohy táto metóda Tieto sú vycentrované (odpočítajúce priemer dát) a "bielenie" (lineárna konverzia vektora X vo vektore s nekorelovanými súradnicami, ktorých disperzia je rovná jednej).

Kritérium nezávislosti v Fastica je ne-gelytura, ktorá sa meria s použitím prevodu koeficientov:

Pre Gaussovské náhodné premenné je táto hodnota nula, takže Fastica maximalizuje svoju hodnotu. Ak - "bielené" údaje, potom matrica kovariancie "biedených" údajov je jediná matrica.

Takáto transformácia je vždy možná. Populárna metóda "bielenia" využíva spektrálne rozklad matrice kovariancie , kde - ortogonálna matrica vlastných vektorov, je diagonálna matrica vlastných čísel. Ukazuje sa, že "bielenie" môže byť reprezentované ako:

tam, kde sa matrica vypočíta pomocou pomoponentnej prevádzky:

Experimenty

Pre experimentálnu štúdiu navrhovaných metód bola použitá slovník-založená video sekvencia z databázy Casia Gait. Základňa obsahuje sekvencie binárnych snímok zodpovedajúcich jednotlivým rámcom obrazovej sekvencie, na ktorom už bola vykonaná pridelenie pohybujúcich sa objektov.

Zo všetkých mnohých videí sa náhodne odobralo 15 tried, v ktorých je uhol streľby 90 stupňov, ľudia sú znázornené v bežných neinterfách a bez tašky. V každej triede bolo 6 sekvencií. Dĺžka každej sekvencie bola aspoň 60 snímok. Triedy boli rozdelené do učenia a testovacích vzoriek 3 sekvencií.

Funkcie získané v dôsledku metód PCA a ICA boli použité na štúdium klasifikátora, ktorý v súčasnej práci boli nosné vektory (podporné vektorové stroje, sVM).

Na určenie kvality spôsobu metódy sa odhadovala presnosť klasifikácie, definovaná ako podiel správne klasifikovaných predmetov. Počas experimentu bol tiež stanovený čas strávený v spôsobe školenia a testovania.

Obrázok 1. (a) Hlavná zložka metódy (PCA) b) Nezávislý spôsob komponentov (ICA)

Obrázok 1 (A, B) predstavuje vzťah presnosti klasifikácie z hodnoty výstupného rozmeru údajov po konverzii. Je možné vidieť, že v PCA presnosť klasifikácie s nárastom počtu zložiek sa mierne líši a pri použití ICA, presnosť od určitej hodnoty, začína klesať.

Obrázok 2. Závislosť času klasifikácie na počte komponentov ale) PCA. b) Ica

Obrázok 2 (A, B) predstavuje závislosť času klasifikácie na počte komponentov PCA a ICA. Rast rozmeru v oboch prípadoch bol sprevádzaný lineárnym zvýšením času spracovania. Grafy ukazujú, že klasifikátor SVM pracoval rýchlejšie po spustení rozmeru pomocou hlavnej metódy komponentov (PCA).

Hlavný komponent Analisysys (PCA), nezávislé komponenty Analisys (ICA) pracovali dostatočne rýchlo a definované parametre Vysoké výsledky sa získali v úlohe klasifikácie. Ale s údajmi s komplexnou štruktúrou, tieto metódy nie vždy umožňujú dosiahnuť požadovaný výsledok. Preto B. v poslednej dobe Miestne nelineárne metódy sa čoraz viac venujú projekcii údajov o určitej odrode, ktorá vám umožní udržiavať dátovú štruktúru.

V budúcnosti sa plánuje rozšíriť tak zoznam algoritmov používaných na vytvorenie popisu funkcie a zoznam použitých metód klasifikácie. Zdá sa, že ďalšia dôležitá oblasť výskumu znižuje čas spracovania.

Bibliografia:

  1. Jolliffe, I.T, hlavná zložka, Springer, 2002
  2. Hyvärinen a Erkki Oja, Nezávislý analýza komponentov: algoritmy a aplikácie, neurónové siete, 13, 2000
  3. Josiński, H. Extrakcia funkcií a HMM-založená klasifikácia video sekvencií chôdze na účely ľudskej identifikácie / Springer, 2013 - Vol 481.

Kľúčové slová

Matematika / Aplikované štatistiky / Matematická štatistika / Rastové body / Spôsob hlavnej zložky / Analýza faktora / Multidimenzionálna stupnica / Vyhodnotenie dimenzie údajov / Odhad rozmerov modelu / Matematika / aplikovaná štatistika / matematické štatistiky / Rastové body / analýza hlavného komponentu / analýza faktora / multidimenzionálna škálovanie / odhad dátového rozmeru / odhadu modelového rozmeru

anotácia vedecký článok v matematike, autorom vedeckej práce - Orlov Alexander Ivanovich, Lutsenko Evgeny Veniainovich

Jeden z "rastových bodov" aplikované štatistiky sú metódy na zníženie rozmeru priestoru štatistických údajov. Sú čoraz viac používané pri analýze údajov v špecifických aplikovaných štúdiách, napríklad sociologických. Zvážte najsľubnejšie metódy zníženého rozmeru. Spôsob hlavnej zložky Je to jedna z najčastejšie používaných metód rozmeru. Pre vizuálnu analýzu údajov sa často používajú projekcie počiatočných vektorov v rovine prvých dvoch hlavných zložiek. Zvyčajne je dátová štruktúra jasne viditeľná, kompaktné klastre objektov a oddelene uvoľnený vektor sa rozlišujú. Spôsob hlavnej zložky je jednou z metód analýza faktora. Nový nápad v porovnaní s spôsob hlavných komponentov Je to, že na základe zaťaženia sú faktory rozdelené do skupín. V jednej skupine sa kombinujú faktory, ktoré majú podobný účinok na prvky novej základne. Potom z každej skupiny sa odporúča opustiť jedného zástupcu. Niekedy sa namiesto výberu zástupcu vytvorí nový faktor, ktorý je základom pre posudzovanú skupinu. Zníženie rozmeru sa vyskytuje počas prechodu k systému faktorov, ktoré sú zástupcovia skupín. Zostávajúce faktory sa vyhodia. O využívaní vzdialeností (blízkosť, indikátory rozdielov) medzi značkami a rozsiahlou triedou metód je založená multidimenzionálne škálovanie. Hlavnou myšlienkou tohto spôsobu metód je reprezentovať každý predmet bodu geometrického priestoru (zvyčajne rozmer 1, 2 alebo 3), ktorých súradnice slúžia ako hodnoty skrytých (latentných) faktorov, ktoré sú adekvátne opisuje objekt. Ako príklad aplikácie pravdepodobnostného štatistického modelovania a výsledkov non-statinistov ospravedlňujeme konzistenciu merania rozmeru dátového priestoru v multidimenzionálne škálovaniePredtým navrhnutým kolónom z heuristických úvah. Považované za niekoľko prác posúdenie rozmerov modelov (v regresnej analýze av teórii klasifikácie). Dana Informácie o algoritmoch Zníženie rozmeru v automatizovanom systéme-kognitívnej analýze

Podobné témy vedecká práca na matematike, autorom vedeckej práce - Orlov Alexander Ivanovich, Lutsenko Evgeny Benáinovich

  • Matematické metódy v sociológii štyridsať päť rokov

  • Rôzne objekty non-prírody

  • Hodnotenie parametrov: Jeden krok odhadov sú vhodnejšie pre maximálne odhady dôveryhodnosti

  • Aplikované štatistiky - štatistiky a perspektívy

    2016 / Orlov Alexander Ivanovich
  • Štát a vyhliadky na rozvoj aplikovaných a teoretických štatistík

    2016 / Orlov Alexander Ivanovich
  • Vzťah limitných terém a metóda Monte Carlo

    2015 / Orlov Alexander Ivanovich
  • O rozvoji štatistík necitlivých predmetov

    2013 / Orlov Alexander Ivanovich
  • Body rastu štatistických metód

    2014 / Orlov Alexander Ivanovich
  • O nových sľubných matematických nástrojoch kontroly

    2015 / Orlov Alexander Ivanovich
  • Vzdialenosti v štatistických medzerách

    2014 / Orlov Alexander Ivanovich

Jedným z "bodov rastu" aplikovanej štatistiky je metódy znižovania rozmeru štatistických údajov. V analýze údajov v konkrétnom aplikovanom výskume sa čoraz viac používajú, ako napríklad sociológia. Preskúmame najsľubnejšie metódy na zníženie rozmernosti. Hlavné zložky sú jednou z najčastejšie používaných metód na zníženie rozmernosti. Pre vizuálnu analýzu údajov sa často používajú projekcie pôvodných vektorov v rovine prvých dvoch hlavných zložiek. Štruktúra dát je jednoznačne viditeľná, zvýraznila kompaktné klastre objektov a oddelene pridelených vektorov. Hlavné zložky sú jedným z metód faktorovej analýzy. Nová myšlienka faktorovej analýzy v porovnaní s metódou hlavných zložiek je, že na základe zaťaženia sa faktory rozpadnú do skupín. V jednej skupine faktorov je nový faktor kombinovaný s podobným vplyvom na prvky nového základu. Každá skupina sa odporúča opustiť jedného zástupcu. Niekedy namiesto výberu reprezentatívne výpočtom, nový faktor, ktorý je centrálnym pre danú skupinu. Znížený rozmer sa vyskytuje počas prechodu na systémové faktory, ktoré sú zástupcovia skupín. Oterové faktory sa vyhodia. O používaní vzdialenosti (blízkostné opatrenia, ukazovatele rozdielov) medzi vlastnosťami a rozsiahlou triedou sú založené metódy multidimenzionálneho škálovania. Základnou myšlienkou tejto triedy spôsobov je prezentovať každý objekt ako bod geometrického priestoru (zvyčajne rozmeru 1, 2 alebo 3), ktorých súradnice sú hodnoty skrytých (latentných) faktorov, ktoré kombinujú primerane Opíšte objekt. Ako príklad aplikácie pravdepodobnostného a štatistického modelovania a výsledky štatistík nečísačných údajov ospravedlňujeme konzistenciu odhadcov rozmerov údajov v multidimenzionálnom škálovaní, ktoré sú navrhnuté predtým Kruskal z heuristických úvah. Považovali sme si niekoľko konzistentných odhadov rozmerov modelov (v regresnej analýze av teórii klasifikácie). Vykonávame tiež nevyužité algoritmy za zníženie rozmernosti v automatizovanom systéme-kognitívnej analýze

Text vedeckej práce na témy "metódy na zníženie rozmeru priestoru štatistických údajov"

UDC 519,2: 005.521: 633.1: 004.8

01.00.00 Fyzika a matematika

Metódy na zníženie rozmeru štatistického dátového priestoru

Orlov Alexander Ivanovich

d.E.N., D.T.N., K.F.-M.N., Profesor

RINZ BROSH Kód: 4342-4994

Moskva Štát Technický

univerzita. Reklama Bauman, Rusko, 105005,

Moskva, 2. baumanskaya st., 5, [Chránené e-mail]t.

Lutsenko Evgeny Veniainovich D.E.N., Ph.D., profesor Rinz Brosh Kód: 9523-7101 Kuban State Agrárna University, Krasnodar, Rusko [Chránené e-mail] Com.

Jedným z "rastových bodov" štatistiky aplikácií je metódami na zníženie rozmeru štatistického dátového priestoru. Sú čoraz viac používané pri analýze údajov v špecifických aplikovaných štúdiách, napríklad sociologických. Zvážte najsľubnejšie metódy zníženého rozmeru. Hlavnou metódou komponentov je jedným z najčastejšie používaných metód redukcie rozmerov. Pre vizuálnu analýzu údajov sa často používajú projekcie počiatočných vektorov v rovine prvých dvoch hlavných zložiek. Zvyčajne je dátová štruktúra jasne viditeľná, kompaktné klastre objektov a oddelene uvoľnený vektor sa rozlišujú. Hlavnou metódou komponentov je jednou z metód faktorovej analýzy. Nová myšlienka v porovnaní s hlavnou metódou komponentov je, že na základe zaťaženia sú faktory rozdelené do skupín. V jednej skupine sa kombinujú faktory, ktoré majú podobný účinok na prvky novej základne. Potom z každej skupiny sa odporúča opustiť jedného zástupcu. Niekedy sa namiesto výberu zástupcu vytvorí nový faktor, ktorý je základom pre posudzovanú skupinu. Zníženie rozmeru sa vyskytuje počas prechodu k systému faktorov, ktoré sú zástupcovia skupín. Zostávajúce faktory sa vyhodia. O využívaní vzdialeností (blízkostné opatrenia, ukazovatele rozdielov) medzi značkami a rozsiahlou triedou multidimenzionálnych metód škálovania. Hlavnou myšlienkou tejto triedy spôsobov je reprezentovať každý objekt s bodom geometrického priestoru (zvyčajne rozmer 1, 2 alebo 3), ktorých súradnice sú hodnoty skrytých (latentných) faktorov, v agregáte , dostatočne adekvátne opisuje

UDC 519,2: 005.521: 633.1: 004.8

Fyziky a matematické vedy

Metódy znižovania rozmeru priestoru štatistických údajov

Orlov Alexander Ivanovich

Dr.sci.Chon., Dr.Sci.Tech., Cand.PHYS-MATH.SCI.,

BAUMAN MOSKVA ŠTÁTNA TECHNICKÚ UNIVERZÍVA, MOSKVA, RUSKO

Lutsenko Eugeny Veniainovich Dr.Sci.con., Cand.tech.sci., Profesor RSCI Spin-Code: 9523-7101

Kuban State Agrárna University, Krasnodar, Rusko

prof.lutse [Chránené e-mail] Com.

Jedným z "bodov rastu" aplikovanej štatistiky je metódy znižovania rozmeru štatistických údajov. V analýze údajov v konkrétnom aplikovanom výskume sa čoraz viac používajú, ako napríklad sociológia. Preskúmame najsľubnejšie metódy na zníženie rozmernosti. Hlavné zložky sú jednou z najčastejšie používaných metód na zníženie rozmernosti. Pre vizuálnu analýzu údajov sa často používajú projekcie pôvodných vektorov v rovine prvých dvoch hlavných zložiek. Štruktúra dát je jednoznačne viditeľná, zvýraznila kompaktné klastre objektov a oddelene pridelených vektorov. Hlavné zložky sú jedným z metód faktorovej analýzy. Nová myšlienka faktorovej analýzy v porovnaní s metódou hlavných zložiek je, že na základe zaťaženia sa faktory rozpadnú do skupín. V jednej skupine faktorov je nový faktor kombinovaný s podobným vplyvom na prvky nového základu. Každá skupina sa odporúča opustiť jedného zástupcu. Niekedy namiesto výberu reprezentatívne výpočtom, nový faktor, ktorý je centrálnym pre danú skupinu. Znížený rozmer sa vyskytuje počas prechodu na systémové faktory, ktoré sú zástupcovia skupín. Oterové faktory sa vyhodia. O používaní vzdialenosti (blízkostné opatrenia, ukazovatele rozdielov) medzi vlastnosťami a rozsiahlou triedou sú založené metódy multidimenzionálneho škálovania. Základnou myšlienkou tejto triedy spôsobov je prezentovať každý objekt ako bod geometrického priestoru (zvyčajne rozmeru 1, 2 alebo 3), ktorých súradnice sú hodnoty skrytých (latentných) faktorov, ktoré kombinujú primerane Opíšte objekt. Ako príklad aplikácie pravdepodobnostného a štatistického modelovania a výsledkov štatistík necítkových údajov ospravedlníme konzistentnosť odhadcov

objekt. Ako príklad aplikácie pravdepodobnostného štatistického modelovania a výsledkov štatistiky, ktoré nie sú štatistikou, odôvodňujeme konzistenciu merania rozmeru dátového priestoru v multidimenzionálnom škálovaní, skôr navrhol kolónom z heuristických úvah. Bolo zvažované množstvo práce na posúdení rozmerov modelov (v regresnej analýze a na teórii klasifikácie). Dana Informácie o algoritmoch Zníženie rozmeru v automatizovanom systéme-kognitívnej analýze

Kľúčové slová: matematika, aplikované štatistiky, matematické štatistiky, rastové body, hlavná metóda komponentov, analýza faktorov, multidimenzionárna škálovanie, odhad dátového rozmeru, odhad modelu dimenzie

rozmer údajov v multidimenzionálnom škálovaní, ktoré navrhli predtým Kruskal z heuristických úvah. Považovali sme si niekoľko konzistentných odhadov rozmerov modelov (v regresnej analýze av teórii klasifikácie). Vykonávame tiež nevyužité algoritmy za zníženie rozmernosti v automatizovanom systéme-kognitívnej analýze

Kľúčové slová: matematika, aplikované štatistiky, matematické štatistiky, rastové body, analýza hlavnej zložky, analýza faktorov, multidimenzionálne škálovanie, odhad dátového rozmeru, odhad vzorového rozmeru

1. Úvod

Ako už bolo uvedené, jedným z "rastových bodov" štatistiky aplikácií sú metódy znižovania rozmeru štatistického dátového priestoru. Sú čoraz viac používané pri analýze údajov v špecifických aplikovaných štúdiách, napríklad sociologických. Zvážte najsľubnejšie metódy zníženého rozmeru. Ako príklad aplikácie pravdepodobnostného štatistického modelovania a výsledkov neštartovania, ospravedlňujeme konzistenciu veľkosti veľkosti priestoru, ktorý predtým navrhol kolromickým z heuristických úvah.

V multidimenzionálnej štatistickej analýze je každý objekt opísaný vektorom, ktorého rozmer je ľubovoľný (ale rovnaký pre všetky objekty). Avšak osoba môže priamo vnímať iba numerické údaje alebo body v lietadle. Analyzujte akumulácie bodov v trojrozmernom priestore je už oveľa ťažšie. Priame vnímanie údajov vyššieho rozmeru je nemožné. Preto dosť prirodzené je túžba pohybovať sa z multidimenzionálnej vzorky k údajom malého rozmeru, aby "mohli

vyzerať ". Napríklad marketing môže jasne vidieť, koľko rôznych typov spotrebiteľského správania (t.j. koľko je vhodné prideliť segmenty trhu) a ktoré vlastnosti sú (s akmi vlastnosťami) spotrebiteľov v nich.

Okrem túžby po jasnosti existujú aj iné motívy na zníženie rozmeru. Tieto faktory, z ktorých je premenná záujem o výskumníka, nielenže zasahujú do štatistickej analýzy. Po prvé, finančné, dočasné, personálne zdroje sa vynakladajú na zhromažďovanie informácií o nich. Po druhé, ako dokázať, ich zahrnutie do analýzy zhoršuje vlastnosti štatistických postupov (najmä, zvyšuje disperziu odhadov parametrov a charakteristík distribúcií). Preto je žiaduce zbaviť sa týchto faktorov.

Pri analýze multidimenzionálnych údajov, nie jeden, ale mnoho úloh, najmä výberom nezávislých a závislých premenných rôznymi spôsobmi. Preto považujeme problém zníženého rozmeru v nasledujúcom znení. Multidimenzionálna vzorka dana. Je potrebné, aby sa od neho pohyboval na súhrn vektorov menšieho rozmeru, pričom ušetrí štruktúru zdrojových údajov, ak je to možné, bez straty informácií obsiahnutých v údajoch. Úloha je špecifikovaná v rámci každého konkrétneho spôsobu zníženého rozmeru.

2. Spôsob hlavnej zložky

Je to jedna z najčastejšie používaných metód rozmeru. Hlavná myšlienka je v súlade s odhaľovaním oblastí, v ktorých majú údaje najväčší rozptyl. Nechajte vzorku pozostávať z vektorov rovnomerne distribuovaných s vektorom x \u003d (x (1), x (2), ..., x (n)). Zvážte lineárne kombinácie

7 (^ (1), x (2) ,., l (n)) \u003d x (1) x (1) + x (2) x (2) + ... + l (n) x (n) .

X2 (1) + x2 (2) + ... + x2 (n) \u003d 1. Tu vektor X \u003d (x (1), x (2), ..., x (n)) leží na jednotke sféra v p-dimenzionálnom priestore.

V hlavnej metóde komponentov najprv nájde smer maximálneho rozptylu, t.j. Taký x, pri ktorom je maximálna disperzia náhodnej premennej 7 (x) \u003d 7 (x (1), x (2), ..., x (n)). Potom vektor X nastavuje prvú hlavnú zložku a hodnota 7 (x) je výstupok náhodného vektora X na osi prvej hlavnej zložky.

Potom, vyjadrenie podmienok lineárnej algebry, zvážte hyperplane v p-rozmernom priestore, kolmé na prvú hlavnú zložku a navrhnúť všetky prvky vzorky na tomto hyperplane. Rozmer hyperplane je 1 menší ako rozmer zdroja.

Pri posudzovaní hyperplane sa postup opakuje. Nájde o smer najväčšieho rozptylu, t.j. Druhá hlavná zložka. Potom sa izoluje hyperplane kolmý na prvé dve hlavné zložky. Jeho rozmer je 2 menší ako rozmer zdroja. Ďalej - ďalšia iterácia.

Z hľadiska lineárnej algebry hovoríme o budovaní nového základu v p-dimenzionálnom priestore, ktorého slúžia ako hlavné zložky.

Disperzia zodpovedajúca každej novej hlavnej zložke, menej ako pre predchádzajúce. Zvyčajne sa zastaví, keď je menšia ako zadaná prahová hodnota. Ak je zvolené hlavným komponentom, to znamená, že z p-dimenzionálneho priestoru bolo možné ísť do K-dimensional, t.j. Znížte rozmer s P-do K, prakticky bez skreslenia štruktúry zdrojových údajov.

Pre vizuálnu analýzu údajov sa často používajú projekcie počiatočných vektorov v rovine prvých dvoch hlavných zložiek. Zvyčajne

Štruktúra dát je jasne viditeľná, kompaktné klastre objektov a oddelene uvoľnený vektor sa rozlišujú.

3. Faktorová analýza

Hlavnou metódou komponentov je jednou z metód faktorovej analýzy. Rôzne algoritmy pre analýzu faktorov sú kombinované skutočnosťou, že vo všetkých z nich existuje prechod na nový základ v počiatočnom N-dimenzionálnom priestore. Dôležité je koncepcia "faktorového zaťaženia", ktorá sa používa na opis úlohy zdrojového faktora (premennej) pri tvorbe určitého vektora z novej základne.

Nová myšlienka v porovnaní s hlavnou metódou komponentov je, že na základe zaťaženia sú faktory rozdelené do skupín. V jednej skupine sa kombinujú faktory, ktoré majú podobný účinok na prvky novej základne. Potom z každej skupiny sa odporúča opustiť jedného zástupcu. Niekedy sa namiesto výberu zástupcu vytvorí nový faktor, ktorý je základom pre posudzovanú skupinu. Zníženie rozmeru sa vyskytuje počas prechodu k systému faktorov, ktoré sú zástupcovia skupín. Zostávajúce faktory sa vyhodia.

Opísaný postup môže byť vykonaný nielen s pomocou faktorovej analýzy. Rozprávame sa Na klastrovej analýze značiek (faktory, premenné). Na rozdelenie príznakov skupín môžu byť použité rôzne algoritmy klastrov analýzy. Stačí zadať vzdialenosť (miera blízkosti, indikátor rozdielu) medzi značkami. Nech X a Y sú dve znamenia. Rozdiel D (X, Y) medzi nimi sa môže merať pomocou selektívnych korelačných koeficientov:

dI (X, Y) \u003d 1 - RN (X, Y), D2 (X, Y) \u003d 1 - PN (X, Y), kde RN (X, Y) je selektívny lineárny pearsonový korelačný koeficient , PN (X, Y) je selektívny koeficient riečnej korelácie Spime.

4. Multidimenzionálne škálovanie.

O používaní vzdialeností (bezdotykové opatrenia, indikátory rozdielov) D (X, Y) medzi značkami X a U, je založená rozsiahla trieda multidimenzionálnych metód škálovania. Hlavnou myšlienkou tohto spôsobu metód je reprezentovať každý predmet bodu geometrického priestoru (zvyčajne rozmer 1, 2 alebo 3), ktorých súradnice slúžia ako hodnoty skrytých (latentných) faktorov, ktoré sú adekvátne opisuje objekt. V rovnakej dobe, vzťahy medzi objektmi sú nahradené vzťahmi medzi bodmi - ich zástupcami. Údaje o podobnosti objektov - vzdialenosti medzi bodmi, údajmi o nadradenosti - vzájomné umiestnenie bodov.

5. Problém posúdenia skutočného rozmeru faktorového priestoru

V praxi analýzy použitých sociologických údajov rôzne modely Multidimenzionálne škálovanie. Vo všetkých z nich problém posudzovania skutočného rozmeru faktorového priestoru. Zvážte tento problém na príklade spracovania údajov o podobnosti predmetov s použitím metrickej škálovania.

Nech je N objekty 0 (1), O (2), ..., O (n), pre každý pár objektov 0 (/), o (j), je opatrenie ich podobnosti S (IJ) . Veríme, že vždy s (i, j) \u003d s (j, i). Pôvod čísla S (IJ) nezáleží na popisovaní fungovania algoritmu. Mohli by sa získať buď priamym meraním alebo pomocou odborníkov, alebo vypočítaním kombinácie opisných charakteristík, alebo nejako inak.

V Euclidovskom priestore by mali byť posudzované Nové objekty reprezentované konfiguráciou N bodov a Euklidovská vzdialenosť D (I, J) sa javí ako miera blízkej reprezentantov bodov

medzi príslušnými bodmi. Stupeň zhody medzi množinou predmetov a kombináciou ich bodov je určená porovnaním matríc podobnosti || I (,) || a vzdialenosti funkcie SM-metrickej podobnosti

i \u003d £ | * (/,]) - th (/, m

Geometrická konfigurácia musí byť vybratá tak, aby funkčná s dosiahla svoju najmenšiu hodnotu.

Komentár. V nonkettetickom škálovaní namiesto blízkosti samotnej blízkosti blízkosť a vzdialenosti sa berie do úvahy blízkosť objednávok na súbore blízkych opatrení a súbor zodpovedajúcich vzdialeností. Namiesto funkčného sú použité analógy koeficientov hodnosti korelácie Ducha a Kendalla. Inými slovami, net metrické škálovanie pochádza z predpokladu, že v poradnom meradle sa merajú v poradnom meradle.

Nech je euklidský priestor rozmer t. Zvážte aspoň v polovici štvorcovej chyby

tam, kde je minimum prijaté vo všetkých možných konfiguráciách bodov v T-Merne euklidovskom priestore. Je možné preukázať, že príslušné minimum sa dosiahne v určitej konfigurácii. Je jasné, že s rastom t, hodnota pri monotónne klesá (presnejšie, nezvyšuje). Možno ukázať, že pri t\u003e p - 1 je rovný 0 (ak - metrika). Na zvýšenie možností zmysluplného výkladu je žiaduce konať v priestore možné menej rozmeru. Zároveň sa však rozmer musí byť vybraný tak, že body predstavujú objekty bez veľkého skreslenia. Vzniká otázka: ako racionálne vybrať rozmer priestoru, t.j. Prirodzené číslo t?

6. Modely a metódy odhadu rozmeru dátového priestoru

Ako súčasť deterministickej analýzy údajov primeranej odpovede na túto otázku, zrejme nie. Preto je potrebné študovať správanie AM na určitých pravdepodobnostných modeloch. Ak je blízkosť S (IJ) náhodných hodnôt, ktorých distribúcia závisí od "skutočného rozmeru" M0 (a prípadne z iných parametrov), potom v klasickom matematicko-štatistickom štýle, na nastavenie metódy M0 odhad Pozrite sa na bohaté hodnotenia a atď.

Začnime stavať pravdepodobnostné modely. Budeme predpokladať, že objekty sú v euklidovskom priestore rozmeru, kde dostatočne veľké. Skutočnosť, že "skutočný rozmer" je rovný M0, znamená, že všetky tieto body ležia na hyperplane dimenzie M0. Prijímame to isté, že súbor posudzovaných bodov je vzorka kruhovej normálnej distribúcie s disperziou O (0). To znamená, že objekty 0 (1), 0 (2), ..., o (n) sú nezávislé v agregáte náhodných vektorov, z ktorých každý je postavený ako

Z (1) E (1) + z (2) E (2) + ... + z (M0) E (M0), kde E (1), E (2), ..., E (M0) - ORTONTONÁLNE POTVRDZUJÚCE ZÁKLADY V SÚVISLOSTI DIMIZENIA M0, v ktorom sú posudzované posudzované body a Z (1), Z (2), Z (M0) nezávislé v súhrnnom jednorozmerných normálnych náhodných premenných s matematickými očakávaniami 0 a Disperzia o (0).

Zvážte dva modely na získanie prístupu S (IJ). V prvom z nich sa S (IJ) líšia od euklidovskej vzdialenosti medzi zodpovedajúcimi bodmi vzhľadom na skutočnosť, že body sú známe skreslením. Nechajte sa (1), s (2), ..., C (n) - posudzované body. Potom

s (I, J) \u003d D (C (I) + E (I), C (J) + S (/)), IJ \u003d 1, 2, ..., N,

kde Y je euklidovská vzdialenosť medzi bodmi v priestore merania, vektor E (1), E (2), ..., E (P) sú vzorkou kruhového normálneho rozdelenia meracieho priestoru s nulovou matematickou očakávaním a matricu kovariancie na (1) /, kde I-A-A-ADITE MATRIX. Inými slovami,

e (0 \u003d p (1) e (1) + p (2) e (2) + ... + c (k) v (k), kde E (1), E (2), ... E (k) - orthonormal základ v meracom priestore a [c ^^), i \u003d 1, 2, ..., p ,? \u003d 1, 2, ..., k) je súbor nezávislého v súhrne jednorozmerných náhodných premenných s nulovou matematickou očakávaní a disperziou O (1).

V druhom modeli skreslenia sú uložené priamo samotným vzdialenostiam:

Kch) \u003d th (f)) + £ (uh a \u003d 1, 2., n, i f j,

kde a a v prvom intervale, znižuje rýchlejšie ako na druhom mieste. Z toho vyplýva, že štatistika

m * \u003d Arg Minam + 1 - 2AM + A-X)

je to bohaté hodnotenie skutočného rozmeru M0.

Takže pravdepodobnostná teória znamená odporúčanie - ako odhad rozmeru faktorálneho priestoru na použitie t *. Všimnite si, že takéto odporúčanie bolo formulované ako heuristický jeden zo zakladateľov multidimenzionálneho škálovania J. Kraskal. Pokračoval zo skúseností s praktickým využívaním multidimenzionálnych mierkovacích a výpočtových experimentov. Pravdepodobná teória umožnila odôvodniť toto heuristické odporúčanie.

7. Hodnotenie rozmeru modelu

Ak je to možné, podmnožnice znamení tvoria expandujúcu rodinu, napríklad stupeň polynómu sa odhaduje, je prirodzené zaviesť termín "modelový rozmer" (tento koncept je vo veľkej miere podobný rozmeru dátového priestoru v multidimenzionálnom meradle). Autor tohto článku má niekoľko prác na hodnotení rozmeru modelu, ktorý je vhodné porovnať s prácou o odhade rozmeru dátového priestoru, diskutovaného vyššie.

Prvá taká práca bola vykonaná autorom tohto článku počas cesty do Francúzska v roku 1976. Jeden posúdenie rozmeru modelu v regresii bol v ňom študovaný, a to posúdenie stupňa polynómu za predpokladu, že závislosť opisuje polynóm. Tento odhad bol známy v literatúre, ale neskôr sa mýlila, aby sa pripisovalo autorovi tohto článku, ktorý len študoval svoje vlastnosti, najmä zistil, že to nie je bohatý, a našiel jeho limitnú geometrickú distribúciu. Iní, už bohaté odhady rozmeru regresného modelu boli navrhnuté a študované v článku. Tento cyklus dokončil prácu obsahujúcu množstvo vylepšovania.

Extrémna publikácia na túto tému zahŕňa diskusiu o výsledkoch štúdia rýchlosti konvergencie v limitných teoremoch získaných spoločnosťou Monte Carlo.

Podobne ako metodiku pre odhad rozmeru modelu v probléme deliacich zmesí (časť teórie klasifikácie) sa uvažuje v článku.

Vyššie uvedené odhady rozmeru modelu v multidimenzionálnom škálovaní sa študujú v dielach. V tých istých prácach, limitné správanie charakteristík spôsobu hlavných zložiek (s použitím asymptotickej teórie správania rozhodnutí extrémnych štatistických problémov).

8. Algoritmy redukcie dimenzií v automatizovanej systémovej analýze

Automatizovaná systém-kognitívna analýza (ASC-ANALÝZA) je tiež navrhnutý v systéme EIDOS, je implementovaný ďalší spôsob zníženého rozmeru. Je popísaný v práci v sekciách 4.2 "Opis algoritmov základných kognitívnych operácií systému analýzy (BKO)" a 4.3 "Podrobné algoritmy BKOS (ASK ANALÝZA)". Tu stručný opis Dva algoritmy - BKOS-4.1 a BKOS-4.2.

BKOSA-4.1. "Abstrakcia faktorov (zníženie rozmeru sémantického priestoru faktorov)"

Pomocou metódy po sebe idúcich aproximácií (iteratívny algoritmus), pri daných hraničných podmienkach, rozmer priestoru atribútu sa znižuje bez výrazného zníženia jeho objemu. Kritériom pre zastavenie iteratívneho procesu je dosiahnuť jednu z hraničných podmienok.

BKOS-4.2. "Abstrakcia tried (zníženie rozmeru sémantického priestoru tried)"

Pomocou metódy po sebe idúcich aproximácií (iteratívny algoritmus), podľa špecifikovaných hraničných podmienok, veľkosť priestoru tried sa znižuje bez výrazného zníženia jeho objemu. Kritériom pre zastavenie iteratívneho procesu je dosiahnuť jednu z hraničných podmienok.

Tu sú všetky skutočné algoritmy implementované v systéme EIDOS verzie, ktorý bol realizovaný v čase prípravy práce (2002): http: //lc.kubagro .ru / AIDOS / AIDOS02 / 4.3 .HTM

Podstata algoritmov je nasledovná.

1. Množstvo informácií sa vypočíta v hodnotách prechodu objektu na stav zodpovedajúci triedam.

2. Vypočíta hodnotu faktorovej hodnoty pre diferenciáciu predmetu podľa tried. Táto hodnota je jednoducho variabilita hodnôt hodnôt faktorov (kvantitatívne opatrenia variability Veľa: priemerná odchýlka od priemeru, priemerná kvadratická odchýlka atď.). Inými slovami, ak je v hodnote faktora v priemere, existujú malé informácie o spoluúčasti a nepatrí k objektu do triedy, potom táto hodnota nie je veľmi hodnotná, a ak je oveľa cenný.

3. Vypočítava hodnotu opisných mier na diferenciáciu objektov podľa tried. V dielach E.V. Lutsenko sa teraz vykonáva ako priemer z hodnôt odstupňovania tejto stupnice.

4. Potom sa vykonáva optimalizácia hodnôt faktorov a popisných šupín:

Hodnoty faktorov (gradácie opisného škálovania) sú zaradené v poradí klesajúcej hodnoty a sú odstránené z modelu najmenej cenných, ktoré prechádzajú do pravej časti pareto-krivky 45 °;

Faktory (popisné váhy) sú zaradené do zostupného poradia hodnoty a sú odstránené z modelu najmenej cenných, ktoré prejdú na pravej strane 45 ° kriviek.

Výsledkom je, že rozmer priestoru postaveného na popisných šupinách sa výrazne zníži odstránením váh koreláciu medzi sebou, t.j. V podstate je orthonormaling priestor v informačnej metrike.

Tento proces sa môže opakovať, t.j. byť zároveň iteratívny nová verzia Systém "Eidos" sa manuálne spustí.

Podobne je vynechaný informačný priestor tried.

Mierka a odstupňovanie môžu byť numerické (potom sú spracované intervalové hodnoty) a môžu byť tiež text (ordinálne alebo dokonca nominálne).

S pomocou algoritmov BKOS (ANM ANALÝZA) je teda rozmer priestoru maximálne znížená s minimálnou stratou informácií.

Aby sa analyzovať štatistické údaje v aplikovanom štatistike, bolo vyvinuté niekoľko ďalších algoritmov redukcie dimenzií. Úlohy tohto článku neobsahuje opis celého množstva týchto algoritmov.

Literatúra

1. Orlov A.I. Body rastu štatistických metód // Polygraphová sieť Elektronický vedecký časopis Kubánskej štátnej agrárnej univerzity. 2014. Č. 103. P. 136-162.

2. Maľovanie J. Vzťah medzi multidimenzionálnym škálovaním a klastrovou analýzou // Klasifikácia a klastra. M.: Mir, 1980. C.20-41.

4. Harman G. Moderný faktor Analýza. M.: Štatistika, 1972. 489 p.

5. Orlov A.I. Poznámky k teórii klasifikácie. / Sociológia: Metodológia, metódy, matematické modely. 1991. Č. 2. C.28-50.

6. Orlov A.I. Základné výsledky matematickej teórie klasifikácie // Polymatický sieť Elektronický vedecký časopis Kubánskej štátnej agrárnej univerzity. 2015. № 110. S. 219-239.

7. Orlov A.I. Matematické metódy Klasifikačná teória // Polygraphová sieť Elektronický vedecký časopis Kubánskej štátnej agrárnej univerzity. 2014. Č. 95. P. 23 - 45.

8. TEERKHINA A.YU. Analýza týchto metód multidimenzionálneho škálovania. -M.: Veda, 1986. 168 p.

9. Perekrest V. T. Nelineárna typologická analýza sociálno-ekonomických informácií: matematické a výpočtové metódy. - L.: Veda, 1983. 176 p.

10. Tyurin Yu.n., Litvak B.G., Orlov A.I., Satorov G.A., Smering D.S. Analýza neplatných informácií. M.: Vedecká rada Akadémie vied ZSSR na komplexnom probléme "Kybernetika", 1981. - 80 s.

11. Orlov A.I. Všeobecný pohľad na štatistiku necitlivých objektov // Analýza informácií o informáciách o informáciách v sociologických štúdiách. - m.: Veda, 1985. S.58-92.

12. Orlov A.I. Limit distribúcia jedného odhadu počtu základných funkcií v regresii // aplikovanej multidimenzionálnej štatistickej analýzy. Vedci o štatistikách, T.33. - M.: Veda, 1978. P.380-381.

13. Orlov A.I. Posúdenie rozmeru modelu v regresii // algoritmic a softvér Aplikovanú štatistickú analýzu. Vedci štatistiky, T.36. - M.: Veda, 1980. P.92-99.

14. Orlov A.I. Asympotics niektorých odhadov rozmeru modelu v regresii // aplikovanej štatistiky. Vedci pre štatistiky, T.35. - m.: Veda, 1983. P.260-265.

15. Orlov A.I. O hodnotení regresnej polynómnej // výrobné laboratórium. Diagnostika materiálov. 1994. T.60. № 5. P.43-47.

16. Orlov A.I. Niektoré pravdepodobnostné otázky klasifikácie otázky // aplikované štatistiky. Vedci pre štatistiku, T.35. - m.: Veda, 1983. C.166-179.

17. Orlov A.I. O vývoji štatistík nevrušených objektov // Návrh experimentov a analýzy údajov: Nové trendy a výsledky. - m.: Antal, 1993. R.52-90.

18. Orlov A.I. Metódy redukcie rozmeru // Príloha 1 K knihe: Tolstova YU.N. Základy multidimenzionálneho škálu: Návod Pre univerzity. - M.: Vydavateľ CDU, 2006. - 160 p.

19. Orlov A.I. Asympototiká extrémnych štatistických problémov // Analýza nečídamerických údajov v systémových štúdiách. Kolekcia podvodníkov. Vol. 10. - M.: Všeobecný výskumný ústav systému SYSTÉMY, 1982. P. 412.

20. Orlov A.I. Organizačné a ekonomické modelovanie: TUTORIÁLNY: Za 3 hodiny. ČASŤ 1: NEZAHRNUTÉ ŠTATISTIKA. - M.: Vydavateľstvo MSTU. Reklama Bauman. - 2009. - 541 p.

21. Lutsenko E.V. Automatizovaná systém-kognitívna analýza v riadení aktívnych objektov (systémová teória informácií a jeho uplatňovanie v štúdii ekonomických, sociálno-psychologických, technologických a organizačných a technických systémov): Monografia (Vedecká publikácia). -Srasnodar: Kubgu. 2002. - 605 p. http://elibrary.ru/item.asp?id\u003d18632909.

1. Orlov A.I. TOCHKI ROSTA STATISTICHESKIH METODOV // POLITEMATICHESKIJ SEETVOJ JELEKTRONNONNYJ NAUCHYJ ZHURNAL KUBANSKOGO GOSUDARDSTVENTOGENOGO AGRAIRNOGO Univerzita. 2014. № 103. S. 136-162.

2. KRASKAL DZH. Vzaimusvjaz "Mezhdu mnogomernym shkalirovaniam i klaster-analizom // Klassifikacija I Klaster. M.: Mir, 1980. S.20-41.

3. KRUSKAL J.B., Želám M. Multidimenzionálne škálovanie // Sage University Paper Paper Series: Kvalitatívne aplikácie v spoločenských vedách. 1978. №11.

4. Harman G. Sovremennyj Faktornyj Analiz. M.: Statistika, 1972. 489 s.

5. Orlov A.I. Zametki po teorii klassifikacii. / Sociologija: metodologija, metody, matematicheskie modeli. 1991. Č. 2. S.28-50.

6. Orlov A.I. Bazovye Rezul "Taty MatemaTicheskoja Teorii Klassikacii // PolitemaTicheskij Seteóm Jelektronnyj Nauchnyj Zhurnal Kubanskogo GosudarstvensNogo Agriango Universiteta. 2015. № 110. S. 219-239.

7. Orlov A.I. MatemaTicheskie Metity Teorii Klassifikacii // PolitemaTicheskij seteóm Jelektronnyj nauchnyj Zhurnal Kubanskogo Gosudarstvenogo Agrannogo Univerzita. 2014. № 95. S. 23 - 45.

8. Terehina A.JU. Analiz Dannyh metodami mnogomergogo shkalirovanija. - m.: Nauka, 1986. 168 s.

9. Perekrest v.t. NELILJNYJ TIPOGHIKICHESKIJ ANALIZ SOCIÁLNY "NO-JEEKONOMICHESKOJ INFORMACII: MatemaTicheskie I vychislitel" NYE METODY. - L.: Nauka, 1983. 176 s.

10. Tjurin Ju.N., Litvak B.G., Orlov A.I., Satorov G.A., Shmerling D.S. Analiz NECHISLOVOJ INFORMACII. M.: Nauchnyj Sovet SSSR PO KOMPLEKNOJ Problém "Kibertetika", 1981. - 80 s.

11. Orlov A.I. Obshhij vzgljad na statistiku ob # ektov nhislovoj poirody // Analiz techislovojj informacii v sociologichicheskih Isseldovanijah. - M.: Nauka, 1985. S.58-92.

12. Orlov A.I. Prel "NOE RASPREDLENIE ODNKY OCRISLA BAZISNYH FUNKCIJ V REGRESSII // PRKLADNOJ MNOGOMERNYJ STATISTICHESKIJ ANOMIZY. Uchenye Zapiski Potatike, T.33. - M.: Nauka, 1978. S.380-381.

13. Orlov A.I. OCENKA RAZMERNOSTI MODELI V REGRESSII // ALGORITMICHESKOE I PROCRESSIONMONOE OBESEPESTRIE PRKLADNOGO STATISTICHESKOGO ANIZA. Uchenye Zapiski Po Statistake, T.36. - m.: Nauka, 1980. S.92-99.

14. Orlov A.I. Asiminotika Nekotoryh Ocenok Razmertnosť Modeli v Regressii // Prikladnaja Statistika. Uchenye zapiski po štatistike, t.45. - M.: Nauka, 1983. S.260-265.

15. Orlov A.I. OB OCENIVANII RegressionNogo Polinoma // Zavodskaja Laboratorija. Diagnostika material. 1994. T.60. № 5. S.43-47.

16. Orlov A.I. Nekotorye verojatnostnye voprosy teorii klassifikacii // prikroadnaja štatistika. Uchenye zapiski po štatistike, t.45. - M.: Nauka, 1983. S.166-179.

17. Orlov A.I. O vývoji štatistík nevrušených objektov // Návrh experimentov a analýzy údajov: Nové trendy a výsledky. - m.: Antal, 1993. R.52-90.

18. Orlov A.I. METODY SNIZHENIJA RAZMERNOSTI // PRILOZHENIE 1 K KNIGE: TOLSTOVA JU.N. Osnovy Mnogomergo Shkalirovanija: Uchebnoe Posobie DLJA VUZOV. - M.: Izdatel "STVO KDU, 2006. - 160 s.

19. Orlov A.I. Asiminotika Reshenij Jekstremal "NYH STATISTICHESKIH ZADACH // ANALIZNEHO NECHISLOVYH DANNYH V SISTEMNYH ISDLEDOVANOVANAIJAHARSKÝCH SNIDIK TRUDOV VYP.10 -... M.: VSESOJUZNYJ NAUCHNO-ISPEROVATATEL" Skij Institut Sistemnyh Isselcledovanij, 1982. S. 4-12.

20. Orlov A.I. ORIGAZACIONNO-JeEKONOMICHESKOY MODELIROVANIE: Uchebnik: V 3 CH. CHAST "1: NECHISLOVAJA STATISTIKA. - M.: IZD-VO MGTU IM. N.JE. BAUMANA. - 2009. - 541 s.

21. Lucenko E.V. Avtomatizirovannyj sistemno-kognitivnyj analiz v upravlenie aktívnym ob # Ekta (sistemnaja Teorija informácií aj ee primenenie v issledovanii jekonomicheskih, sociálna "no-psihologicheskih, tehnologicheskih i organizacionno-tehnicheskih sistem): Monografija (Nauchnoe izdanie) - Krasnodar:. KubGAU 2002. -. 605 s. Http://elibrary.ru/item.asp?id\u003d18632909

V dôsledku štúdie materiálu kapitoly 5 musí študent:

nechať

  • Základné koncepty a úlohy s nižším rozmerom:
  • Prístupy k riešeniu problému transformácie priestoru funkcie;

byť schopný

  • Použite spôsob hlavnej zložky pre prechod na štandardizované ortogonálne funkcie;
  • Vyhodnoťte zníženie dát informatívne, ak sa zníži rozmer rysového priestoru;
  • vyriešiť problém vybudovania optimálnych multidimenzionálnych váh na skúmanie objektov;

vlastný

  • Metódy na zníženie rozmeru na riešenie aplikovaných úloh štatistickej analýzy;
  • Zručnosti interpretácie premenných v transformovanej signalizácii.

Základné koncepty a úlohy dolnej dimenzie

Na prvý pohľad ako viac informácií Objekty štúdie vo forme súboru charakterizovania ich značiek sa použijú na vytvorenie modelu, tým lepšie. Nadmerné množstvo informácií však môže viesť k zníženiu účinnosti analýzy dát. Tam je dokonca termín "kliatba rozmeru" Kliatba dimenzity), charakterizujúce problémy s prácou s vysoko produktovými údajmi. So potreba znížiť rozmeru v jednej forme alebo inej forme, je riešenie spojené s rôznymi štatistickými problémami.

Neformatívne funkcie sú dodatočným zdrojom hluku a ovplyvňujú presnosť ocenenia parametrov modelu. Okrem toho, dátové súbory s veľkým počtom funkcií môžu obsahovať skupiny korelovaných premenných. Prítomnosť takýchto príznakov značiek znamená duplikáciu informácií, ktoré môžu skresliť špecifikáciu modelu a ovplyvniť kvalitu jej parametrov. Čím vyšší je rozmer údajov, tým vyšší je objem výpočtov počas ich algoritmického spracovania.

Dve smery je možné rozlišovať pri znižovaní rozmeru funkčného priestoru na princípe premenných používaných na tento účel: výber značiek z existujúceho zdroja a tvorba nových funkcií transformáciou počiatočných údajov. V ideálnom prípade musí mať skrátené znázornenie údajov rozmer zodpovedajúci rozmeru, vnútorne inherentným údajom. Vnútornej rozmernosti.

Hľadanie najinmatívnejších funkcií charakterizujúcich študovaný fenomén je zrejmým smerom znižovania rozmeru problému, ktorý nevyžaduje transformáciu zdrojových premenných. To vám umožní urobiť model kompaktnejší a vyhnúť sa stratám spojeným s interferujúcim účinkom nízkych informačných funkcií. Výber informatívnych funkcií je nájsť najlepšiu podskupinu mnohých zdrojových premenných. Kritériá koncepcie "najlepších" môžu slúžiť alebo najviac vysoká kvalita Simulácia s daným rozmerom funkčného priestoru, alebo najmenší rozmer dát, na ktoré je možné vytvoriť model špecifikovanej kvality.

Priame riešenie úlohy vytvárania najlepší model Súvisiace s bustami všetkých možných kombinácií značiek, ktoré sú zvyčajne nadmerne pracné. Preto sa spravidla opierajú o priamy alebo zvrátený výber značiek. V postupoch priamych výberu je vykonaná sekvenčné pridanie premenných z pôvodného súboru na dosiahnutie požadovanej kvality modelu. V algoritmoch konzistentného zníženia pôvodného vlastného priestoru (reverzný výber), existuje postupné odstránenie najmenej informatívnych premenných k prípustnému zníženiu obsahu modelu.

Treba mať na pamäti, že informatiovanosť označení je relatívna. Výber by mal zabezpečiť vysokú informatiovaciu sadu funkcií, a nie celkový informatívny o zložkách svojich premenných. Preto prítomnosť korelácie medzi značkami znižuje ich celkovú informatiovanosť v dôsledku duplikácie informácií, ktoré sú pre nich spoločné. Preto pridanie novej funkcie na už vybrané zabezpečuje zvýšenie informatizity v rozsahu, v akom obsahuje užitočná informáciaAbrreable v predtým vybraných premenných. Najjednoduchšia je situácia pri výbere vzájomne ortogonálnych značiek, v ktorých je výberový algoritmus veľmi jednoduchý: premenné sú zaradené na informatiovatelnosti a zloženie prvých príznakov v tomto poradí sa používa, čo zabezpečuje špecifikovanú informatiovanosť.

Obmedzený spôsob výberových metód s cieľom znížiť rozmer priestoru je spojená s predpokladom okamžitej prítomnosti potrebných značiek v zdrojových údajoch, čo je zvyčajne nesprávne. Alternatívny prístup k zníženiu dimenzie stanovuje konverziu funkcií do zníženej množiny nových premenných. Na rozdiel od výberu pôvodných značiek, tvorba nového priestoru funkcie zahŕňa vytvorenie nových premenných, ktoré sú zvyčajne funkcie zdrojových značiek. Tieto premenné priamo pozorované sú často nazývané skryté, alebo latentné. V procese vytvárania môžu byť tieto premenné obdariť rôznymi užitočnými vlastnosťami, ako je ortogonalita. V praxi sú počiatočné príznaky zvyčajne vzájomne prepojené, preto transformácia ich priestoru na ortogonálne vytvára nové súradnice, v ktorých neexistuje žiadny účinok duplikovania informácií o študovaných predmetoch.

Zobrazenie objektov v nových ortogonálnych funkčných priestoroch vytvára schopnosť vizuálne prezentovať užitočnosť každého z značiek z hľadiska rozdielov medzi týmito objektmi. Ak sú súradnice nového základu usporiadané disperziou charakterizujúcim rozsah hodnôt na nich pre pozorovania, stáva sa zrejmým nemožnosti z praktického hľadiska niektorých funkcií s malými premennými, pretože objekty na týchto vlastnostiach sú prakticky nerozoznateľné v porovnaní s ich rozdielmi na viac informačných premenných. V takejto situácii môžeme hovoriť o tzv. Degenerácii počiatočného funkčného priestoru k. Premenné a skutočný rozmer tohto priestoru t. môže byť menší (m< k.).

Zníženie miesta vlastnosti je sprevádzané určitým poklesom informácií o údajoch, ale úroveň prípustného zníženia možno určiť vopred. Výber funkcií premieta sadu zdrojových premenných do menšieho rozmerového priestoru. Kompresia funkčného priestoru do dvoch trojrozmerných môže byť užitočná pre vizualizáciu dát. Proces tvarovania nového funkčného priestoru teda zvyčajne vedie k menšej množine skutočne informatívnych premenných. Na ich základni môže byť lepší model postavený ako na základe menšieho počtu najinmatívnejších funkcií.

Tvorba nových premenných na základe zdroja sa používa na latentnú sémantickú analýzu, kompresiu údajov, klasifikáciu a rozpoznávanie obrázkov, zvýšiť rýchlosť a efektívnosť vzdelávacích procesov. Komprimované dáta sa zvyčajne aplikujú na ďalšiu analýzu a modelovanie.

Jedným z dôležitých aplikácií pre transformáciu funkčného priestoru a znižuje rozmer je vybudovať syntetické latentné kategórie na základe meraných príznakov značiek. Tieto latentné značky môžu charakterizovať všeobecné špecifické vlastnosti fenoménu, ktoré integrujú súkromné \u200b\u200bvlastnosti pozorovaných objektov, čo nám umožňuje budovať integrované ukazovatele rôznych úrovní zovšeobecnenia informácií.

Úloha metód na zníženie funkčného priestoru v štúdii problému duplikácie informácií v počiatočných príznakoch, čo vedie k "opuchu" disperzie odhadov koeficientov regresných modelov, je nevyhnutná. Prechod na nový, ideálny prípad ortogonálne a zmysluplné interpretácie, premenné je Účinný nástroj Modelovanie za podmienok multicollinearity zdrojových údajov.

Transformácia počiatočného priestoru funkcie do ortogonálneho je vhodná na riešenie úloh klasifikácie, pretože umožňuje primerane uplatňovať určité opatrenia v blízkosti alebo rozdiely v objektoch, ako je napríklad euklidovská vzdialenosť alebo štvorec euklidovskej vzdialenosti. V regresnej analýze umožňuje konštrukcia regresnej rovnice na hlavných zložkách vyriešiť problém viackoplošnosti.



Páči sa vám článok? Zdieľaj to