Névjegyzék

Dimenzió csökkentése · Loginom Wiki. Bevezetés a dimenzió csökkenéséhez Milyen módszer segít csökkenteni az adatok dimenziójának csökkentését

13. fejezet A fő összetevő módszere

13.1. A csökkentett dimenzió problémájának lényege és a megoldás különböző módszerei

A kutatásban és a gyakorlati statisztikai munkában olyan helyzetekkel kell foglalkozni, ahol az alanyok (országok, városok, vállalkozások, a családok, a betegek, a technikai vagy környezetvédelmi rendszerek) minden egyes témáján rögzített jelek teljes száma nagyon nagy - körülbelül száz. Mindazonáltal a meglévő többdimenziós megfigyelések

a statisztikai feldolgozásnak kell alávetni, megérteni vagy belépni az adatbázisba annak érdekében, hogy a megfelelő időben használhassa őket.

A statisztikák vágya a megfigyelések mindegyikét (13.1) ábrázolja, egyes segédjelzők z-egyesek formájában, amelyek lényegesen kisebb (mint) az illeszkedési komponensek számát tartalmazzák, elsősorban a következő okok miatt következik be:

a forrásadatok (13.1) vizuális ábrázolásának (vizualizációjának) szükségessége, amelyet a sík vagy a numerikus közvetlen háromdimenziós téren (IV. Típusú célkitűzések) kivetítésével érik el;

a vizsgált modellek iránti laconizmus vágya a kapott statisztikai következtetések számla és értelmezésének egyszerűsítése miatt;

a tárolt statisztikai információk mennyiségeinek jelentős tömörítése (az informativitásban látható veszteségek nélkül), ha a típusú tömbök (13.1) felvétele és tárolása egy speciális adatbázisban van.

Ugyanakkor új (segéd) funkciókat lehet kiválasztani a kezdeti vagy a forrásjelek halmazának bármely szabályától, például lineáris kombinációkat. A kialakításkor új rendszer Az utóbbi jelei, megakadályozzam különféle követelményeket, például a legnagyobb informativitást (bizonyos értelemben), a kölcsönös nem korrózió, a legkisebb torzulása a forrásadatok, stb. E követelmények formális specifikációja (lásd alább, valamint IV. Szakaszt) egy adott dimenziócsökkentési algoritmushoz jutunk. Legalább három alapvető alapvető előfeltétel van, amelyek meghatározzák az elemzett rendszer állapotának (viselkedésének, működési hatékonyságának) nagyszámú forrásmutatójából való áttérés lehetőségét a leginkább informatív változóknak. Először is, az információ ismételten összefüggő jelek; Másodszor, a jelek nem tájékoztatása, kevés változás az átmenet egyik tárgyából a másikba (a jelek kicsi "változékonysága"); Harmadszor, az aggregáció lehetősége, azaz egy egyszerű vagy "súlyozott" összegzés, néhány jel szerint.

Formálisan az átmenet feladata (az informatív legkisebb veszteséggel) az új funkciókészlethez a következőképpen írható le. Tegyük fel, hogy - a kezdeti változók P-dimenziós vektoros funkciója, és lehetővé teszi, hogy - bizonyos módon az informativiteszer-dimenziós rendszerek meghatározott mércéje, a funkcionális specifikus választás a megoldott valós feladat sajátosságaitól függ, és az egyikre támaszkodik Lehetséges kritériumok: Az autoformativitás kritériuma, amelynek célja a forrásnyújtáshoz képest a forrás-tömbben található maximális megmentési információk; és a külső informativitás kritériuma, amelynek célja a négy (külső) mutatóhoz tartozó információk maximális "összenyomása".

A feladat az, hogy meghatározzák a Z-es jeleket, amelyek a kezdeti mutatók megengedett transzformációi F osztályában találhatók

A készítmény egy vagy egy másik kiviteli alakja (meghatározó) konkrét választás Informatikai intézkedések) és az megengedett transzformációk osztályát) egy adott dimenziócsökkentési módszerhez vezet: a fő komponens módszerhez, faktorelemzés, paraméterek extrém csoportosítása stb.

Magyarázd el a példákon.

13.1.1. A fő komponens módszere (lásd 13.2 § 13.6).

Az első fő komponensek, amelyeket a kutató el fog jönni, ha az F megengedett transzformációk osztályának meghatározza a kezdeti mutatók lineáris ortogonális normalizált kombinációját, azaz.

(itt) - matematikai elvárások A Mint informativitás-dimenziós rendszermutatók

(Itt D, mint korábban, a megfelelő véletlen változó diszperziós számítási működésének jele).

13.1.2. Faktorelemzés (lásd: Ch. 14).

Amint ismeretes (lásd: 14.1. §), a faktorelemzés modellje megmagyarázza a kezdeti mutatók közötti kapcsolatok szerkezetét, mert mindegyikük statisztikailag az úgynevezett közös tényezők azonos halmazától függ.

hol - a forrásjelzőn általános tényező "betöltése" a maradék "specifikus" véletlenszerű komponens, és - párokban korrelált.

Kiderül, hogy ha F, mindenféle lineáris kombináció osztályának, figyelembe véve a fent említett korlátokat, az optimalizálási probléma értékének kiválasztása (13.2), mint az informativitás mértéke (13.2), egybeesik a közös tényezők a faktorelemző modellben. Itt - a kezdeti mutatók korrelációs mátrixa a mutatók korrelációs mátrixja - az A mátrix euklideszi normája.

13.1.3. Extrém csoportosítási módszer (lásd a 14.2.1 fejezetet).

Ebben a módszerben a kezdeti mutatók sorának ilyen partíciójára beszélünk egy adott számú csoporthoz, amelyet az ugyanazon csoporthoz tartozó jelek viszonylag erősen erősek, míg a különböző csoportokhoz tartozó jelek gyengén korrelálnának. Ugyanakkor az erősen interkreált kezdeti mutatók egyes csoportjainak cseréjének feladata egy "menedékjog" mutató megoldása, amely természetesen szoros összefüggésben kell lennie csoportjának jeleihez. A kezdeti mutatók f megengedett transzformációinak osztályának minősül, az összes normalizált lineáris kombináció megoldást keres (S és) funkcionalitás maximalizálva

hol van a változók közötti korrelációs együttható.

13.1.4. Többdimenziós méretezés (lásd 16. CH.).

Számos helyzetben, elsősorban olyan helyzetekben, ahol a kezdeti statisztikákat speciális felmérésekkel, kérdőívekkel, szakértői becslésekkel kapják meg, vannak olyan esetek, amikor az elsődleges megfigyelés eleme nem a vektor által leírt tárgy állapota és a jellemző két objektum (vagy jelek) páros közelsége (távolsága), illetve a számokkal

Ebben az esetben a kutatónak van egy méretű mátrix, mint a forrásstatisztikai adatok tömbje (ha figyelembe vesszük a tárgyak tárgyainak jellemzőit), vagy (ha a fajok jelei párjainak jellemzőit figyelembe veszik

ha az értékeket az objektumok (jellemzők) közötti távolságokként értelmezik, és akár a távolságok streamlinálásának sorai. A multidimenzionális méretezés feladata az "Merítve" tárgyakat (jeleket) az ilyen dimenziós térben, vagyis a koordináta tengely kiválasztása úgy, hogy az elemzett pontok (vagy a pont-funkciók) halmaza eredeti geometriai konfigurációja (13.1) vagy (13,5) esetében a legkevésbé torzulna a kölcsönös távolságok átlagos "torzításának mértéke" bizonyos kritériumában.

A többdimenziós méretezés megfelelő általános rendszerét a kritérium határozza meg.

hol van az objektumok közötti távolság a forrásterületen, ugyanazon tárgyak közötti távolság a kisebb méretű, szabad paraméterek, a specifikus értékek kiválasztása a kutató belátása szerint.

Határozza meg a z, például a z, például az eredeti pontok geometriai struktúrájának torzulásának mértékének értékét, például az általános formulát ( 13.2), Hisz

13.1.5. A leginkább informatív mutatók kiválasztása a diszkriminanciaelemzés modelljeiben (lásd 1.4. §, 2.5).

A fenti funkciók a megfelelő jelek automatikus tájékoztató méterei. Most példát adunk a külső informatív kritériumokra. Különösen érdeklődünk az indikátorok rendszerének informativivitásának szempontjából, a tárgyak besorolásának helyességének szempontjából a diszkriminanciaanalízis rendszerben. Ugyanakkor a megengedett transzformációkat meghatározzuk a követelmények követelményeit, amelyek csak a kezdeti mutatók készletének képviselőit tekinthetjük figyelembe, vagyis.

Egy közös forrás tézis az eredeti készletből származó leginkább informatív mutatók azonosításának problémájának megoldásában az a kijelentés, hogy az adott dimenzió mutatóinak vektora az informatívabb, mint a különböző osztályokban meghatározott probabilisztikus eloszlás törvényeinek különbsége A vizsgált osztályozási feladat. Ha a számokkal rendelkező jellemzők jellemzőinek jellemzőinek megoszlását író törvények párhuzamos különbségének módját írja be, akkor a leginkább informatív mutatók kiválasztásának elveit formalizálhatja. A maximalizálás meghatározása állapot (szoftver) a nagyságrendben

A leggyakoribb intézkedések a valószínűségi eloszlás törvényei közötti különbség a távolság információs típus (Távolság Doljalkak, Távolság Mahalanobis), valamint a "variációs távolság" (lásd még részletesebb részletet.

13.1.6. A leginkább tájékoztató változók kiválasztása a regressziós modellekben (lásd).

A regressziós típusú függések megépítésénél a központi egy viszonylag kis számú változók azonosítása (a keletkező eredmény eredő eredményének legjelentősebb jelei közül.

Így az előző bekezdésben az F osztály mindenféle változócsoportból áll, amelyet az eredeti argumentum tényezők közül választott, és foglalkozik az ilyen készletek külső informativitásának kritériumával. Véleménye általában többszörös meghatározási együtthatóval van beállítva - az y mutató csatlakoztatásának feszültségének jellemzői változókészülékkel. Ugyanakkor rögzített dimenzió esetén a változókészlet nyilvánvalóan a A legtöbb informatív (az indikátor mutatójának magatartásának leírásának pontossága), ha az informativitás értéke van, a készlet eléri a maximális értéket.

  • A statisztikákban a gépi tanulás és az információelmélet, a dimenzió csökkentése az adatok átalakítása, amely a változók számának csökkentése a fő változók fogadásával. A konverzió a funkciók kiválasztására és a funkciók kiválasztására osztható.

Kapcsolódó fogalmak

Az irodalomban említettek

- betöltése és előfeldolgozása bemeneti adatok - kézi és automatikus elrendezés az inger (az érdeklődési zónák kiválasztása), - algoritmus az utódkijelző mátrix kiszámításához, - kiterjesztett adattáblázat kiszámításához a későbbi elemzéshez szükséges bemeneti változók értékével - módszer csökkentett dimenzió Űr terek (a fő komponens módszere), - az összetevők terhelésének vizualizálása az értelmezhető komponens kiválasztásához - az algoritmus a megoldások megtanulására szolgáló algoritmus, egy algoritmus a fa prediktív képességének felmérésére, - a megoldások megjelenítésére.

Kapcsolódó fogalmak (folytatás)

A spektrális klaszterezési technikák az adatok hasonlósági mátrix spektrumát (sajátértékek) használnak, hogy csökkentsék a dimenziót a kisebb terekben történő klaszterezés előtt. A hasonlósági mátrixot bejegyzésként szállítják, és mennyiségi becslésekből állnak az adatok egyes pontok viszonylagos hasonlóságaiból.

A spektrális módszerek az alkalmazott matematikában használt technikus osztály, néhány differenciálegyenlet numerikus megoldásához, a gyors Fourier transzformáció bevonása lehetséges. Az ötlet a különböző "alapfunkciók" (például a Fourier sorozat összege), majd a sinusoid összege (például a Fourier sorozat összege), majd válassza ki az összeget, hogy megfeleljen a differenciálegyenletnek a lehető legnagyobb mértékben.

Matematikai analízis (klasszikus matematikai analízis) a történelmi szakasznak megfelelő matematika szakasza, amely a "végtelenül kicsi" név elemzése alatt, egyesíti a differenciálművet és az integrált kalkulust.

Különböző evolúció (ENG. Különböző evolúció) - A sztochasztikus optimalizálási algoritmusok osztályához kapcsolódó többdimenziós matematikai optimalizálás (vagyis véletlenszerű számokkal működik) és a genetikai algoritmusok néhány elképzeléseit használva, de ellentétben azokkal, nem igényel munkát Változók bináris kódban.

A diszkrét elem (DEM, az angol nyelvtől. Diszkrét elem módszer) a nagyszámú részecskék, például molekulák, kavics, kavics, kavicsok és más granulált médiumok nagyszámú mozgásainak kiszámítására szánt numerikus módszerek családja. A módszert eredetileg Cundall 1971-ben alkalmazták a kőzetmechanika problémáinak megoldására.

A tanulmány célja:

Az adatméteres csökkentési módszertan hatékonyságának értékelése az elismerési gyakorlat (azonosítás) alkalmazásának optimalizálása érdekében.

Kutatási feladatok:

1. Az irodalmi források áttekintése meglévő módszerek Csökkentse az adatméretet.

2. Kutatás (kísérletek) elvégzése az adatcsökkentési algoritmusok hatékonyságának összehasonlításához az osztályozási feladatokban

Kutatási módszerek (szoftver):

C ++ programozási nyelv, opencv könyvtár

A magas dimenziós adatok észlelése egy személy számára nehéz, és néha lehetetlen. Ebben a tekintetben meglehetősen természetes volt a vágy, hogy egy multidimenziós mintából egy kis dimenzió adatairól mozogjon, hogy "megvizsgálhassa őket", értékelje és használja, beleértve az elismerési feladatok elérését is. A láthatóság mellett a dimenzió csökkentése lehetővé teszi, hogy megszabaduljon a statisztikai elemzéssel zavaró tényezőktől (információ), amely kiterjeszti az információk gyűjtésére vonatkozó időt, növelve a paraméterek becsléseinek és a disztribúciók jellemzőinek diszperziójának növelését.

A dimenzió csökkentése a forrásadatok átalakítása nagy dimenzióval egy olyan kisebb dimenzió új ábrázolásában, amely fenntartja az alapvető információkat. A tökéletes esetben az átalakított ábrázolás dimenziója megfelel az adatok belső dimenziójának. A belső adatméret az összes lehetséges adat tulajdonság kifejezéséhez szükséges változók minimális száma. A csökkentett többadat alapján épített analitikai modellnek könnyebben kell lennie a feldolgozáshoz, a megvalósításhoz és a megértéshez, mint a forráskészletre épülő modell.

A dimenzió csökkentési módjának megválasztására vonatkozó döntés a megoldandó feladat jellemzőinek ismeretén alapul, valamint a várt eredményeket, valamint a korlátozott időt és a számítástechnikai erőforrások. Az irodalmi vélemények szerint a leggyakrabban használt méretcsökkentési módszerek közé tartoznak a fő összetevő analisys (PCA), független összetevő analisys (ICA) és szinguláris értékbomlás (SVD).

A fő komponens (PCA) elemzése - Az adatok dimenziójának csökkentésének legegyszerűbb módja. Széles körben használják a jelek átalakítását, miközben csökkenti az adatok dimenzióját az osztályozási feladatokban. A módszer az adatok egy kisebb dimenzió új koordináta-rendszerére történő vetítésére alapul, amelyet saját vektorai és a mátrix saját számai határoznak meg. A matematika szempontjából a fő összetevő módszer egy ortogonális lineáris transzformáció.

A módszer fő elképzelése a kovariancia mátrixának az adatok kovariancia-mátrixának kiszámítása a diszperzió minimalizálása érdekében. A kovariancia mátrixot az egymáshoz viszonyított átlaghoz viszonyított szóródás meghatározására használják. Két véletlen változó (dimenziók) kovariance - lineáris függőségük mérése:

hol - az X véletlenszerű értékének matematikai elvárása, - az y véletlenszerű változó matematikai elvárása. A formában is le tudjuk írni az (1) képletet:

hol - az átlagos X, ahol - az átlagos Y, N az adatok dimenzionalitása.

A saját vektorok és saját számuk kiszámítása után értékeik csökkenő sorrendben vannak rendezve. Így a komponenseket a jelentőség csökkentése érdekében kapjuk meg. Saját vektor a legnagyobb természetes számmal, és az adatkészlet fő összetevője. A fő komponenseket úgy kapják meg, hogy a sorok sorsát a saját vektoroktól a rendezett sajátértékekről kapják meg. A kisebb méretű, a (3) képletű optimális tér megtalálása, amely kiszámítja a minimális hibát a forráskészlet adatkészlete és a következő kritérium között:

ahol p az új tér dimenziója, n az eredeti minta dimenziója, - sajátértékek, - küszöbérték. A művelet során az algoritmus, kapunk egy mátrix MP adatok, lineárisan átalakított Mn, amely után a PCA talál egy lineáris leképezés M, egy minimalizálva becslés funkció:

ahol - euklideszi távolság a pontok és a - euklideszi távolság a pontok között, . A minimális ennek becsült funkciót ki lehet számítani, hogy elvégezzük a spektrális bomlása Gram mátrix és megszorozzuk saját vektor ennek a mátrixnak a gyökér a megfelelő sajátértékek.

Független alkatrészek elemzése ( Ica ) , A PCA-tól eltérően egy új, de gyorsan növeli a népszerűségi módszert. A lineáris adatátalakítás új összetevőire alapul, amelyek leginkább statisztikailag függetlenek és adott esetben ortogonálisak. A tanulmányban szereplő kutatások esetében a FASCASTA algoritmust a cikkben részletesen leírták. A fő feladatok ez a módszer Ezek középen vannak (kivonják az adatok átlagát) és a "fehérítés" (a vektor x vektor lineáris átalakítása a körülválasztott koordinátákkal, amelynek diszperziója egyenlő).

Függetlenségi kritérium a FASCASZIA NEM GEASURA, amelyet az együttható többletével mérünk:

A Gaussian Véletlen változók esetében ez az érték nulla, így a FASCASA maximalizálja annak értékét. Ha - "fehérített" adatok, akkor a "fehérített" adatok kovarianciájának mátrixa egyetlen mátrix.

Az ilyen transzformáció mindig lehetséges. A "fehérítés" népszerű módszere a kovariancia mátrix spektrális bomlását használja , hol - a saját vektorok ortogonális mátrixja, A, a saját számok átlós mátrixja. Kiderül, hogy a "fehérítés" ábrázolható:

ahol a mátrixot a pomoponent működés alapján számítják ki:

Kísérletek

A javasolt módszerek kísérleti tanulmányozásához használt egy szótár-alapú videó szekvenciát a CASIA GAIT adatbázisból. Az alap tartalmazza a bináris képek szekvenciáit, amelyek megfelelnek a videószekvencia egyedi kereteinek, amelyeken a mozgó objektumok elosztása már megtörtént.

Az összes sok videó közül 15 osztályt véletlenszerűen vettük, amelyben a felvételi szög 90 fokos, az emberek szokásos, nem téli ruhákban és táskák nélkül ábrázolják. Minden osztályban 6 szekvencia volt. Az egyes szekvenciák hossza legalább 60 képkocka volt. Az osztályok 3 szekvenciájú tanulásra és tesztmintákra osztottak.

A PCA és az ICA módszerek eredményeként kapott funkciókat az osztályozó tanulmányozására használtuk, amely a jelen munkában a támogató vektorok (támogató vektorgépek, SVM) voltak.

A módszer módjának meghatározásához a besorolás pontosságát becsülték, a megfelelő minősített objektumok aránya. A kísérlet során a képzés és a tesztelés módjában eltöltött időt is rögzítették.

1. ábra (a) módszer fő összetevője (PCA) b) Független összetevő módszer (ICA)

Az 1. ábra (A, B) bemutatja az osztályozási pontosság viszonyát az adat kimeneti dimenziójának értékétől az átalakítás után. Látható, hogy a PCA-ban a komponensek számának növekedésével a besorolás pontossága kissé változik, és az ICA használatakor egy bizonyos értéktől kezdve a pontosság csökken.

2. ábra: Az osztályozási idő függése az alkatrészek számán de) PCA. b) Ica

A 2. ábra (A, B) bemutatja a besorolási idő függőségét a PCA komponensek és az ICA számán. A dimenzió növekedését mindkét esetben a feldolgozási idő lineáris növekedése kísérte. A grafikonok azt mutatják, hogy az SVM osztályozó gyorsabban működött, miután leengedte a dimenziót a fő komponens módszerrel (PCA) segítségével.

A fő összetevő analisysysysys (PCA), független összetevő analisys (ICA) elég gyorsan és meghatározott paraméterek Nagy eredményeket kaptunk az osztályozási feladatban. De a komplex szerkezetű adatokkal ezek a módszerek nem mindig teszik lehetővé a kívánt eredmény elérését. Ezért B. utóbbi időben A helyi nemlineáris módszereket egyre inkább fizetik az adatok előrejelzésére egyes változatokon, amely lehetővé teszi az adatszerkezet megőrzését.

A jövőben tervezik bővíteni mind az algoritmusok listáját, amelyek a funkciók leírását és az alkalmazott osztályozási módszerek listáját alkotják. A kutatás másik fontos területe úgy tűnik, hogy csökkenti a feldolgozási időt.

Bibliográfia:

  1. Jolliffe, I.T, Főösszetétel elemzés, Springer, 2002
  2. Hyvärinen és Erkki OJA, független összetevőelemzés: algoritmusok és alkalmazások, neurális hálózatok, 2000. év
  3. Josiński, H. Jellemzője A GAIT Video szekvenciák Humánazonosító / Springer, 2013 - Vol 481 célja.

Kulcsszavak

Matematika / Alkalmazott statisztikák / Matematikai statisztikák / Növekedési pontok / A fő komponens módja / FAKTORANALÍZIS / Többdimenziós skála / Az adatméret értékelése / A modell dimenziójának becslése / Matematika / Alkalmazott statisztika / Matematika Statisztika / növekedési pontokat / Principal Component Analysis / Factor Analysis / többdimenziós skálázás / becslése adatok Méretek / becslése Model dimenzió

megjegyzés tudományos cikk a matematika, a tudományos munka szerzője - Orlov Alexander Ivanovich, Lutsenko Evgeny Veniaminovich

Az egyik "növekedési pont" alkalmazott statisztikák a statisztikai adatok térének csökkentésére szolgáló módszerek. Ezeket egyre inkább használják az adatok elemzésére specifikus alkalmazott vizsgálatokban, például szociológiai. Tekintsük a csökkentett dimenzió legígéretesebb módszereit. A fő komponens módja Ez az egyik leggyakrabban használt dimenziós módszer. Az adatok vizuális elemzéséhez gyakran használják az első két fő komponens síkjában lévő kezdeti vektorok előrejelzéseit. Általában az adatszerkezet jól látható, kompakt objektum-klaszterek és külön felszabaduló vektor megkülönböztethető. A fő komponens módja az egyik módszer faktoranalízis. Új ötlethez képest a fő összetevők módja Ez a terhelés alapján a tényezők csoportokra oszthatók. Egy csoportban a tényezők kombinálódnak, hasonló hatással vannak az új bázis elemeire. Ezután minden csoportból ajánlott egy képviselőt elhagyni. Néha, ahelyett, hogy egy képviselőt választana, egy új tényező alakul ki, amely központi szerepet játszik a vizsgált csoport számára. A dimenzió csökkenése a csoportok képviselőire való áttérés során történik. A fennmaradó tényezőket eldobják. A távolságok (közelségi intézkedések, különbségek mutatói) használata a jelek és a kiterjedt módszerek között alapul többdimenziós méretezés. Ennek a módszereknek a fő ötlete, hogy a geometriai tér (általában az 1., 2. vagy 3. méret) minden objektumát ábrázolja, amelyek koordinátái a rejtett (latent) tényezők értéke, amelyek Elég megfelelően leírja az objektumot. Példaként a nem statinisták valószínűségi statisztikai modellezésének és eredményeinek alkalmazásának példájaként igazoljuk az adatterület dimenziójának mérésének következetességét többdimenziós méretezéskorábban a kolromális által a heurisztikus megfontolásokból javasolta. Számos műveletet tartott a modellek méretének értékelése (regressziós analízisben és az osztályozás elméletében). Dana információ a dimenzió algoritmusairól egy automatizált rendszer-kognitív analízisben

Hasonló témák tudományos munka a matematikáról, a tudományos munka szerzője - Orlov Alexander Ivanovich, Lutsenko Evgeny Veniaminovich

  • Matematikai módszerek szociológiában negyvenöt évig

  • A nem természetű tárgyak változatossága

  • Paraméterek értékelése: Az egylépéses becslések előnyösek a maximális hitelességi becslésekhez

  • Alkalmazott statisztikák - statisztikák és perspektívák

    2016 / Orlov Alexander Ivanovich
  • Az alkalmazott és elméleti statisztikák kidolgozásának állama és kilátásai

    2016 / Orlov Alexander Ivanovich
  • A határértékek és a Monte Carlo módszer kapcsolatát

    2015 / Orlov Alexander Ivanovich
  • A nem természetű tárgyak statisztikáira

    2013 / Orlov Alexander Ivanovich
  • A statisztikai módszerek növekedési pontjai

    2014 / Orlov Alexander Ivanovich
  • Az új ígéretes matematikai eszközökről

    2015 / Orlov Alexander Ivanovich
  • Távolságok statisztikai terek

    2014 / Orlov Alexander Ivanovich

Az alkalmazott statisztikák egyik "növekedési pontja" a statisztikai adatok dimenziójának csökkentésének módszerei. Ezeket egyre inkább az adatok elemzésére használják az adott alkalmazott kutatásban, például a szociológiában. Megvizsgáljuk a legígéretesebb módszereket a dimenzionalitás csökkentésére. A fő komponensek az egyik leggyakrabban használt módszer a dimenzionalitás csökkentésére. Az adatok vizuális elemzéséhez gyakran használják az eredeti vektorok előrejelzéseit az első két fő alkotóelem síkján. A szokásos módon az adatszerkezet jól látható, kiemelt kompakt klaszterek az objektumok és a szétválasztott vektorok. A fő komponensek a faktorelemzés egyik módja. A faktorelemzés új ötlete a főkomponensek módszerével összehasonlítva, hogy a terhelések alapján a tényezők csoportokba ütköznek. A tényezők egy csoportjában az új tényező hasonló hatással van az új alapelem elemeire. Ezután minden csoport ajánlott egy képviselőt elhagyni. Néha a számítással való képviselő helyett egy új tényező, amely központi szerepet játszik a kérdéses csoportban. A csökkentett dimenzió a rendszerfaktorokra való áttérés során történik, amelyek csoportok képviselői. Az éter tényezők eldobják. A távolsági (közelségi intézkedések, a különbségek mutatói) a funkciók és a kiterjedt osztály között a multidimenziós méretezés alapja. Ennek a módszereknek az alapgondolata az, hogy minden objektumot a geometriai tér pontjaként (általában az 1., 2. vagy 3. dimenzió) mutatják be, amelynek koordinátái a rejtett (latent) tényezők értékei, amelyek megfelelően kombinálják a megfelelő módon Ismertesse az objektumot. Példaként az alkalmazás a valószínűségi és statisztikai modellezés és az eredmények statisztikai nem numerikus adatokat, mi indokolja az összhangot becslések dimenziója az adatok többdimenziós skálázás, amelyek által korábban javasolt Kruskal származó heurisztikus megfontolások. Számos olyan következetes becslést tekintünk a modellek dimenziójára (regressziós analízisben és az osztályozás elméletében). Valamennyi formátumot adunk az algoritmusokról az automatizált rendszer-kognitív elemzés méretének csökkentésére

A tudományos munka szövege a témakörben a statisztikai adatok térének csökkentésére szolgáló módszerek "

UDC 519.2: 005.521: 633.1: 004.8

01.00.00 Fizika és matematika

A statisztikai adatterület dimenziójának csökkentésére szolgáló módszerek

Orlov Alexander Ivanovich

d.e.n., d.t.n., k.f.-m.n., professzor

Rinz Brosh kód: 4342-4994

Moszkvai Állami Műszaki

egyetemi. HIRDETÉS Bauman, Oroszország, 105005,

Moszkva, 2. Baumanskaya St., 5, [E-mail védett]t.

Lutsenko Evgeny Veniaminovich D.E.N., Ph.D., Ph.D., Rinz professzor Brosh Kód: 9523-7101 Kuban Állami Agrár Egyetem, Krasnodar, Oroszország [E-mail védett] Com.

Az alkalmazási statisztikák egyik "növekedési pontja" az a módszerek, amelyek csökkenthetik a statisztikai adatterület dimenzióját. Ezeket egyre inkább használják az adatok elemzésére specifikus alkalmazott vizsgálatokban, például szociológiai. Tekintsük a csökkentett dimenzió legígéretesebb módszereit. A fő komponens módszer az egyik leggyakrabban használt dimenziócsökkentési módszer. Az adatok vizuális elemzéséhez gyakran használják az első két fő komponens síkjában lévő kezdeti vektorok előrejelzéseit. Általában az adatszerkezet jól látható, kompakt objektum-klaszterek és külön felszabaduló vektor megkülönböztethető. A fő komponens módszer a faktorelemzés egyik módszere. Az új ötlet a fő összetevő módszerével összehasonlítva az, hogy a terhelések alapján a tényezők csoportokra oszthatók. Egy csoportban a tényezők kombinálódnak, hasonló hatással vannak az új bázis elemeire. Ezután minden csoportból ajánlott egy képviselőt elhagyni. Néha, ahelyett, hogy egy képviselőt választana, egy új tényező alakul ki, amely központi szerepet játszik a vizsgált csoport számára. A dimenzió csökkenése a csoportok képviselőire való áttérés során történik. A fennmaradó tényezőket eldobják. Használatáról szóló távolságok (proximity intézkedéseket különbségeket mutató) a jelek és a kiterjedt osztályát többdimenziós skálázás módszerekkel épül. Ennek a módszereknek a fő ötlete, hogy mindegyik objektumot geometriai térponttal (általában 1, 2 vagy 3 méretű) ábrázolja, amelynek koordinátái a rejtett (latens) tényezők értékei, az aggregátumban , kellően megfelelően leírva

UDC 519.2: 005.521: 633.1: 004.8

Fizika és matematikai tudományok

A statisztikai adatok térdimenziójának csökkentésének módszerei

Orlov Alexander Ivanovich

Dr.Sci.Chon., Dr.Sci.tech., Cand.phys-math.sci.,

Bauman Moszkva Állami Műszaki Egyetem, Moszkva, Oroszország

Lutsenko Eugeny Veniaminovich Dr.Sci.con., Cand.tech.sci., RSCI professzor Spin-Code: 9523-7101

Kuban Állami Agrár Egyetem, Krasnodar, Oroszország

prof.lutse [E-mail védett] Com.

Az alkalmazott statisztikák egyik "növekedési pontja" a statisztikai adatok dimenziójának csökkentésének módszerei. Ezeket egyre inkább az adatok elemzésére használják az adott alkalmazott kutatásban, például a szociológiában. Megvizsgáljuk a legígéretesebb módszereket a dimenzionalitás csökkentésére. A fő komponensek az egyik leggyakrabban használt módszer a dimenzionalitás csökkentésére. Az adatok vizuális elemzéséhez gyakran használják az eredeti vektorok előrejelzéseit az első két fő alkotóelem síkján. A szokásos módon az adatszerkezet jól látható, kiemelt kompakt klaszterek az objektumok és a szétválasztott vektorok. A fő komponensek a faktorelemzés egyik módja. A faktorelemzés új ötlete a főkomponensek módszerével összehasonlítva, hogy a terhelések alapján a tényezők csoportokba ütköznek. A tényezők egy csoportjában az új tényező hasonló hatással van az új alapelem elemeire. Ezután minden csoport ajánlott egy képviselőt elhagyni. Néha a számítással való képviselő helyett egy új tényező, amely központi szerepet játszik a kérdéses csoportban. A csökkentett dimenzió a rendszerfaktorokra való áttérés során történik, amelyek csoportok képviselői. Az éter tényezők eldobják. A távolsági (közelségi intézkedések, a különbségek mutatói) a funkciók és a kiterjedt osztály között a multidimenziós méretezés alapja. Ennek a módszereknek az alapgondolata az, hogy minden objektumot a geometriai tér pontjaként (általában az 1., 2. vagy 3. dimenzió) mutatják be, amelynek koordinátái a rejtett (latent) tényezők értékei, amelyek megfelelően kombinálják a megfelelő módon Ismertesse az objektumot. Példaként a valószínűségi és statisztikai modellezés és a nem numerikus adatok statisztikájának eredményeiről, igazoljuk a

egy tárgy. A nem-nem-statisztikai statisztikák valószínűségi statisztikai modellezésének és eredményeinek alkalmazásának példájaként igazoljuk a multidimenzionális méretezésben a multidimenzionális méretezést, amelyet korábban a heurisztikus megfontolásokból javasoltak. Számos munkát végeztek a modellek méreteinek értékelésére (regressziós analízisben és a besorolás elméletében). Dana információ a dimenzió algoritmusairól egy automatizált rendszer-kognitív analízisben

Kulcsszavak: matematika, alkalmazott statisztikák, matematikai statisztikák, növekedési pontok, fő komponens módszer, faktorelemzés, többdimenziós skálázás, adatméteres becslés, modell dimenzió becslés

az adatok dimenziója a többdimenziós skálázásban, amelyet korábban Kruskal javasolnak a heurisztikus megfontolásokból. Számos olyan következetes becslést tekintünk a modellek dimenziójára (regressziós analízisben és az osztályozás elméletében). Valamennyi formátumot adunk az algoritmusokról az automatizált rendszer-kognitív elemzés méretének csökkentésére

Kulcsszavak: matematika, alkalmazott statisztikák, matematikai statisztikák, növekedési pontok, főkomponenselemzés, faktorelemzés, többdimenziós méretezés, adatméret becslése, modell dimenzió becslése

1. Bemutatkozás

Mint már említettük, az alkalmazási statisztikák egyik "növekedési pontja" a statisztikai adatterület dimenziójának csökkentésére szolgáló módszerek. Ezeket egyre inkább használják az adatok elemzésére specifikus alkalmazott vizsgálatokban, például szociológiai. Tekintsük a csökkentett dimenzió legígéretesebb módszereit. Példaként a valószínűségi statisztikai modellezés és a nem statisztikák eredményeinek alkalmazásának példájaként igazoljuk a kolromikus által a heurisztikus megfontolásokból korábban javasolt tér méretének méretét.

A többdimenziós statisztikai elemzésben minden objektumot egy vektor, amelynek dimenziója tetszőleges (de ugyanaz az összes tárgy esetében). Azonban egy személy közvetlenül csak numerikus adatokat vagy pontokat észlelhet a gépen. Elemezze a háromdimenziós térpontok felhalmozódásait már sokkal nehezebb. A nagyobb méretű adatok közvetlen érzékelése lehetetlen. Ezért meglehetősen természetes a vágy, hogy egy multidimenziós mintából mozogjon egy kis dimenzió adataihoz, hogy "tudják

néz". Például egy marketingner egyértelműen meg tudja látni, hogy hány különböző fogyasztói magatartás (azaz mennyire ajánlatos a piaci szegmensek kiosztása), és milyen tulajdonságokkal rendelkezik (milyen tulajdonságokkal) a fogyasztók.

Az egyértelműség iránti vágy mellett vannak más motívumok a dimenzió csökkentésére. Ezek a tényezők, amelyekből a változó érdekli a kutató, nem csak zavarja a statisztikai elemzést. Először is, pénzügyi, ideiglenes, személyi erőforrásokat költenek az információk gyűjtésére. Másodszor, hogyan kell bizonyítani, az elemzésbe való felvételük rontja a statisztikai eljárások tulajdonságait (különösen, növeli a paraméterek becsléseinek és a disztribúciók jellemzőinek diszperzióját). Ezért kívánatos megszabadulni az ilyen tényezőktől.

Multidimenziós adatok elemzése során, nem egy, de sok feladat, különösen a független és függő változók kiválasztása különböző módon. Ezért figyelembe vesszük a csökkent dimenzió problémáját a következő szövegben. Dana többdimenziós minta. A kisebb méretű vektorok összességére kell mozdulnia, miközben a forrásadatok szerkezetét, ha lehetséges, anélkül, hogy elvesztenék az adatokban lévő információkat. A feladat minden egyes csökkentett méretű módszeren belül van megadva.

2. A fő komponens módja

Ez az egyik leggyakrabban használt dimenziós módszer. A fő ötlet összhangban van azokon a területeken, ahol az adatok a legnagyobb szóródást tartalmazzák. Hagyja, hogy a minta az X \u003d (X (1), X (2), X (N)) vektoros vektorokból álljon. Fontolja meg a lineáris kombinációkat

7 (^ (1), x (2),., L (n)) \u003d X (1) X (1) + X (2) X (2) + ... + L (N) x (n) .

X2 (1) + x2 (2) + ... + x2 (n) \u003d 1. Itt az X \u003d (X (1), X (2), ..., X (N)) a készüléken található gömb p-dimenziós térben.

A fő összetevő módszerében elsősorban megtalálja a maximális szóródás irányát, azaz Ilyen X, amelynél a véletlenszerű változó maximális diszperziója 7 (x) \u003d 7 (X (1), X (2), X (N)). Ezután az X vektor az első fő komponenst beállít, és a 7 (x) értéke az első fő komponens tengelyén lévő x véletlenszerű vektor vetülete.

Ezután kifejező tekintve lineáris algebra, úgy a hipers'ıkot a p-dimenziós térben, merőleges az első főkomponens, és a design minden eleme a minta ezen hipersíkot. A hiperpályán a dimenzió 1 kisebb, mint a forrásterület dimenziója.

A vizsgált hiperpliában az eljárás megismétlődik. Megtalálja a legnagyobb szórás irányát, azaz Második fő komponens. Ezután az első két fő komponensre merőleges hiperplant izolálják. A dimenziója 2 kisebb, mint a forrásterület dimenziója. Következő - a következő iteráció.

A lineáris algebra szempontjából új alapot építünk egy p-dimenziós térben, amelynek fő összetevőinek szolgálja.

Az új fő komponensnek megfelelő diszperzió, kevesebb, mint az előzőnél. Általában abbahagyja, ha kevesebb, mint a megadott küszöbérték. Ha a fő összetevőkre van kiválasztva, akkor ez azt jelenti, hogy a p-dimenziós térből a K-dimenziós, azaz. Csökkentse a p-to k méretét, gyakorlatilag anélkül, hogy torzítja a forrásadatok szerkezetét.

Az adatok vizuális elemzéséhez gyakran használják az első két fő komponens síkjában lévő kezdeti vektorok előrejelzéseit. Általában

az adatszerkezet jól látható, kompakt objektum-klaszterek és külön felszabaduló vektor megkülönböztethető.

3. Faktorelemzés

A fő komponens módszer a faktorelemzés egyik módszere. A faktorelemzés különböző algoritmusait az a tény, hogy mindegyikükben új alapon átállnak a kezdeti N-dimenziós térben. Fontos a "faktor terhelés" fogalma, amelyet a forrás tényező (változó) szerepének leírására használnak egy bizonyos vektor kialakításában az új bázisból.

Az új ötlet a fő összetevő módszerével összehasonlítva az, hogy a terhelések alapján a tényezők csoportokra oszthatók. Egy csoportban a tényezők kombinálódnak, hasonló hatással vannak az új bázis elemeire. Ezután minden csoportból ajánlott egy képviselőt elhagyni. Néha, ahelyett, hogy egy képviselőt választana, egy új tényező alakul ki, amely központi szerepet játszik a vizsgált csoport számára. A dimenzió csökkenése a csoportok képviselőire való áttérés során történik. A fennmaradó tényezőket eldobják.

A leírt eljárás nem csak a faktorelemzés segítségével végezhető el. Beszélgetünk A jelek klaszterelemzésén (tényezők, változók). A csoportok jelei megosztására különböző klaszterelemzési algoritmusokat lehet alkalmazni. Elég a távolság (közelség mérése, a különbségjelző) a jelek között. Legyen x és y két jel. A d (x, y) közötti különbség szelektív korrelációs együtthatók segítségével mérhető:

di (x, y) \u003d 1 - \\ rn (x, y) \\, d2 (x, y) \u003d 1 - \\ pn (x, y) \\, ahol rn (x, y) szelektív lineáris Pearson korrelációs együttható , A pn \u200b\u200b(x, y) a Spirme folyó korrelációjának szelektív koefficiense.

4. Multidimenziós méretezés.

A távolságok (közelségi intézkedések, különbségek mutatói) d (x, y) az X és U jelek között a többdimenziós skálázási módszerek kiterjedt osztályai alapulnak. Ennek a módszereknek a fő ötlete, hogy a geometriai tér (általában az 1., 2. vagy 3. méret) minden objektumát ábrázolja, amelyek koordinátái a rejtett (latent) tényezők értéke, amelyek Elég megfelelően leírja az objektumot. Ugyanakkor az objektumok közötti kapcsolatokat a pontok közötti kapcsolatok helyettesítik - képviselőik. Tehát az objektumok hasonlóságára vonatkozó adatok - a pontok közötti távolságok, a fölényre vonatkozó adatok - a pontok kölcsönös helye.

5. A tényező tér valódi dimenziójának értékelésének problémája

Az alkalmazott szociológiai adatok elemzésének gyakorlatában különböző modellek Többdimenziós méretezés. Mindegyikben a tényező tér valódi dimenziójának értékelésének problémája. Tekintsük ezt a problémát a metrikus skálázással kapcsolatos objektumok hasonlóságára vonatkozó adatok feldolgozására.

Hagyjuk, hogy n-es tárgyak 0 (1), O (2), ..., O (n), minden egyes 0 (/), o (j) objektumpár esetében, az S (IJ) hasonlóságának mértékét adják meg . Hisszük, hogy mindig s (i, j) \u003d s (j, i). Az S szám (IJ) eredete nem számít az algoritmus működésének leírására. A közvetlen méréssel vagy szakértők használatával, vagy a leíró jellemzők kombinációjának kiszámításával vagy valahogy egyébként történő kiszámításával.

Euklideszi térben, az N tárgyak alatt figyelmet kell képviseli a konfiguráció n pontot, és az euklideszi távolságot D (I, J) jelenik meg, mint az intézkedés a közelség a pontok-képviselői

a megfelelő pontok között. A tárgyak sorozata és pontjaik kombinációja közötti megfelelőség mértékét a hasonlósági mátrixok összehasonlításával határozzák meg || i (,) || és a hasonlóságok SM-metrikus funkcióinak távolságai

i \u003d £ | * (/,]) - th (/, m

A geometriai konfigurációt úgy kell kiválasztani, hogy a funkcionális s elérje a legkisebb értékét.

Megjegyzés. A nonethenetic méretezés helyett a közelsége a közelség és távolság magukat, a közelsége orderlios a sor közelség intézkedések és a készlet megfelelő távolságok tartják. A funkciók helyett a szellem és a Kendalla korrelációjának rangsorainak analógjait használják. Más szóval, a nem metrikus skálázás feltételezhető, hogy a közelségi intézkedéseket az ordinális skálán mérik.

Hagyja, hogy az euklideszi tér legyen dimenzió t. Fontolja meg legalább a középső négyzetes hibát

amennyiben a minimumot a T-Merne euklideszi térben lévő összes lehetséges konfigurációban veszik figyelembe. Megmutatható, hogy a kérdéses minimum valamilyen konfigurációban érhető el. Nyilvánvaló, hogy a T növekedésével, monotonikusan csökken (pontosabban, nem növekszik). Megmutatható, hogy a t\u003e p - 1-nél 0 (ha - metrikus). Az értelmes értelmezés lehetőségeinek növelése érdekében kívánatos, hogy kevésbé dimenzió legyen. Ugyanakkor azonban a dimenziót úgy kell megválasztani, hogy a pontok nagy torzítás nélküli objektumokat képviseljenek. A kérdés merül fel: hogyan lehet racionálisan kiválasztani a tér dimenzióját, azaz. Természetes szám T?

6. Modellek és módszerek az adatterület dimenziójának becsléséhez

Az e kérdéses ésszerű válaszadatok determinisztikus elemzésének részeként nyilvánvalóan nem. Ezért meg kell vizsgálni az AM ProMabilisztikus modellekben való viselkedését. Ha az S (IJ) közelsége véletlenszerű érték, amelynek eloszlása \u200b\u200baz "igazi méret" M0 (és esetleg bármely más paraméterből), majd a klasszikus matematikai statisztikai stílusban, az M0 becslési feladat beállításához Keresse meg a gazdag értékeléseket és stb.

Kezdjük el az épület probabilisztikus modelleket. Feltételezzük, hogy az objektumok pontok a dimenzió euklideszi térében, ahol elég nagy. Az a tény, hogy az "valódi dimenzió" egyenlő az M0-vel, azt jelenti, hogy ezek a pontok az M0 dimenzió hyperplánján fekszenek. Biztosítjuk, hogy a vizsgált pontok halmaza a körkörös normál eloszlás minta, diszperzióval (0). Ez azt jelenti, hogy a 0 (1), 0 (2), ..., O (n) objektumok függetlenek a véletlenszerű vektorok összességében, amelyek mindegyike épül

Z (1) E (1) + Z (2) E (2) + ... + Z (M0) E (M0), ahol E (1), E (2), ..., E (M0) - Ortonormal alapja az altér dimenziójának M0, amelyben a vizsgált pontok elbírálás alatt áll, z (1) z (2), z (M0) függetlenek az aggregált egydimenziós normális valószínűségi változók matematikai elvárás a 0 és Diszperzió O (0).

Tekintsünk két modellt a közelség S (IJ) megszerzéséhez. Ezek közül az első, az S (IJ) eltér az euklideszi távolságtól a megfelelő pontok között, mivel a pontok a torzításról ismertek. Legyen (1), a (2), ..., C (n) - a vizsgált pontokkal. Azután

s (i, j) \u003d d (c (i) + e (i), c (j) + s (/)), ij \u003d 1, 2, ..., n,

ahol Y az euklideszi távolság a mérési térben lévő pontok között, az E (1), E (2), ..., E (P) vektor egy mérési tér körkörös normál eloszlásának mintája nulla matematikai várakozással és egy kovariancia mátrix (1) /, ahol I-Aedite mátrix. Más szavakkal,

e (0 \u003d P (1) E (1) + P (2) E (2) + ... + C (K) (K), ahol E (1), E (2), ... e (k) - orthonormális alapú mérési térben, és [c ^^), i \u003d 1, 2, ..., p ,? \u003d 1, 2, ..., K) egy olyan készlet, amely független az egydimenziós véletlen változók összesítése, nulla matematikai várakozással és O (1) diszperzióval.

A torzítás második modelljében közvetlenül a maguk távolságaira kerülnek:

Kch) \u003d th (f \\ s)) + £ (UH és \u003d 1, 2., N, I F J,

ahol és, és az első intervallumban gyorsabban csökken, mint a második. Innen következik, hogy a statisztikák

m * \u003d arg Minam + 1 - 2AM + AN-X)

ez az M0 igazi dimenzió gazdag értékelése.

Tehát a valószínűségi elmélet azt jelenti, hogy az ajánlás - mint a faktoriális tér dimenziójának becslése a T * használatához. Ne feledje, hogy egy ilyen ajánlást a J. KrasKal többdimenziós méretezésének heurisztikus formájaként fogalmazták meg. A többdimenziós skálázás és a számítási kísérletek gyakorlati felhasználásának tapasztalatából indult. A probabilisztikus elmélet lehetővé tette ezt a heurisztikus ajánlás igazolását.

7. A modell dimenziójának értékelése

Ha a jelek lehetséges részhalmazai egy bővülő családot alkotnak, például a polinom mértékét becsüljük, természetes a "modell dimenzió" kifejezésére (ez a koncepció nagyrészt a multidimenzionális skála dimenziójához hasonlít. A cikk szerzője számos munkával rendelkezik a modell dimenziójának értékelésével, amelyet tanácsos összehasonlítani a fent tárgyalt adatterület dimenziójának becslésével kapcsolatos munkával.

Az első ilyen munkát végeztek a szerző ezt a cikket útja során Franciaországban 1976-ban egy értékelést dimenziója a modell regressziós vizsgálták meg, nevezetesen egy értékelést a mértéke polinom, feltételezve, hogy a függőség a polinom írja le. Ez a becslés ismert volt a szakirodalomban, de később tévedett, hogy attribútumot tulajdonítson e cikknek, amely csak a tulajdonságait tanulmányozta, különösen azt találta, hogy ez nem gazdag, és megtalálta a limit geometriai eloszlását. Mások, a regressziós modell dimenziójának már gazdag becsléseit javasolták és tanulmányozták a cikkben. Ez a ciklus befejezte a munkát, amely számos finomítást tartalmaz.

A téma rendkívüli kiadványa magában foglalja a Monte Carlo által előállított határértékek konvergencia sebességének tanulmányozásának eredményeit.

A modell dimenziójának becsléséhez hasonló módszertanhoz hasonló módszertan A cikk (a besorolási elmélet része) problémájában a cikkben szerepel.

A modell dimenziójának többdimenziós méretezésével kapcsolatos fenti becsléseit a munkákban tanulmányozzák. Ugyanazon munkákban a fő komponensek módszerének jellemzőinek határértéke (a szélsőséges statisztikai problémák viselkedésének aszimptotikus elmélete).

8. Méretcsökkentési algoritmusok automatizált rendszer-kognitív elemzésben

Az automatizált rendszer-kognitív analízis (ASC-analízis) is javasolják a EIDOS rendszerrel, egy másik eljárás, csökkentett dimenziója van megvalósítva. A rendszerelemzés (BKOS) "és 4.3" részletes BKOS algoritmusok (BKOS) algoritmusainak (BKOS) algoritmusainak (BKOS) algoritmusainak (lásd az elemzés) algoritmusainak leírása ". Itt rövid leírás Két algoritmus - BKOS-4.1 és BKOS-4.2.

BKOSA-4.1. "A tényezők absztrakciója (a tényezők szemantikai terének dimenziójának csökkentése)"

Előállítása A egymást követő közelítések (iteratív algoritmus), egy adott peremfeltételek, a dimenziója az attribútum tér csökken anélkül, hogy jelentős mértékben csökkenjen az térfogatának. Az iteratív folyamat leállításának kritérium az egyik határfeltételek elérése.

BKOS-4.2. "Az osztályok absztrakciója (az osztályok szemantikai térének dimenziójának csökkenése)"

Előállítása A egymást követő közelítések (iteratív algoritmus) esetén meghatározott peremfeltételek, a méret a tér osztályok csökken anélkül, jelentős csökkentését a térfogata. Az iteratív folyamat leállításának kritérium az egyik határfeltételek elérése.

Itt megtalálja az összes valós algoritmusok az Eidos rendszere verzióra idején végrehajtott munka előkészítése (2002): http: //lc.kubagro .ru / Aidos / aidos02 / 4,3 .htm

Az algoritmusok lényege a következő.

1. Az információ mennyisége az objektum-átmenet értékeiben kerül kiszámításra az osztályok szerint.

2. kiszámítja az objektum differenciálódásának faktorértékének értékét az osztályok szerint. Ez az érték egyszerűen a tényezők értékeinek adatainak változékonysága (sokféle változékonysági intézkedések sokat: az átlagos eltérés az átlagtól, az átlagos négyzetes eltérés stb.). Más szóval, ha átlagosan a tényező értéke átlagosan kevés információ van a tartozásról, és nem tartozik az objektumhoz az osztályhoz, akkor ez az érték nem túl értékes, és ha igen, akkor értékes.

3. kiszámítja az objektumok differenciálódására vonatkozó leíró mérlegek értékét. Az E.V munkáiban A Lutsenko mostantól átlagosan a skála fokozataiból származik.

4. Ezután a tényezők és leíró mérlegek értékeinek átmeneti optimalizálása történik:

A tényezők (a leíró skálázás) értékei a csökkenő érték sorrendjében rangsorolódnak, és eltávolítják a legkevésbé értékes modellből, amelyek a 45 ° -os pareto-görbe jobb oldalán mennek;

A tényezők (leíró skálák) csökkenő értékrendben vannak, és eltávolításra kerülnek a legkevésbé értékes modellből, amelyek 45 ° -os jobbra haladnak.

Ennek eredményeképpen a leíró térségre épített tér dimenziója jelentősen csökken a skálák korrelációjának eltávolításával, azaz. Lényegében orthonormaling tér egy információs metrikusban.

Ez a folyamat megismételhető, azaz egyidejűleg iteratív új verzió Az "Eidos" rendszer kézzel kezdődik.

Hasonlóképpen az osztályok információs területét elhagyják.

A skála és a fokozatok numerikusak lehetnek (az intervallum értékek feldolgozása), és lehet szöveges (rendszerű vagy akár névleges) is.

Így a BKOS algoritmusok segítségével (Ask analízis) segítségével a tér dimenziója maximálisan csökken a minimális információveszteséggel.

Az alkalmazott statisztikák statisztikai adatai elemzéséhez számos más dimenziós csökkentési algoritmust fejlesztettek ki. E cikk feladatai nem tartalmazzák az ilyen algoritmusok teljes cseréjét.

Irodalom

1. Orlov A.I. A statisztikai módszerek növekedési pontjai // Polygraph Network Electronic Tudományos Journal of A Kuban Állami Agrár Egyetem. 2014. No. 103. P. 136-162.

2. Festék J. Kapcsolat a többdimenziós méretezés és klaszterelemzés // besorolás és klaszter között. M.: Mir, 1980. C.20-41.

4. Harman G. Modern faktorelemzés. M.: Statisztika, 1972. 489 p.

5. Orlov A.I. Megjegyzések az osztályozási elméletről. / Szociológia: módszertan, módszerek, matematikai modellek. 1991. No. 2. C.28-50.

6. Orlov A.I. A besorolás matematikai elméletének alapvető eredményei // Polimatikus hálózati elektronikus tudományos folyóirat A Kuban Állami Agrári Egyetem. 2015. № 110. P. 219-239.

7. Orlov A.I. Matematikai módszerek Osztályozási elméletek // Polygraph Network A Kuban Állami Agrári Egyetem elektronikus tudományos folyóirat. 2014. No. 95. P. 23 - 45.

8. Terekhina A.yu. A többdimenziós skálázás módszereinek elemzése. -M.: Tudomány, 1986. 168 p.

9. Perekrest V. T. A társadalmi-gazdasági információ nemlineáris tipikus elemzése: matematikai és számítástechnikai módszerek. - L.: Science, 1983. 176 p.

10. Tyurin yu.n., Litvak B.g., Orlov A.I., Satarov G.a., Smerling D.S. Nem érvénytelen információk elemzése. M.: A Szovjetunió Tudományos Akadémia Tudományos Tanácsa a "Cybernetics" komplex problémáról, 1981. - 80 p.

11. Orlov A.I. Általános nézet a nem-természetű tárgyak statisztikáira // A nem tájékoztató információk elemzése szociológiai vizsgálatokban. - M.: Tudomány, 1985. S.58-92.

12. Orlov A.I. Az alapfunkciók számának becslése a regresszióban // alkalmazott többdimenziós statisztikai elemzésben. A statisztikákról szóló tudósok, T.33. - M.: Tudomány, 1978. P.380-381.

13. Orlov A.I. A modell dimenziójának értékelése a regresszióban // algoritmikusban és szoftver Alkalmazott statisztikai elemzés. Statisztikai tudósok, T.36. - M.: Tudomány, 1980. P.92-99.

14. Orlov A.I. A modell dimenziójának egyes becsléseinek aszimptotikái a regresszióban // alkalmazott statisztikákban. A statisztikák tudósok, T.35. - M.: Tudomány, 1983. P.260-265.

15. Orlov A.I. A regressziós polinom // gyári laboratórium értékeléséről. Az anyagok diagnosztizálása. 1994. T.60. № 5. P.43-47.

16. Orlov A.I. Néhány probabilisztikus besorolási elmélet Kérdések // Alkalmazott statisztikák. A statisztikák tudósok, T.35. - M.: Tudomány, 1983. C.166-179.

17. Orlov A.I. A nemnumerikus tárgyak statisztikája // kísérletek és adatelemzések tervezése: új trendek és eredmények. - M.: Antal, 1993. R.52-90.

18. Orlov A.I. A dimenzió csökkentésének módjai // A könyv 1. függeléke: Tolstova Yu.n. A többdimenziós méretezés alapjai: Tutorial Az egyetemek számára. - M.: Publisher CDU, 2006. - 160 p.

19. Orlov A.I. A szférális statisztikai problémák aszimptotikuma // A nem numerikus adatok elemzése a rendszervizsgálatokban. Laborok gyűjteménye. Vol. 10. - M.: System System Research Intézet, 1982. P. 412.

20. Orlov A.I. Szervezeti és gazdasági modellezés: bemutató: 3 órán belül. 1. rész: Nem osztható statisztikák. - M.: Kiadóház MSTU. HIRDETÉS Bauman. - 2009. - 541 p.

21. Lutsenko e.v. Automatizált rendszer-kognitív elemzés az aktív tárgyak kezelésében (a rendszerelmélet az információ és alkalmazása a gazdasági, társadalmi-pszichológiai, technológiai és szervezeti és technikai rendszerek tanulmányozásában): monográfia (tudományos kiadvány). -Srasnodar: KubGu. 2002. - 605 p. http://elibrary.ru/item.asp?id\u003d18632909.

1. Orlov A.I. Tochki rosta statisticheskih metodov // politematicheskij setevoj jelektonnyj nauchnyj zhurnal kubanskogo gosudarstvennogo agraarnogo univerita. 2014. № 103. S. 136-162.

2. KRASKAL DZH. Vzaimosvjaz "Mezhdu Mnogomernym SHKALIROVANIEM I KLASTER-ANALIZOM // KLASSIFIKACIJA I KLASTER. M.: Mir, 1980. S.20-41.

3. KRUSKAL J.B., szeretném M. Multidimensional Scaling // Sage Egyetem papír sorozat: minőségi alkalmazások a társadalomtudományokban. 1978. №11.

4. Harman G. Sovremennyj faktornyj analiz. M.: Statisztika, 1972. 489 s.

5. Orlov A.I. Zametki Po Teorii Klassifikacii. / Sociologija: Metodologija, Metody, Matematicheskie Modeli. 1991. Nem. 2. S.28-50.

6. Orlov A.I. Bazovye rezul "taty matematicheskoj teorii klassifikacii // politematicheskij setevoj jelektonnyj nauchnyj zhurnal kubanskogo gosudarstvennogo agrarnogo Universiteta. 2015. № 110. S. 219-239.

7. Orlov A.I. Matematicheskie Metody Teorii Klassifikacii // Politematicheskij Setevoj Jelektronnyj Nauchnyj Zhurnal Kubanskogo Gosudarstvennogo Agrannogo Universita. 2014. № 95. S. 23 - 45.

8. Terehina A.ju. ANALIZ DANNYH METODAMI MNOGOMERNOGO SHKALIROVANIJA. - M.: Nauka, 1986. 168 s.

9. Perekrest v.t. Nellegnyj tipologicheskij analiz társadalmi "no-jekonomicheskoj információ: matematicheskie i vychislitel" NYE Metody. - L.: Nauka, 1983. 176 s.

10. Tjurin Ju.N., Litvak B.G., Orlov A.I., Satarov G.a., Shmerling D.S. ANALIZ NeCISLOVOJ INFORMACII. M.: Nauchnyj Sovet egy SSSR PO Kompleksnoj Probléma "Kibernetika", 1981. - 80 s.

11. Orlov A.I. Obshhij vzgljad na statistiku ob # ektov nechislovoj prirody // analiz nechislovoj informacii v sociiologicheskih issledovanijah. - M.: Nauka, 1985. S.58-92.

12. Orlov A.I. Előre "Noe RaspredLenie Odnoj Ocenki Chisha Bazisnyh Funkcij V regresszió // Prikladnoj Mnogomernyj statisticheskij analiz. Uchenye Zapiski Po statisztikát, T.33. - M.: Nauka, 1978. S.380-381.

13. Orlov A.I. Ocenka Razmernosti Modeli V Regressii // AlgoritMicheskoe I Programmnoe Obespechnie Prikladnogo StatistichesKogo Analiza. Uchenye Zapiski Po Statisztika, T.36. - M.: NAUKA, 1980. S.92-99.

14. Orlov A.I. ASIMPTOTIKA NEKOTORYH OCENOK RAZMERNOSTI MODELI V REGRESSII // Prikladnaja statisztika. Uchenye Zapiski Po Statisztika, T.45. - M.: Nauka, 1983. S.260-265.

15. Orlov A.I. O ob Ocenivanii regressionnogo polinoma // Zavodskaja Laboratorija. Diagnostika Materialov. 1994. T.60. № 5. S.43-47.

16. Orlov A.I. Nekotorye Verojatnostnye Voprosy Teorii Klassifikacii // Prikladnaja statisztika. Uchenye Zapiski Po Statisztika, T.45. - M.: Nauka, 1983. S.166-179.

17. Orlov A.I. A nemnumerikus tárgyak statisztikája // kísérletek és adatelemzések tervezése: új trendek és eredmények. - M.: Antal, 1993. R.52-90.

18. Orlov A.I. Metody SNIZHENIJA RAZMERNOSTI // PRILOZHENIE 1 K KNIGE: Tolstova Ju.n. Osnovy mnogomernogo shkalirovanija: Uchebnoe posobie dlja vuzov. - M.: Izdatel "Stvo KDU, 2006. - 160 s.

19. Orlov A.I. Asimptotika reshenij jekstremal "NYH statisticheskih zadach // Analiz nechislovyh dannyh v sistemnyh issledovanijah Sbornik trudov Vyp.10 -... M.: Vsesojuznyj Nauchno-issledovatel" skij institut sistemnyh issledovanij, 1982. S. 4-12.

20. Orlov A.I. OrganizationacionNo-Jekonomicheskoe Modelirovanie: Uchebnik: v 3 ch. CHAST "1: Nechislovaja Statistika. - M.: IZD-VO Mgtu Im. N.JE. Baumana. - 2009. - 541 s.

21. Lucenko e.v. Avtomatizirovannyj sistemno-kognitivnyj analiz v upravlenii aktivnymi ob # ektami (sistemnaja Teorija informácií i ee primenenie v issledovanii jekonomicheskih, szociális „no-psihologicheskih, tehnologicheskih i organizacionno-tehnicheskih sistem): Monografija (Nauchnoe izdanie) - Krasnodar :. KubGAU 2002. -. 605 s. Http://elibrary.ru/item.asp?id\u003d18632909

Az 5. fejezet szerinti anyag tanulmányozása eredményeként a hallgatónak:

tud

  • Alapvető fogalmak és feladatok az alacsonyabb dimenzió:
  • Megközelítések a tulajdonságterület átalakulásának problémájának megoldására;

képesnek lenni

  • Használja a fő komponens módszerét a szabványosított ortogonális jellemzőkre való áttéréshez;
  • Értékelje az adatinformáció csökkentését, ha a funkcióterület dimenziójának csökkenése;
  • oldja meg az optimális többdimenziós mérlegek létrehozásának problémáját az objektumok kutatásához;

saját

  • a statisztikai elemzés alkalmazásainak megoldására szolgáló dimenzió csökkentésére szolgáló módszerek;
  • A változók értelmezésének készsége egy átalakított jelzőtáblában.

Alapvető fogalmak és az alsó dimenzió feladata

Első pillantásra, mint több információ A tanulmány tárgyai a jelek jellemzőjének formájában a modell létrehozására szolgálnak, annál jobb. Azonban a túlzott mennyiségű információ az adatelemzés hatékonyságának csökkenéséhez vezethet. Még a "dimenzió átka" is van A dimenzionalitás átka), A nagy termékadatokkal való munkavégzés problémáinak jellemzése. A dimenzió csökkentése egy formában vagy másként a megoldás különböző statisztikai problémákhoz kapcsolódik.

A nem tájékoztató jellegű funkciók további zajforrás, és befolyásolják a modellparaméterek értékelésének pontosságát. Ezenkívül számos funkcióval rendelkező adatkészletek korrelált változók csoportjait tartalmazhatják. Az ilyen jelek jelenléte olyan információt jelent, amelyek torzíthatják a modell specifikációját, és befolyásolhatják a paraméterek minőségét. Minél nagyobb az adatok dimenziója, annál nagyobb a számítások mennyisége az algoritmikus feldolgozás során.

A két irányt meg lehet különböztetni az ehhez használt változók elvének dimenziójának csökkentésében: a meglévő forráskészletből származó jelek kiválasztása és az új funkciók kialakulása a kezdeti adatok átalakításával. Ideális esetben az adatok rövidített ábrázolása a dimenziónak megfelelő dimenzióval kell rendelkeznie, belső inherens adatoknak. Intrinsic dimenzionalitás.

A vizsgált jelenséget jellemző leginkább informatív funkciók keresése nyilvánvaló iránya, hogy csökkentse a probléma dimenzióját, amely nem igényli a forrásváltozók átalakulását. Ez lehetővé teszi, hogy a modellt kompaktabbá tegye, és elkerülje az alacsony tájékoztató jellegű funkciók zavaró hatásával kapcsolatos veszteségeket. Az informatív funkciók kiválasztása sok forrásváltozó legjobb részhalmazának megtalálása. A "legjobb" fogalmának kritériumai szolgálhatnak vagy a legtöbbet jó minőség Szimuláció a funkciótér adott dimenziójával vagy az adatok legkisebb dimenziójával, amelyen a megadott minőség modelljének megteremtése lehetséges.

Közvetlen megoldás a létrehozáshoz a legjobb modell A jelek összes lehetséges kombinációjához kapcsolódóan, amely általában túlságosan nehézkes. Ezért szabályként a jelek közvetlen vagy hátrameneti kiválasztását igénylik. A közvetlen kiválasztási eljárásokban az eredeti készletből származó változók szekvenciális adagolása a modell kívánt minőségének elérése érdekében történik. Az eredeti jellemzőterület (fordított kiválasztás) következetes csökkentésének algoritmusaiban a legkevésbé tájékoztató változók fokozatos eltávolítása a modell információtartalmának megengedett csökkenéséhez.

Emlékeztetni kell arra, hogy a jelek informativitása relatív. A kiválasztásnak biztosítania kell a funkciók halmazának magas informativitását, és nem a változók összetevőinek teljes tájékoztatását. Így a jelek közötti korreláció jelenléte csökkenti az általános informativitásukat az általuk közös információk megkettőzése miatt. Ezért a már kiválasztott új funkció hozzáadásával biztosítja az informativitás növelését, amennyiben tartalmazza hasznos információA korábban kiválasztott változókban. A legegyszerűbb a lehető legegyszerűbb a helyszíni ortogonális jelek kiválasztásának helyzete, amelyben a kiválasztási algoritmus nagyon egyszerű: a változók az informativitás rangsorolása, és az első jelek összetétele ebben a rangsorban van, amely biztosítja a meghatározott informativitást.

A kiválasztási módszerek korlátozott módja a tér dimenziójának csökkentése érdekében a forrásadatokhoz tartozó szükséges jelek azonnali jelenlétének feltételezéséhez kapcsolódik, ami általában helytelen. A dimenzió csökkentésének alternatív megközelítése biztosítja a funkciókat csökkentett új változócsoportokká történő átalakítására. Ellentétben az eredeti jelek kiválasztásával, az új funkcióterület kialakulása magában foglalja az új változók létrehozását, amelyek általában a forrásjelek funkciói. Ezeket a megfigyelt változókat gyakran rejtettnek nevezik, vagy rejtett. A létrehozás folyamatában ezek a változók különféle hasznos tulajdonságokkal rendelkezhetnek, például ortogonalitással. A gyakorlatban a kezdeti jelek általában összefüggenek egymással, ezért helyük ortogonális átalakítása új koordinátákat generál, amelyben nincs hatással a vizsgált tárgyakról szóló információk megkétszerezésére.

Az új ortogonális jellegű objektumok megjelenítésének megjelenítése arra a képességre van szükség, hogy vizuálisan bemutassa az egyes jelek hasznosságát a tárgyak közötti különbségek szempontjából. Ha a koordinátáit az új alapokon rendezik diszperziós jellemző tartományban értékek számukra az észrevételek figyelembe vett, nyilvánvalóvá válik lehetetlenné gyakorlati szempontból bizonyos funkciók kis változók, mivel tárgyakat ezek a funkciók gyakorlatilag megkülönböztethetetlen, mint az informatív változók különbségeikhez képest. Ilyen helyzetben beszélhetünk az úgynevezett degenerációról a kezdeti jellemző térről k. változók és a tér valódi dimenziója t. lehet kevesebb forrás (m< k.).

A jellemzőterület csökkentését az adatinformációk bizonyos csökkenésével kíséri, de a megengedett csökkentés szintje előre meghatározható. A funkciók kiválasztása a forrásváltozók egy kisebb méretű térbe kerül. A funkcióterület két-háromdimenziós kompressziója hasznos lehet az adatok megjelenítéséhez. Így az új funkcióterület kialakításának folyamata általában kisebb informatív változókhoz vezet. A bázisukon jobb modellt lehet építeni a leginkább informatív funkciók kisebb számának megfelelően.

A forráson alapuló új változók képződését a látens szemantikai elemzéshez, az adatok tömörítéséhez, osztályozásához és elismeréséhez használják, növelik a tanulási folyamatok sebességét és hatékonyságát. A tömörített adatokat általában további elemzésre és modellezésre alkalmazzák.

A jellemzőterület átalakításának egyik fontos alkalmazása és a dimenzió csökkentése az, hogy szintetikus látens kategóriákat építsen a jelek mért jelei alapján. Ezek a látens jelek jellemezhetik a jelenség általános sajátos jellemzőit, amelyek integrálják a megfigyelt objektumok magán tulajdonságait, amelyek lehetővé teszik számunkra, hogy integrált számunkra az információ által végzett különböző szintű integrált mutatókat.

A szerepe a módszerek a csökkenés a jellemző helyet a tanulmányt a probléma a párhuzamos adatokat a kezdeti tünetek, ami a „megduzzad” szóródásának becslések együtthatók regressziós modellek, elengedhetetlen. Átmenet az új, ideális esetben ortogonális és értelmes értelmezhető, változók hatékony eszköz Modellezés a forrásadatok multikollinearitásának feltétele alatt.

Az átalakulás kezdeti funkció teret ortogonális kényelmes megoldani a besorolási feladatokat, mivel lehetővé teszi, hogy ésszerűen egyes intézkedések alkalmazását, a közelség vagy különbségek tárgyak, mint az euklideszi távolság vagy a négyzetes euklideszi távolság. A regressziós elemzés az építőiparban a regressziós egyenlet a fő összetevői lehetővé teszik a probléma megoldására a multikollinearitás.



Tetszett a cikket? Oszd meg