Contacts

Abaissement de la dimension · Loginom Wiki. Introduction à une diminution de la dimension Quelle méthode aide à réduire la dimension des données

Chapitre 13. Méthode de la composante principale

13.1. Essentition du problème de la dimension réduite et de diverses méthodes de sa solution

Dans la recherche et le travail statistique pratique, il est nécessaire de faire face aux situations où le nombre total de signes enregistrés sur chacun des nombreux sujets des sujets (pays, villes, entreprises, familles, patients, systèmes techniques ou environnementaux) est très grande - environ cent et plus. Néanmoins, les observations multidimensionnelles existantes

il devrait être soumis à un traitement statistique, à comprendre ou à entrer dans la base de données afin de pouvoir les utiliser au bon moment.

Le désir des statistiques représente chacune des observations (13.1) sous la forme d'un vecteur Z de certains indicateurs auxiliaires présentant un nombre significativement plus petit (que) de composants du pillage est due principalement par les raisons suivantes:

la nécessité d'une représentation visuelle (visualisation) des données source (13.1), qui est obtenue par leur projection sur un espace tridimensionnel spécialement sélectionné du plan ou de numériques directs (objectifs de ce type IV);

le désir de laconisme sous des modèles examinés en raison de la nécessité de simplifier le compte et l'interprétation des conclusions statistiques obtenues;

la nécessité de comprimer substantiellement les volumes des informations statistiques stockées (sans pertes visibles dans son informaticité), s'il s'agit de l'enregistrement et du stockage des tableaux de type (13.1) dans une base de données spéciale.

Dans le même temps, les nouvelles fonctionnalités (auxiliaires) peuvent être sélectionnées à partir du nombre d'initiales ou à déterminer par une règle de l'ensemble des signes de source, par exemple leurs combinaisons linéaires. Lors de la formation nouveau système Signes à ce dernier, j'empêche nos divers types d'exigences, telles que la plus grande informatique (dans un certain sens), une non-corrosion mutuelle, la plus petite distorsion de la structure géométrique d'un ensemble de données sources, etc., en fonction de la Spécification formelle de ces exigences (voir ci-dessous, ainsi que la section IV), nous arrivons à un algorithme de réduction de la dimension particulière. Il existe au moins trois types de base de conditions préalables fondamentales qui déterminent la possibilité de transition à partir d'un grand nombre d'indicateurs source de l'état (comportement, efficacité fonctionnelle) du système analysé à un nombre considérable de variables les plus informatives. C'est tout d'abord des informations sur la duplication offrant des signes fortement interdépendants; Deuxièmement, la non-informaticien des signes, peu changeant pendant la transition d'un objet à une autre (petite "variabilité" des signes); Troisièmement, la possibilité d'agrégation, c'est-à-dire une sommation simple ou "pondérée", selon certains signes.

Formellement la tâche de la transition (avec la plus petite perte d'information) à un nouvel ensemble de fonctionnalités peut être décrite comme suit. Supposons que - une fonction de vecteurs de la dimension p-dimensionnelle des variables initiales et de laisser de manière certaine la mesure spécifiée du système de dimensions de l'informatique de fonctionnalités dont le choix spécifique de fonctionnement dépend des spécificités de la tâche réelle résolue et repose sur l'un des CRITÈRES POSSIBLES: Critère de l'autoration automatique, destiné aux informations de sauvegarde maximales contenues dans le tableau source par rapport aux signes de source; et le critère de l'informaticité externe visant à obtenir le maximum de "pressage" des informations contenues dans ce tableau par rapport à d'autres indicateurs (externes).

La tâche consiste à déterminer un tel ensemble de signes Z, trouvé dans la classe F des transformations admissibles des indicateurs initiaux qui

Ceci ou un autre mode de réalisation de cette formulation (définissant un choix spécifique d'informaticité) et la classe de transformations autorisées) conduit à une méthode de réduction de la dimension spécifique: à la méthode de composants principaux, analyse factorielle, extrême regroupement de paramètres, etc.

Laissez-nous l'expliquer sur les exemples.

13.1.1. Méthode de la composante principale (voir § 13.2-§ 13.6).

C'est aux premiers composants principaux que le chercheur viendra, si la classe de transformations autorisées F déterminera toutes sortes de combinaisons normalisées orthogonales linéaires d'indicateurs initiaux, c'est-à-dire

(Ici) - Attente mathématique A comme mesure des indicateurs de système de l'informatique-aigu

(Ici D, comme avant, le signe de l'opération de calcul de la dispersion de la variable aléatoire correspondante).

13.1.2. Analyse des facteurs (voir Ch. 14).

Comme on le sait (voir § 14.1), le modèle d'analyse des facteurs explique la structure des liens entre les indicateurs initiaux, car le comportement de chacun d'eux dépend de manière statistique du même ensemble de facteurs communs.

où - la "charge" du facteur général sur l'indicateur source est le composant aléatoire "spécifique" résiduel et - par paires ne sont pas corrélés.

Il s'avère que si F, en tant que classe de toutes sortes de combinaisons linéaires, en tenant compte des limites susmentionnées, de choisir la valeur du problème d'optimisation (13.2) comme mesure de l'informaticence (13.2), coïncide avec le commun Facteurs dans le modèle d'analyse des facteurs. Ici - la matrice de corrélation des indicateurs initiaux La matrice de corrélation des indicateurs - Norme euclidienne de la matrice A.

13.1.3. Méthode de regroupement extrême (voir la section 14.2.1).

Dans cette méthode, nous parlons d'une telle partition de l'ensemble des indicateurs initiaux à un nombre donné de groupes que les signes appartenant au même groupe seraient relativement fortement fortement fortement, tandis que les signes appartenant à différents groupes seraient faiblement corrélés. Dans le même temps, la tâche de remplacer chaque groupe d'indicateurs initiaux fortement intercréés est résolue par un indicateur «asile» auxiliaire qui devrait bien entendu être en corrélation étroite avec les signes de son groupe. Après avoir défini comme une classe de transformations autorisées F des indicateurs initiaux, toutes les combinaisons linéaires normalisées recherchent une solution optimisant (par s et) fonctionnalité

où est le coefficient de corrélation entre variables.

13.1.4. Échelle multidimensionnelle (voir ch. 16).

Dans plusieurs situations, tout d'abord, dans des situations où les statistiques initiales sont obtenues à l'aide d'enquêtes spéciales, de questionnaires, d'estimations d'experts, il existe des cas où l'élément de l'observation principale n'est pas l'état de l'objet décrit par le vecteur et la caractéristique de proximité paires (éloignement) de deux objets (ou de signes) respectivement avec des nombres

Dans ce cas, le chercheur a une matrice de taille comme une matrice de données statistiques sources (si les caractéristiques des paires d'objets d'objets sont considérées) ou (si les caractéristiques des paires de signes de signes) de l'espèce sont considérées.

lorsque les valeurs sont interprétées soit comme des distances entre les objets (fonctionnalités) I et soit comme les rangs définissant la rationalisation de ces distances. La tâche de la mise à l'échelle multidimensionnelle consiste à "plonger" nos objets (signes) dans un espace aussi dimensionnel, c'est-à-dire de choisir l'axe de coordonnées de sorte que la configuration géométrique originale de l'ensemble d'objets d'analyse analysées (ou fonctionnalités de points) spécifiées En (13.1) ou (13.5), il serait le moins déformé dans le sens d'un certain critère pour le «degré de distorsion» moyen des paires de distances mutuelles.

L'un des systèmes généraux suffisants de l'échelle multidimensionnelle est déterminé par le critère.

où est la distance entre les objets dans l'espace source, la distance entre les mêmes objets dans l'espace recherché d'un paramètre de dimension plus petit, dont la sélection de valeurs spécifiques est faite à la discrétion du chercheur.

Identifier une mesure de l'informativité de l'ensemble souhaité des signes Z, par exemple, comme une magnitude mentionnée inversement supérieure à la valeur du degré de distorsion de la structure géométrique de l'ensemble de points d'origine, nous réduisons cette tâche à la formulation générale ( 13.2), croyant

13.1.5. Sélection des indicateurs les plus informatifs dans les modèles de l'analyse discriminante (voir § 1.4; 2.5).

Les fonctionnalités ci-dessus sont les compteurs informatif autographiques du système de signes correspondant. Nous donnons maintenant des exemples de critères informatifs externes. En particulier, nous serons intéressés par l'informativement du système d'indicateurs du point de vue de l'exactitude de la classification des objets dans ces indicateurs dans le schéma d'analyse discriminant. Dans le même temps, la classe des transformations admissibles est défini sur les exigences des exigences que seuls les représentants de l'ensemble des indicateurs initiaux peuvent être pris en compte, c'est-à-dire.

Une thèse de source courante dans la résolution du problème de l'identification des indicateurs les plus informatifs de l'ensemble d'origine est l'affirmation selon laquelle le vecteur d'indicateurs d'une dimension donnée est plus informatif que la différence entre la législation de sa distribution probabiliste définie dans différentes classes de la Tâche de classification à l'étude. Si vous entrez le mode d'une différence par paire dans les lois décrivant la répartition des probabilités des caractéristiques des caractéristiques des classes avec des chiffres, il est possible de formaliser le principe ci-dessus de sélection des indicateurs les plus informatifs. En les déterminer de la maximalisation condition (logiciel) de la magnitude

Les mesures les plus courantes des différences entre les lois de la répartition des probabilités sont la distance du type d'information (la distance de Trubakka, la distance de Mahalanobis), ainsi que la "distance de variation" (pour plus de détails, voir.

13.1.6. Sélection des variables les plus informatives dans les modèles de régression (voir).

Lors de la construction de dépendances de type de régression, l'un des centraux consiste à identifier un nombre relativement faible de variables (d'un ensemble a priori des signes les plus importants du résultat résultant du résultat résultant.

Ainsi, comme dans le paragraphe précédent, la classe F consiste en toutes sortes de variables sélectionnées dans l'ensemble des facteurs d'argumentation d'origine et traitent du critère d'une informativité externe de ces ensembles. Sa vue est généralement définie à l'aide d'un coefficient de détermination multiple - les caractéristiques du degré d'étanchéité de la connexion de l'indicateur Y avec un ensemble de variables. Dans le même temps, pour une dimension fixe, l'ensemble de variables sera évidemment considéré comme le Le plus informatif (en termes de précision de la description du comportement de l'indicateur de l'indicateur), si la valeur de l'informativité est sur ce jeu atteint le maximum.

  • Dans les statistiques, la théorie de l'apprentissage des machines et de l'information, la réduction de la dimension consiste à convertir des données consistant à réduire le nombre de variables en recevant les variables principales. La conversion peut être divisée en sélection de fonctionnalités et à la sélection des fonctionnalités.

Concepts connectés

Mentionné dans la littérature

- Données d'entrée de chargement et de prétraitement - Manuel et mise en page automatique de stimulus (sélection de zones d'intérêt), - algorithme de calcul de la matrice de représentation successeuse, - Construire une table de données étendue avec les valeurs des variables d'entrée requises pour une analyse ultérieure - méthode dimension réduite Espaces espaces (méthode du composant principal), - Visualisation des charges de composants Pour sélectionner le composant interprétable - L'algorithme d'apprentissage de l'arborescence de solutions est un algorithme d'évaluation de la capacité prédictive de l'arborescence, - Visualisation de l'arborescence des solutions.

Concepts associés (suite)

Les techniques de regroupement spectral utilisent un spectre (Eigenvalues) de la matrice de similarité de données pour réduire la dimension avant de se regrouper dans des espaces plus petits. La matrice de similarité est fournie comme une entrée et consiste en estimations quantitatives de la similitude relative de chaque paire de points dans les données.

Les méthodes spectrales sont une classe de technicien utilisée dans des mathématiques appliquées pour une solution numérique de certaines équations différentielles, il est possible d'impliquer une transformation rapide de Fourier. L'idée consiste à la résolution des équations différentielles de recensement comme la somme de certaines "fonctions de base" (par exemple, comme la série Fourier sont la somme de la sinusoïde), puis sélectionnez les coefficients dans la quantité pour satisfaire autant que possible l'équation différentielle autant que possible.

L'analyse mathématique (analyse mathématique classique) est un ensemble de sections de mathématiques correspondant à la section historique sous le nom "Analyse d'infiniment petit", combine calcul différentiel et intégré.

Évolution différentielle (fra. Evolution différente) - Méthode d'optimisation mathématique multidimensionnelle liée à la classe d'algorithmes d'optimisation stochastiques (c'est-à-dire qu'il fonctionne en utilisant des nombres aléatoires) et en utilisant certaines idées d'algorithmes génétiques, mais contrairement à eux, ne nécessite pas de travail avec variables en code binaire.

La méthode de l'élément discrète (DEM, de l'anglais. La méthode d'élément discret) est une famille de méthodes numériques destinées à calculer le mouvement d'un grand nombre de particules, telles que des molécules, des graviers, du gravier, des cailloux et d'autres supports granulés. La méthode a été appliquée à l'origine Cundall en 1971 pour résoudre des problèmes de mécanique des roches.

But de l'étude:

Évaluation de l'efficacité de la méthodologie de réduction de la dimension de données afin d'optimiser leur application dans la pratique de la reconnaissance (identification).

Tâches de recherche:

1. Examen des sources littéraires sur méthodes existantes Réduire la dimension de données.

2. Réalisation de recherches (expériences) pour comparer l'efficacité des algorithmes de réduction des données appliquées dans la pratique dans les tâches de classification

Méthodes de recherche (logiciels):

Langage de programmation C ++, Bibliothèque OpenCV

La perception des données de haute dimension pour une personne est difficile, et parfois, il est impossible. À cet égard, le désir était assez naturel de passer d'un échantillon multidimensionnel aux données d'une petite dimension afin que "ils puissent les examiner", évaluer et utiliser, y compris pour atteindre des tâches de reconnaissance. Outre la visibilité, la réduction de la dimension vous permet de vous débarrasser des facteurs (informations) qui interfèrent avec une analyse statistique, prolongeant le temps de collecte d'informations, augmentant la dispersion des estimations des paramètres et des caractéristiques des distributions.

La réduction de la dimension est la transformation des données source avec une grande dimension dans une nouvelle représentation d'une dimension plus petite qui maintient des informations de base. Dans le cas idéal, la dimension de la représentation convertie correspond à la dimension interne des données. La dimension de données interne est le nombre minimum de variables requises pour exprimer toutes les propriétés de données possibles. Un modèle analytique, construit sur la base d'une réduction de données réduites, devrait être plus facile pour le traitement, la mise en œuvre et la compréhension que le modèle construit sur le jeu source.

La décision sur le choix de la méthode de réduction de dimension repose sur la connaissance des caractéristiques de la tâche résolue et des résultats attendus, ainsi que de la durée limitée et ressources de calcul. Selon des critiques littéraires, les méthodes de réduction des dimensions les plus couramment utilisées comprennent les analyses de composants principaux (PCA), les analyses de composants indépendants (ICA) et la décomposition de valeur singulière (SVD).

Analyse du composant principal (PCA) - la méthode la plus simple consistant à réduire la dimension des données. Il est largement utilisé pour convertir des signes tout en réduisant la dimension des données dans les tâches de classification. La méthode repose sur la projection de données à un nouveau système de coordonnées d'une dimension plus petite, qui est déterminée par ses propres vecteurs et le nombre propre de la matrice. Du point de vue des mathématiques, la méthode principale du composant est une transformation linéaire orthogonale.

L'idée principale de la méthode consiste à calculer les valeurs propres et les vecteurs propres de la matrice de covariance des données afin de minimiser la dispersion. La matrice de covariance est utilisée pour déterminer la dispersion par rapport à la moyenne par rapport à l'autre. Covariance de deux variables aléatoires (dimensions) - Mesure de leur dépendance linéaire:

où - l'attente mathématique de la valeur aléatoire de x, - l'attente mathématique de la variable aléatoire Y. Nous pouvons également écrire la formule (1) sous la forme:

où - la moyenne x, où - la moyenne y, n est la dimensionnalité des données.

Après avoir calculé ses propres vecteurs et leurs propres chiffres, leurs valeurs sont triées dans l'ordre décroissant. Ainsi, les composants sont obtenus afin de réduire la signification. Propre vecteur avec le plus grand nombre naturel et est le composant principal de l'ensemble de données. Les composants principaux sont obtenus en multipliant des rangées de ses propres vecteurs sur des valeurs propres triées. Pour trouver l'espace optimal d'une dimension plus petite, la formule (3) est utilisée, ce qui calcule l'erreur minimale entre le jeu source de données et le critère suivant:

lorsque P est la dimension du nouvel espace, n est la dimension de l'échantillon d'origine, - Eigenvalues, - seuil. Pendant le fonctionnement de l'algorithme, nous obtenons une matrice avec des données MP, converties linéairement de Mn, après quoi la PCA trouve une cartographie linéaire m, une fonction d'estimation minimaliste:

où - distance euclidienne entre points et, - distance euclidienne entre les points et ,, . Le minimum de cette fonction estimée peut être calculé en effectuant une décomposition spectrale de la matrice Gram et en multipliant son propre vecteur de cette matrice à la racine des valeurs propres correspondantes.

Analyse de composants indépendants ( I CA ) , Contrairement à la PCA, une nouvelle méthode de popularité suffisante mais gagnante rapidement. Il est basé sur l'idée d'une transformation de données linéaire en nouveaux composants, qui sont les plus indépendantes statistiquement et éventuellement orthogonales. Pour la recherche dans cet article, l'algorithme FASTICA a été sélectionné, décrit en détail dans l'article. Les tâches principales de cette méthode sont le centrage (soustraction de la moyenne des données) et «blanchiment» (conversion linéaire du vecteur x dans un vecteur avec des coordonnées non corrélées dont la dispersion est égale à une).

Le critère d'indépendance dans la FASTA est non-geasura, qui est mesuré à l'aide de l'excès de coefficient:

Pour les variables aléatoires gaussiennes, cette valeur est nulle. SO FASTIA optimise sa valeur. Si - des données "blanchies", la matrice de la covariance de données "blanchies" est une matrice unique.

Une telle transformation est toujours possible. La méthode populaire de "blanchiment" utilise la décomposition spectrale de la matrice de covariance , où - la matrice orthogonale de ses propres vecteurs, A est une matrice diagonale de nombres propres ,. Il s'avère que "blanchir" peut être représenté comme suit:

où la matrice est calculée par l'opération du pomoponent:

Expériences

Pour l'étude expérimentale des méthodes proposées, une séquence vidéo basée sur un dictionnaire de la base de données CASIA GAIT a été utilisée. La base contient les séquences d'images binaires correspondant à des cadres individuels de la séquence vidéo sur laquelle l'attribution d'objets en mouvement a déjà été faite.

De toutes les nombreuses vidéos, 15 classes ont été prises au hasard, dans lesquelles l'angle de tir est de 90 degrés, les personnes sont représentées dans des vêtements non hivernaux ordinaires et sans sacs. Dans chaque classe, il y avait 6 séquences. La longueur de chaque séquence était d'au moins 60 images. Les classes ont été divisées en des échantillons d'apprentissage et de test de 3 séquences chacune.

Les caractéristiques obtenues à la suite de méthodes PCA et ICA ont été utilisées pour étudier le classificateur, qui, dans le présent travail, a été les vecteurs de support (machines de vecteur de support, SVM).

Pour déterminer la qualité de la méthode de la méthode, la précision de la classification a été estimée, définie comme la proportion d'objets correctement classés. Au cours de l'expérience, le temps passé en mode de formation et de test a également été corrigé.

Figure 1. (a) Composant principal de la méthode (PCA) b) Méthode de composant indépendant (ICA)

La figure 1 (a, b) présente la relation de la précision de la classification de la valeur de la dimension de sortie des données après la conversion. On peut voir que dans la PCA, la précision de la classification avec une augmentation du nombre de composants varie légèrement et lors de l'utilisation de l'ICA, la précision à partir d'une certaine valeur, commence à tomber.

Figure 2. Dépendance du temps de classification sur le nombre de composants mais) Pca b) I CA

La figure 2 (A, B) présente la dépendance de la durée de classification sur le nombre de composants de la PCA et de l'ICA. La croissance de la dimension dans les deux cas était accompagnée d'une augmentation linéaire du temps de traitement. Les graphiques montrent que le classificateur SVM a fonctionné plus rapidement après la réduction de la dimension à l'aide de la méthode principale du composant (PCA).

Les méthodes d'analyse des composants principaux (PCA), des analyses de composants indépendants (ICA) ont fonctionné assez rapidement et avec certains paramètres Les résultats élevés ont été obtenus dans la tâche de classification. Mais avec des données avec une structure complexe, ces méthodes ne vous permettent pas toujours de réaliser le résultat souhaité. Donc B. dernièrement Les méthodes non linéaires locales sont de plus en plus payées à la projection de données sur une certaine variété, ce qui vous permet de conserver la structure de données.

À l'avenir, il est prévu d'élargir à la fois la liste des algorithmes utilisés pour former une description de fonctionnalité et une liste de méthodes de classification utilisées. Un autre domaine de recherche important semble réduire le temps de traitement.

Bibliographie:

  1. Jolliffe, I.T, analyse des composants principaux, Springer, 2002
  2. Hyvärinen et Erkki OJA, analyse des composants indépendants: algorithmes et applications, réseaux de neurones, 13, 2000
  3. Josiński, H. Fonction Extraction et Classification basée sur HMM des séquences vidéo de la démarche aux fins de l'identification humaine / Springer, 2013 - Vol 481.

Mots clés

Mathématiques / Les statistiques appliquées / Statistiques mathématiques / Points de croissance / Méthode de la composante principale / ANALYSE FACTORIELLE / Échelle multidimensionnelle / Évaluation de la dimension de données / Estimation de la dimension du modèle / Mathématiques / Statistiques appliquées / Statistiques mathématiques / Points de croissance / Analyse principale des composants / Analyse des facteurs / Échec multidimensionnelle / Estimation de la dimension de données / Estimation de la dimension modèle

annotation article scientifique en mathématiques, auteur de travaux scientifiques - Orlov Alexander Ivanovich, Lutsenko Evgeny Veniaminovich

Un des "points de croissance" les statistiques appliquées sont des méthodes pour réduire la dimension de l'espace des données statistiques. Ils sont de plus en plus utilisés pour analyser les données dans des études appliquées spécifiques, par exemple sociologiques. Considérez les méthodes les plus prometteuses de dimension réduite. Méthode de la composante principale C'est l'une des méthodes de dimension les plus couramment utilisées. Pour une analyse visuelle des données, les projections des vecteurs initiaux sur le plan des deux premiers composants principaux sont souvent utilisées. Habituellement, la structure de données est clairement visible, les grappes d'objets compacts et le vecteur libéré séparément sont distingués. Méthode de la composante principale est l'une des méthodes analyse factorielle. Nouvelle idée comparée à méthode de composants principaux C'est que sur la base de charges, les facteurs sont divisés en groupes. Dans un groupe, des facteurs sont combinés, ayant un effet similaire sur les éléments de la nouvelle base. Ensuite, de chaque groupe, il est recommandé de quitter un représentant. Parfois, au lieu de choisir un représentant, un nouveau facteur est formé, qui est central pour le groupe à l'étude. La réduction de la dimension se produit pendant la transition vers le système de facteurs représentant des groupes. Les facteurs restants sont jetés. Sur l'utilisation de distances (mesures de proximité, indicateurs de différences) entre les signes et la classe étendue de méthodes est basée Échelle multidimensionnelle. L'idée principale de cette méthode de méthodes est de représenter chaque objet du point d'espace géométrique (généralement dimension 1, 2 ou 3), dont les coordonnées servent de valeurs de facteurs cachés (latents), qui sont décrivant de manière adéquate l'objet. À titre d'exemple de l'application de la modélisation statistique probabiliste et des résultats des non-statinistes, nous justifions la consistance de la mesure de la dimension de l'espace de données dans Échelle multidimensionnelleprécédemment proposé par Colromal des considérations heuristiques. Considéré comme un certain nombre d'œuvres sur Évaluation des dimensions des modèles (en analyse de régression et dans la théorie de la classification). DANA Informations sur la réduction des algorithmes de la dimension dans une analyse automatisée-cognitive

Sujets similaires travaux scientifiques sur les mathématiques, auteur de travaux scientifiques - Orlov Alexander Ivanovich, Lutsenko Evgeny Veniaminovich

  • Méthodes mathématiques en sociologie depuis quarante cinq ans

  • Variété d'objets de non nature

  • Évaluation des paramètres: des estimations en une étape sont préférables aux estimations maximales de crédibilité

  • Statistiques appliquées - Statistiques et perspectives

    2016 / Orlov Alexander Ivanovich
  • Etat et perspectives de développement des statistiques appliquées et théoriques

    2016 / Orlov Alexander Ivanovich
  • La relation entre les théorèmes limites et la méthode de Monte Carlo

    2015 / Orlov Alexander Ivanovich
  • Sur le développement de statistiques d'objets non nature

    2013 / Orlov Alexander Ivanovich
  • Points de croissance des méthodes statistiques

    2014 / Orlov Alexander Ivanovich
  • Sur de nouveaux instruments mathématiques prometteurs de contrôle

    2015 / Orlov Alexander Ivanovich
  • Distances dans des espaces statistiques

    2014 / Orlov Alexander Ivanovich

L'un des "points de croissance" des statistiques appliquées est des méthodes de réduction de la dimension des données statistiques. Ils sont de plus en plus utilisés dans l'analyse des données dans des recherches appliquées spécifiques, telles que la sociologie. Nous étudions les méthodes les plus prometteuses pour réduire la dimensionnalité. Les composants principaux sont l'une des méthodes les plus couramment utilisées pour réduire la dimensionnalité. Pour une analyse visuelle des données, on utilise souvent les projections de vecteurs d'origine sur le plan des deux premiers composants principaux. USUALY La structure de données est clairement visible, mettant en évidence des maladrons compacts d'objets et des vecteurs séparément alloués. Les principaux composants sont une méthode d'analyse des facteurs. La nouvelle idée d'analyse des facteurs par rapport à la méthode de composants principaux est que, sur la base de charges, les facteurs se brisent en groupes. Dans un groupe de facteurs, le nouveau facteur est associé à un impact similaire sur les éléments de la nouvelle base. Ensuite, chaque groupe est recommandé de quitter un représentant. Parfois, au lieu du choix du représentant par calcul, un nouveau facteur central du groupe en question. La dimension réduite se produit pendant la transition vers les facteurs système, qui sont des représentants de groupes. Les facteurs OTER sont supprimés. Utilisation de la distance (mesures de proximité, indicateurs de différences) entre les caractéristiques et la classe étendue reposent sur des méthodes de mise à l'échelle multidimensionnelle. L'idée de base de cette classe de méthodes consiste à présenter chaque objet en tant que point de l'espace géométrique (généralement de dimension 1, 2 ou 3) dont les coordonnées sont les valeurs des facteurs cachés (latents) qui se combinent de manière adéquate. Décrire l'objet. À titre d'exemple de l'application de la modélisation probabiliste et statistique et les résultats des statistiques de données non numériques, nous justifions la cohérence des estimateurs de la dimension des données dans une échelle multidimensionnelle, qui sont proposées précédemment par Kruskal de considérations heuristiques. Nous avons examiné un certain nombre d'estimations cohérentes de la dimension des modèles (en analyse de régression et en théorie de la classification). Nous donnons également des informations sur les algorithmes pour réduire la dimensionnalité de l'analyse automatisée du système-cognitive.

Texte du travail scientifique sur la rubrique "Méthodes pour réduire la dimension de l'espace des données statistiques"

UDC 519.2: 005.521: 633.1: 004.8

01h00.00 Physique et mathématiques

Méthodes pour réduire la dimension de l'espace de données statistique

Orlov alexander Ivanovich

d.e.n., d.t.n., k.f.-m.n., professeur

Rinz Brosh Code: 4342-4994

Technique de l'État de Moscou

université. UN D Bauman, Russie, 105005,

Moscou, 2e Baumankaya St., 5, [Email protégé]t.

Lutsenko Evgeny Veniaminovich D.E.n.n., Ph.D., Professeur Rinz Brosh Code: 9523-7101 Université agraire de Kuban State, Krasnodar, Russie [Email protégé] Com.

L'un des "points de croissance" des statistiques des applications est des méthodes pour réduire la dimension de l'espace de données statistique. Ils sont de plus en plus utilisés pour analyser les données dans des études appliquées spécifiques, par exemple sociologiques. Considérez les méthodes les plus prometteuses de dimension réduite. La méthode principale du composant est l'une des méthodes de réduction de la dimension les plus couramment utilisées. Pour une analyse visuelle des données, les projections des vecteurs initiaux sur le plan des deux premiers composants principaux sont souvent utilisées. Habituellement, la structure de données est clairement visible, les grappes d'objets compacts et le vecteur libéré séparément sont distingués. La méthode principale du composant est l'une des méthodes d'analyse des facteurs. La nouvelle idée comparée à la méthode principale du composant est que sur la base de charges, les facteurs sont divisés en groupes. Dans un groupe, des facteurs sont combinés, ayant un effet similaire sur les éléments de la nouvelle base. Ensuite, de chaque groupe, il est recommandé de quitter un représentant. Parfois, au lieu de choisir un représentant, un nouveau facteur est formé, qui est central pour le groupe à l'étude. La réduction de la dimension se produit pendant la transition vers le système de facteurs représentant des groupes. Les facteurs restants sont jetés. Sur l'utilisation de distances (mesures de proximité, indicateurs de différences) entre les signes et la classe étendue de méthodes d'échelle multidimensionnelles est fondée. L'idée principale de cette classe de méthodes est de représenter chaque objet avec un point d'espace géométrique (généralement dimension 1, 2 ou 3), dont les coordonnées sont les valeurs de facteurs cachés (latents), dans l'agrégat , suffisamment décrit de manière adéquate

UDC 519.2: 005.521: 633.1: 004.8

Physique et sciences mathématiques

Méthodes de réduction de la dimension spatiale des données statistiques

Orlov alexander Ivanovich

Dr.sci.chon., Dr.sci.tech., Cand.phys-math.sci.,

Bauman Moscou State Technical University, Moscou, Russie

Lutsenko Eugeny Veniaminovitch dr.sci.con., Cand.tech.sci., Professeur RSCI Spin-Code: 9523-7101

Kuban State Agrial University, Krasnodar, Russie

[Email protégé] Com.

L'un des "points de croissance" des statistiques appliquées est des méthodes de réduction de la dimension des données statistiques. Ils sont de plus en plus utilisés dans l'analyse des données dans des recherches appliquées spécifiques, telles que la sociologie. Nous étudions les méthodes les plus prometteuses pour réduire la dimensionnalité. Les composants principaux sont l'une des méthodes les plus couramment utilisées pour réduire la dimensionnalité. Pour une analyse visuelle des données, on utilise souvent les projections de vecteurs d'origine sur le plan des deux premiers composants principaux. USUALY La structure de données est clairement visible, mettant en évidence des maladrons compacts d'objets et des vecteurs séparément alloués. Les principaux composants sont une méthode d'analyse des facteurs. La nouvelle idée d'analyse des facteurs par rapport à la méthode de composants principaux est que, sur la base de charges, les facteurs se brisent en groupes. Dans un groupe de facteurs, le nouveau facteur est associé à un impact similaire sur les éléments de la nouvelle base. Ensuite, chaque groupe est recommandé de quitter un représentant. Parfois, au lieu du choix du représentant par calcul, un nouveau facteur central du groupe en question. La dimension réduite se produit pendant la transition vers les facteurs système, qui sont des représentants de groupes. Les facteurs OTER sont supprimés. Utilisation de la distance (mesures de proximité, indicateurs de différences) entre les caractéristiques et la classe étendue reposent sur des méthodes de mise à l'échelle multidimensionnelle. L'idée de base de cette classe de méthodes consiste à présenter chaque objet en tant que point de l'espace géométrique (généralement de dimension 1, 2 ou 3) dont les coordonnées sont les valeurs des facteurs cachés (latents) qui se combinent de manière adéquate. Décrire l'objet. À titre d'exemple de l'application de la modélisation probabiliste et statistique et les résultats des statistiques de données non numériques, nous justifions la cohérence des estimateurs de la

un objet. À titre d'exemple de l'application de la modélisation statistique probabiliste et des résultats des statistiques non non statistiques, nous prenons la cohérence de la mesure de la dimension de l'espace de données dans la mise à l'échelle multidimensionnelle, proposée précédemment par les considérations heuristiques des considérations heuristiques. Un certain nombre de travaux sur l'évaluation des dimensions des modèles (en analyse de régression et dans la théorie de la classification) ont été examinés. DANA Informations sur la réduction des algorithmes de la dimension dans une analyse automatisée-cognitive

Mots-clés: statistiques mathématiques, statistiques mathématiques, points de croissance, méthode principale composante, analyse factorielle, échelle multidimensionnelle, estimation de la dimension de données, estimation de la dimension modèle

dimension des données dans la mise à l'échelle multidimensionnelle, qui sont proposées précédemment par Kruskal des considérations heuristiques. Nous avons examiné un certain nombre d'estimations cohérentes de la dimension des modèles (en analyse de régression et en théorie de la classification). Nous donnons également des informations sur les algorithmes pour réduire la dimensionnalité de l'analyse automatisée du système-cognitive.

Mots-clés: statistiques mathématiques, statistiques mathématiques, points de croissance, analyse principale des composants, analyse factorielle, échelle multidimensionnelle, estimation de la dimension de données, estimation de la dimension modèle

1. Introduction

Comme indiqué précédemment, l'un des "points de croissance" des statistiques de l'application est des méthodes de réduction de la dimension de l'espace de données statistique. Ils sont de plus en plus utilisés pour analyser les données dans des études appliquées spécifiques, par exemple sociologiques. Considérez les méthodes les plus prometteuses de dimension réduite. À titre d'exemple de l'application de la modélisation statistique probabiliste et des résultats des non-statistiques, nous justifions la cohérence de la taille de la taille de l'espace précédemment proposé par Colromic des considérations heuristiques.

Dans une analyse statistique multidimensionnelle, chaque objet est décrit par un vecteur, dont la dimension est arbitraire (mais la même pour tous les objets). Cependant, une personne ne peut percevoir directement que des données numériques ou des points sur l'avion. Analyser les accumulations de points dans l'espace tridimensionnel est déjà beaucoup plus difficile. La perception directe des données de la dimension supérieure est impossible. Par conséquent, assez naturel est le désir de passer d'un échantillon multidimensionnel aux données d'une petite dimension afin que "ils puissent

voir". Par exemple, un marketing peut clairement voir combien de types de comportement des consommateurs (c'est-à-dire combien il est conseillé d'allouer des segments de marché) et quelles propriétés sont (avec quelles propriétés) les consommateurs.

En plus du désir de clarté, il existe d'autres motifs pour réduire la dimension. Ces facteurs à partir desquels la variable est intéressée par le chercheur n'interfère pas seulement avec l'analyse statistique. Premièrement, les ressources financières, temporaires et du personnel sont consacrées à la collecte d'informations à leur sujet. Deuxièmement, comment prouver que leur inclusion dans l'analyse aggrave les propriétés des procédures statistiques (en particulier, augmente la dispersion des estimations des paramètres et caractéristiques des distributions). Par conséquent, il est souhaitable de se débarrasser de tels facteurs.

Lors de l'analyse de données multidimensionnelles, pas une, mais de nombreuses tâches, en particulier, en choisissant des variables indépendantes et dépendantes de différentes manières. Par conséquent, nous considérons le problème de la dimension réduite dans la formulation suivante. Échantillon multidimensionnel DANA. Il est nécessaire de se déplacer de celui-ci à la totalité des vecteurs d'une dimension plus petite, tout en enregistrant la structure des données source, si possible, sans perdre d'informations contenues dans les données. La tâche est spécifiée dans chaque méthode de dimension réduite.

2. Méthode de la composante principale

C'est l'une des méthodes de dimension les plus couramment utilisées. L'idée principale est compatible avec la détection des zones dans lesquelles les données ont la plus grande dispersion. Laissez l'échantillon consiste en des vecteurs également distribués avec le vecteur x \u003d (x (1), x (2), ..., x (n)). Pensez à des combinaisons linéaires

7 (^ (1), x (2) ,., L (n)) \u003d x (1) x (1) + x (2) x (2) + ... + L (n) x (n) .

X2 (1) + x2 (2) + ... + x2 (n) \u003d 1. Ici, vecteur x \u003d (x (1), x (2), ..., x (n)) réside dans l'unité Sphère dans l'espace p-dimensionnel.

Dans la méthode du composant principal, trouvez d'abord la direction de la dispersion maximale, c'est-à-dire Telle x, à laquelle la dispersion maximale d'une variable aléatoire est de 7 (x) \u003d 7 (x (1), x (2), ..., x (n)). Ensuite, le vecteur x définit le premier composant principal et la valeur de 7 (x) est la projection du vecteur aléatoire x sur l'axe du premier composant principal.

Ensuite, exprimant les termes d'algèbre linéaire, considérez l'hyperplan dans l'espace dimensionnel, perpendiculairement au premier composant principal et conçoit tous les éléments de l'échantillon sur cet hyperplan. La dimension de l'hyperplane est inférieure à la dimension de l'espace source.

Dans l'hyperplan à l'examen, la procédure est répétée. Il trouve la direction de la plus grande dispersion, c'est-à-dire Deuxième composant principal. Ensuite, l'hyperplan perpendiculaire aux deux premiers composants principaux est isolé. Sa dimension est 2 inférieure à la dimension de l'espace source. Suivant - la prochaine itération.

Du point de vue de l'algèbre linéaire, nous parlons de construire une nouvelle base dans un espace dimensionnel, dont les ith servent de composants principaux.

Dispersion correspondant à chaque nouveau composant principal, moins que pour le précédent. Habituellement, arrêtez-vous quand il est inférieur au seuil spécifié. S'il est sélectionné aux composants principaux, cela signifie que de l'espace de la dimension P, il a été possible d'aller à K-dimensionnel, c'est-à-dire. Réduisez la dimension avec P-à K, pratiquement sans déformer la structure des données source.

Pour une analyse visuelle des données, les projections des vecteurs initiaux sur le plan des deux premiers composants principaux sont souvent utilisées. D'habitude

la structure de données est clairement visible, des grappes d'objets compacts et un vecteur libéré séparément sont distingués.

3. Analyse des facteurs

La méthode principale du composant est l'une des méthodes d'analyse des facteurs. Divers algorithmes d'analyse des facteurs sont combinés par le fait que, dans tous, il existe une transition vers une nouvelle base dans l'espace initial N-dimensionnel. L'important est le concept de «charge factorielle» utilisé pour décrire le rôle du facteur source (variable) dans la formation d'un certain vecteur de la nouvelle base.

La nouvelle idée comparée à la méthode principale du composant est que sur la base de charges, les facteurs sont divisés en groupes. Dans un groupe, des facteurs sont combinés, ayant un effet similaire sur les éléments de la nouvelle base. Ensuite, de chaque groupe, il est recommandé de quitter un représentant. Parfois, au lieu de choisir un représentant, un nouveau facteur est formé, qui est central pour le groupe à l'étude. La réduction de la dimension se produit pendant la transition vers le système de facteurs représentant des groupes. Les facteurs restants sont jetés.

La procédure décrite peut être effectuée non seulement à l'aide de l'analyse des facteurs. Nous parlons d'une analyse de grappes de signes (facteurs, variables). Pour diviser les signes de groupes, divers algorithmes d'analyse de grappes peuvent être appliqués. Il suffit d'entrer la distance (mesure de la proximité, l'indicateur de différence) entre les signes. Soit X et Y être deux signes. La différence D (x, y) entre eux peut être mesurée à l'aide de coefficients de corrélation sélective:

di (x, y) \u003d 1 - \\ rn (x, y) \\, d2 (x, y) \u003d 1 - \\ pn (x, y) \\, où rn (x, y) est un coefficient de corrélation linéaire linéaire sélectif , Pn (x, y) est un coefficient sélectif de la corrélation de la rivière de la spirme.

4. Échelle multidimensionnelle.

Sur l'utilisation de distances (mesures de proximité, indicateurs de différences) D (x, y) entre les signes X et U, la classe étendue de méthodes d'échelle multidimensionnelles est basée. L'idée principale de cette méthode de méthodes est de représenter chaque objet du point d'espace géométrique (généralement dimension 1, 2 ou 3), dont les coordonnées servent de valeurs de facteurs cachés (latents), qui sont décrivant de manière adéquate l'objet. Dans le même temps, les relations entre les objets sont remplacées par des relations entre les points - leurs représentants. Donc, les données sur la similitude des objets - distances entre les points, les données sur la supériorité - l'emplacement mutuel des points.

5. Le problème de l'évaluation de la véritable dimension de l'espace facteur

Dans la pratique d'analyser les données sociologiques utilisées différents modèles Échelle multidimensionnelle. Dans tous, le problème de l'évaluation de la véritable dimension de l'espace facteur. Considérez ce problème sur l'exemple de traitement des données sur la similitude d'objets à l'aide de la mise à l'échelle métrique.

Soit là y avoir n objets 0 (1), O (2), ..., O (n), pour chaque paire d'objets 0 (/), O (j), la mesure de leur similarité S (IJ) est donnée . Nous croyons que toujours s (i, j) \u003d s (j, i). L'origine du numéro S (IJ) n'a pas d'importance de décrire le fonctionnement de l'algorithme. Ils pourraient être obtenus soit par mesure directe, soit en utilisant des experts, soit en calculant la combinaison de caractéristiques descriptives, ou d'une manière ou d'une autre autrement.

Dans l'espace euclidien, les N objets à l'étude doivent être représentés par la configuration de n points, et la distance euclidienne D (i, j) apparaît comme la mesure de la proximité des points-représentants

entre les points correspondants. Le degré de conformité entre l'ensemble d'objets et la combinaison de leurs points est déterminé en comparant les matrices de similarité || i (,) || et distances de la fonctionnalité SM-métrique des similitudes

i \u003d £ | * (/,]) - th (/, m

La configuration géométrique doit être sélectionnée de manière à ce que les fonctionnalités ont atteint sa plus grande valeur.

Commenter. Dans la mise à l'échelle non éthénétique, au lieu de la proximité de la proximité et des distances elles-mêmes, la proximité des ordres de commande sur l'ensemble des mesures de proximité et l'ensemble des distances correspondantes est considérée. Au lieu de la fonctionnalité S, les analogues des coefficients de rang de la corrélation de l'Esprit et de Kendalla sont utilisés. En d'autres termes, la mise à l'échelle non métrique provient de l'hypothèse selon laquelle les mesures de proximité sont mesurées à l'échelle ordinale.

Laissez l'espace euclidieny être dimension t. Considérez au moins l'erreur du milieu carré

lorsque le minimum est pris dans toutes les configurations possibles de points dans l'espace E-Merne Euclidien. Il peut être montré que le minimum en question est atteint sur une certaine configuration. Il est clair qu'avec la croissance de T, la valeur de la diminution monotone (plus précisément, cela n'augmente pas). Il peut être montré qu'à T\u003e P-1, il est égal à 0 (si - métrique). Pour augmenter les possibilités d'interprétation significative, il est souhaitable d'agir dans l'espace possible moins de dimension. Dans le même temps, toutefois, la dimension doit être choisie de manière à ce que les points représentent des objets sans grande distorsion. La question se pose: comment choisir de manière rationnelle la dimension de l'espace, c'est-à-dire Nombre naturel T?

6. Modèles et méthodes d'estimation de la dimension de l'espace de données

Dans le cadre de l'analyse déterministe des données d'une réponse raisonnable à cette question, apparemment pas. Par conséquent, il est nécessaire d'étudier le comportement de SM dans certains modèles probabilistes. Si la proximité de S (IJ) est des valeurs aléatoires, la distribution dépend de la "vraie dimension" M0 (et éventuellement de tout autre paramètre), puis dans le style classique mathématique-statistique, pour définir la tâche d'estimation M0, à Rechercher des évaluations riches et etc.

Commençons à construire des modèles probabilistes. Nous supposerons que les objets sont des points dans l'espace euclidien de dimension, où assez grand. Le fait que la "vraie dimension" soit égale à M0, signifie que tous ces points se trouvent sur l'hyperplan de la dimension M0. Nous acceptons de certitude que l'ensemble des points à l'étude est un échantillon de distribution normale circulaire avec dispersion o (0). Cela signifie que les objets 0 (1), 0 (2), ..., O (n) sont indépendants dans l'agrégat de vecteurs aléatoires, chacun d'eux étant construit comme

Z (1) E (1) + Z (2) E (2) + ... + Z (M0) E (M0), où E (1), E (2), ..., E (M0) - base ortonormale dans le sous-espace de la dimension M0, dans laquelle les points considérés à l'étude et z (1), z (2), z (m0) sont indépendants dans les variables aléatoires normales globales d'une dimension mathématique 0 et dispersion o (0).

Considérez deux modèles d'obtention de la proximité S (IJ). Dans la première de celles-ci, S (IJ) diffèrent de la distance euclidienne entre les points correspondants en raison du fait que des points sont connus de distorsion. Soit avec (1), avec (2), ..., c (n) - les points à l'étude. Puis

s (i, j) \u003d d (c (i) + e (i), c (j) + s (/)), ij \u003d 1, 2, ..., n, n,

où y est la distance euclidienne entre les points de l'espace de mesure, le vecteur E (1), E (2), ..., E (p) est un échantillon d'une distribution circulaire normale d'un espace de mesure avec une attente mathématique nulle et une matrice de covariance sur (1) /, où i-a-éditite matrice. Autrement dit,

e (0 \u003d p (1) E (1) + p (2) E (2) + ... + c (k) dans (k), où e (1), e (2), ... E (k) - base orthonormale dans un espace de mesure et [c ^^), i \u003d 1, 2, ..., p,? \u003d 1, 2, ..., k) est un ensemble de indépendants dans l'ensemble des variables aléatoires unidimensionnelles avec une attente mathématique nulle et une dispersion de O (1).

Dans le deuxième modèle de distorsion est imposé directement aux distances elles-mêmes:

Kch) \u003d TH (f \\ s)) + £ (euh et \u003d 1, 2., n, je f j,

où et et sur le premier intervalle, il diminue plus rapidement que sur la seconde. D'ici il s'ensuit que les statistiques

m * \u003d Arg Minam + 1 - 2ème jour + an-x)

c'est une évaluation riche de la vraie dimension M0.

Donc, de la théorie probabiliste implique la recommandation - comme une estimation de la dimension de l'espace factoriel à utiliser T *. Notez qu'une telle recommandation a été formulée comme heuristique l'un des fondateurs de l'échelle multidimensionnelle de J. Kraskal. Il a procédé de l'expérience de l'utilisation pratique des expériences de mise à l'échelle et de calcul multidimensionnelles. La théorie probabiliste a permis de justifier cette recommandation heuristique.

7. Évaluation de la dimension du modèle

Si des sous-ensembles possibles des signes forment une famille en expansion, par exemple, le degré de polynôme est estimé, il est naturel d'introduire le terme "dimension de modèle" (ce concept est largement similaire à la dimension de l'espace de données en échelle multidimensionnelle). L'auteur de cet article a un certain nombre de travaux sur l'évaluation de la dimension du modèle, qu'il est conseillé de comparer avec les travaux sur l'estimation de la dimension de l'espace de données, discuté ci-dessus.

Le premier travail de ce type a été réalisé par l'auteur de cet article lors d'un voyage en France en 1976. Une évaluation de la dimension du modèle en régression a été étudiée, à savoir une évaluation du degré de polynôme sous l'hypothèse selon laquelle la dépendance est décrit par le polynôme. Cette estimation était connue dans la littérature, mais elle est devenue plus tardée à attribuer à l'auteur de cet article, qui a notamment étudié ses propriétés, en particulier, que ce n'est pas riche et a trouvé sa distribution géométrique limite. D'autres, des estimations déjà riches de la dimension du modèle de régression ont été proposées et étudiées dans l'article. Ce cycle a terminé les travaux contenant un certain nombre de raffinements.

La publication extrême sur ce sujet comprend une discussion sur les résultats de l'étude de la vitesse de convergence dans les théorèmes limites obtenus par Monte Carlo.

Semblable à la méthodologie d'estimation de la dimension du modèle dans le problème des mélanges de scission (une partie de la théorie de la classification) sont considérées dans l'article.

Les estimations ci-dessus de la dimension du modèle dans la mise à l'échelle multidimensionnelle sont étudiées dans les travaux. Dans les mêmes travaux, le comportement limite des caractéristiques de la méthode des composants principaux (en utilisant la théorie asymptotique du comportement des décisions des problèmes statistiques extrêmes).

8. Algorithmes de réduction de la dimension dans une analyse automatisée cognitive

L'analyse automatisée système-cognitive (analyse ASC) est également proposée dans le système EIDOS, une autre méthode de dimension réduite est mise en œuvre. Il est décrit dans le travail dans les sections 4.2 "Description des algorithmes d'opérations cognitives de base de l'analyse système (BKOS)" et de 4,3 "algorithmes détaillés BKOS (analyse)". Donnons une brève description de deux algorithmes - BKOS-4.1 et BKOS-4.2.

Bkosa-4.1. "L'abstraction de facteurs (réduisant la dimension de l'espace sémantique des facteurs)"

En utilisant la méthode d'approximations consécutives (algorithme itératif), dans une limite donnée, la dimension de l'espace d'attribut est réduite sans une diminution significative de son volume. Le critère d'arrêt du processus itératif est d'atteindre l'une des conditions limites.

BKOS-4.2. "Abstraction de classes (diminution de la dimension de l'espace sémantique des classes)"

En utilisant la méthode d'approximations consécutives (algorithme itératif), dans des conditions limites spécifiées, la taille de l'espace des classes est réduite sans une réduction significative de son volume. Le critère d'arrêt du processus itératif est d'atteindre l'une des conditions limites.

Voici tous les vrais algorithmes mis en œuvre dans le système EIDOS de la version mis en œuvre au moment de la préparation du travail (2002): http: //lc.kubagro .ru / aidos / aidos02 / 4.3 .htm

L'essence des algorithmes est la suivante.

1. La quantité d'informations est calculée dans les valeurs de la transition d'objet vers l'état correspondant aux classes.

2. Calcule la valeur de la valeur du facteur pour la différenciation de l'objet par des classes. Cette valeur est simplement la variabilité des informations des valeurs des facteurs (mesures quantitatives de la variabilité: la déviation moyenne de la moyenne, de la déviation quadratique moyenne, etc.). En d'autres termes, si dans la valeur du facteur en moyenne, il y a peu d'informations sur l'appartenance et n'appartenant pas à l'objet à la classe, cette valeur n'est pas très précieuse, et si beaucoup est précieux.

3. Calcule la valeur des échelles descriptives pour la différenciation des objets par des classes. Dans les travaux d'E.v. Lutsenko est maintenant fait en moyenne des valeurs de gradations de cette échelle.

4. Ensuite, l'optimisation de la passe des valeurs des facteurs et des échelles descriptives est effectuée:

Les valeurs des facteurs (gradations de la mise à l'échelle descriptive) sont classées dans l'ordre de la valeur décroissante et sont retirées du modèle le moins utiles, qui vont à droite de la courbe pareto de 45 °;

Les facteurs (balances descriptives) sont classés dans l'ordre de valeur décroissant et sont retirés du modèle du moins utile, qui se rend à droite de 45 ° la courbe pass.

En conséquence, la dimension de l'espace construit sur les échelles descriptives est considérablement réduite en éliminant les échelles de corrélation entre elles, c'est-à-dire. En substance, il s'agit d'un espace d'orthonormaling dans une métrique d'informations.

Ce processus peut être répété, c'est-à-dire être itératif en même temps nouvelle version Le système "EIDOS" est démarré manuellement.

De même, l'espace d'information des classes est omis.

L'échelle et les gradations peuvent être numériques (les valeurs d'intervalle sont ensuite traitées) et peuvent également être du texte (ordinal ou même nominal).

Ainsi, avec l'aide d'algorithmes BKOS (Posez une analyse), la dimension de l'espace est réduite de manière maximale avec la perte minimale d'informations.

Pour analyser des données statistiques dans des statistiques appliquées, un certain nombre d'autres algorithmes de réduction de la dimension ont été développés. Les tâches de cet article n'incluent pas une description de l'ensemble des variétés de tels algorithmes.

Littérature

1. Orlov A.i. Points de croissance des méthodes statistiques // Network polygraphe Journal scientifique électronique de l'Université agraire de l'État de Kuban. 2014. N ° 103. P. 136-162.

2. Peinture J. Relation entre analyse multidimensionnelle et analyse de grappes // classification et cluster. M.: MIR, 1980. C.20-41.

4. Analyse du facteur moderne Harman G.. M.: Statistiques, 1972. 489 p.

5. ORLOV A.I. Notes sur la théorie de la classification. / Sociologie: méthodologie, méthodes, modèles mathématiques. 1991. No. 2. C.28-50.

6. Orlov A.i. Résultats de base de la théorie mathématique de la classification // Journal scientifique électronique de réseau polymatique de l'Université agraire de l'État de Kuban. 2015. № 110. P. 219-239.

7. Orlov A.i. Méthodes mathématiques de la théorie de la classification // Journal scientifique électronique de réseau polymatique de l'Université agraire de l'État de Kuban. 2014. No 95. P. 23 - 45.

8. Terekhina a.yu. Analyse de ces méthodes d'échelle multidimensionnelle. -M.: Science, 1986. 168 p.

9. Perekrest V. T. Analyse typologique non linéaire des informations socio-économiques: méthodes mathématiques et informatiques. - L.: Science, 1983. 176 p.

10. Tyurin Yu.n.n., Litvak B.G., Orlov A.i., Satarov G.A., Smerling D.S.S. Analyse des informations non invalides. M.: Conseil scientifique de l'Académie des sciences de l'URSS sur le problème complexe "Cybernétique", 1981. - 80 s.

11. Orlov A.i. Une vision générale des statistiques des objets non-nature // analyse des informations non-informations dans des études sociologiques. - M.: Science, 1985. S.58-92.

12. Orlov A.i. La distribution limite d'une estimation du nombre de fonctions de base dans la régression // a appliqué une analyse statistique multidimensionnelle appliquée. Scientifiques sur les statistiques, T.33. - M.: Science, 1978. p.380-381.

13. Orlov A.i. Évaluation de la dimension du modèle dans la régression // algorithmique et logiciels d'analyse statistique appliquée. Scientifs pour la statistique, T.36. - M .: Science, 1980. P.92-99.

14. Orlov A.i. Asymptotiques de certaines estimations de la dimension du modèle dans la régression // Statistiques appliquées. Scientifs pour la statistique, T.35. - M.: Science, 1983. p.260-265.

15. Orlov A.i. Sur l'évaluation du laboratoire de régression polynomial // usine. Diagnostic des matériaux. 1994. T.60. № 5. p.43-47.

16. Orlov A.i. Quelques questions de la théorie de la classification probabiliste // statistiques appliquées. Scientifs pour la statistique, T.35. - M.: Science, 1983. C.166-179.

17. Orlov A.i. Sur le développement des statistiques d'objets nonnumériques // conception d'expériences et d'analyse des données: nouvelles tendances et résultats. - M .: Antal, 1993. R.52-90.

18. Orlov A.i. Méthodes de réduction de la dimension // Annexe 1 du livre: Tolstova Yu.n. Principes de base de l'échelle multidimensionnelle: tutoriel pour les universités. - M.: Publisher CDU, 2006. - 160 p.

19. Orlov A.i. Asymptotiques des problèmes statistiques extrêmes // Analyse des données non numériques dans les études système. Collection de travaux. Vol. 10. - M.: Institut de recherche de l'Union de recherche du système, 1982. P. 412.

20. Orlov A.i. Modélisation organisationnelle et économique: tutoriel: en 3 heures. Partie 1: Statistiques non-actions. - M.: Maison d'édition MSTU. UN D Bauman. - 2009. - 541 p.

21. Lutsenko E.v. Analyse automatisée des systèmes cognitifs dans la gestion des objets actifs (théorie du système des informations et son application dans l'étude des systèmes économiques, socio-psychologiques, technologiques et organisationnels et techniques): monographie (publication scientifique). -Srasnodar: Kubgu. 2002. - 605 p. http://elibrary.ru/item.asp?id\u003d18632909.

1. Orlov A.i. TOCHKI ROSTA StatisticheskiH METODOV // POLITEMATICHESKIJ SETEVOJ JELEKTRONNYJ NAUCHNYJ ZHURNAL KUBANSKOGO GOSUDARSTVENNOGO AGRAARNOGO Universita. 2014. № 103. S. 136-162.

2. Krakal DZH. VZAIMOSVJAZ "Mezhdu mnogomernym shkalirovaniem i klaster-analizom // klasifikacija i klaster. M.: MIR, 1980. S.20-41.

3. KRUSKAL J.B., souhait M. Mulidimensionnel Structure // Sauge University Paper Series: Applications qualitatives dans les Sciences sociales. 1978. №11.

4. Harman G. Sovremennyj Faktornyj Analiz. M.: Statistika, 1972. 489 s.

5. ORLOV A.I. Zametki po teorii klasifikacii. / Sociologija: Metodologija, Métadody, Matematichecheskie Modeli. 1991. N ° 2.28-250.

6. Orlov A.i. Bazovye Rezul "Taty Matematicheskoj Teorii Klasifikii // Politematiocheeskii Seevoj Jelektronnnyj Nauchnyj Zhurnal Kubanskogo Gosudarstvennogo Agrarnogo Universitéta. 2015. № 110. S. 219-239.

7. Orlov A.i. MATEMATICHESKIE METODY TEORII KLASSIFIKACIII // POLITEMATICHESKIJ SETEVOJ JELEKTRONNYJ NAUCHNYJ ZHURNAL KUBANSKOGO GOSUDARSTVENNOGO AGANNOGO UNIVERSITA. 2014. № 95. S. 23 - 45.

8. Terehina A.ju. Analiz Dannyh Meodami Mnogomernogo Shkalirovanija. - M.: Nauka, 1986. 168 s.

9. Perekrest V.t. NelineJnyj Tipologuéeskij Social "No-Jekonomicheskoj Informacii: Matematicheskie I Vychislitel" Nye Metody. - L.: Nauka, 1983. 176 s.

10. Tjurin ju.n., Litvak B.G., Orlov A.i., Satarov G.A., Shmerling D.S.S. Analiz Nechlislovoj informacii. M.: Nauchnyj Sovet Un SSSR PO KOMPLEKSNOJ Problème "Kibernetika", 1981. - 80 s.

11. Orlov A.i. ObshHIJJ VZGLJAD NA Statistiku OB # Ektov Nechlislovoj Prirody // Analiz Nechlislovoj Informacii V Sociologicheskih Issledovanija. - M.: Nauka, 1985. S.58-92.

12. Orlov A.i. PREDEL "NOE RASPREDLENIE ODNOJ OCENKI FUNKA BAZISNYH FUNKCIJ V REGRESSII // PRIKLADNOJ MNOGOMERNYJ STATISTICHESKIJ ANALIZ. UCHENYE ZAPISKI PO Statistique, T.33. - M.: Nauka, 1978. S.380-381.

13. Orlov A.i. Ocenka Razmernosti Modeli v Regressii // AlgoritMicheskoe i Programmnoe Obespechnie Prikladnogo Statisticheskogo Analiza. Uchenye Zapiski Po Statistiqueike, T.36. - M.: Nauka, 1980. S.92-99.

14. Orlov A.i. ASIMPTOTIKA NEKOTORYH OCENOK RAZMERNOSTI MODERLI V REGRESSII // PRIKLADNAJA Statistika. Uchenye Zapiski Po Statististeike, T.45. - M.: Nauka, 1983. S.260-265.

15. Orlov A.i. OB OCENIVANII REGRESSERNOGO POLINOMA // Zavodskaja Laboratorija. Diagnostika Matérialov. 1994. T.60. № 5. S.43-47.

16. Orlov A.i. Nekotorye Verojatnostye Voprosy Teorii Klasifikacii // Prikladnaja Statistika. Uchenye Zapiski Po Statististeike, T.45. - M.: Nauka, 1983. S.166-179.

17. Orlov A.i. Sur le développement des statistiques d'objets nonnumériques // conception d'expériences et d'analyse des données: nouvelles tendances et résultats. - M .: Antal, 1993. R.52-90.

18. Orlov A.i. Métady Snizhenija Razmernosti // Prilozhenie 1 K Knige: Tolstova Ju.n. Osnovy Mnogomernogo Shkalirovanija: Uchebnoe Posobie Dlja Vuzov. - M.: Izdatel "STVO KDU, 2006. - 160 s.

19. Orlov A.i. ASIMPTOTIKA RESHENIJ JEKSTREMAL "NYH Statisticheskih Zadach // Analiz Nechlislovyh Dannyh v Sistemnyh Sistemnyh Sistemnyh Sistemnyh Sistemnyh Sistemnyk Trudov VPP.10 -... M.: Vasojuznyj Nauchno-Isslevatel" Skij Institut Sistemnyh Issledovanij, 1982. S. 4-12.

20. Orlov A.i. Organizacionno-Jekonomicheskoe Modelirovanie: UCHEBNIK: V 3 CH. Chasts "1: NechliSlovaja Statistika. - M.: IZD-VO MGTU IM. N.JE. BAUMANA. - 2009. - 541 s.

21. Lucenko E.V. Avtomatizirovannyj sistemno-kognitivnyj analiz v upravlenii aktivnymi ob # ektami (sistemnaja teorija informácií i ee primenenie v issledovanii jekonomicheskih, sociale « non-psihologicheskih, tehnologicheskih i-organizacionno tehnicheskih sistem): Monografija (Nauchnoe izdanie) - Krasnodar :. KubGAU 2002. -. 605 s. Http://elibrary.ru/item.asp?id\u003d18632909

À la suite de l'étude du matériel du chapitre 5, l'étudiant doit:

connaître

  • Concepts de base et tâches de la dimension inférieure:
  • Approches pour résoudre le problème de la transformation de l'espace des fonctionnalités;

être capable de

  • Utilisez la méthode du composant principal pour la transition vers des caractéristiques orthogonales normalisées;
  • évaluer la réduction des données informatives lorsqu'une diminution de la dimension de l'espace de fonctionnalité;
  • résoudre le problème de la construction d'échelles multidimensionnelles optimales pour la recherche d'objets;

propre

  • méthodes pour réduire la dimension pour résoudre les tâches appliquées d'analyse statistique;
  • Compétences d'interprétation des variables dans un signe de signalisation transformé.

Concepts de base et tâches de dimension inférieure

À première vue, plus d'informations sur les objets de l'étude sous la forme d'un ensemble de caractères caractérisant leurs panneaux seront utilisés pour créer un modèle, mieux c'est. Cependant, une quantité excessive d'informations peut entraîner une diminution de l'efficacité de l'analyse des données. Il y a même le terme "malédiction de dimension" Malédiction de la dimensionnalité), caractérisant les problèmes de travail avec des données hautement producteurs. Avec la nécessité de réduire la dimension sous une forme ou une autre, la solution est associée à divers problèmes statistiques.

Les caractéristiques non informatives constituent une source de bruit supplémentaire et affectent la précision de l'évaluation des paramètres de modèle. De plus, des ensembles de données avec un grand nombre de fonctionnalités peuvent contenir des groupes de variables corrélées. La présence de tels signes de signes signifie une duplication des informations pouvant déformer la spécification du modèle et affecter la qualité de ses paramètres. Plus la dimension des données est élevée, plus le volume des calculs est élevé lors de leur traitement algorithmique.

Deux directions peuvent être distinguées dans la réduction de la dimension de l'espace de fonctionnalité sur le principe des variables utilisées pour cela: sélection de signes de la source existante et la formation de nouvelles fonctionnalités en transformant les données initiales. Dans le cas idéal, la représentation abrégée des données doit avoir une dimension correspondant à la dimension, aux données inhérentes à l'interne. Dimensionnalité intrinsèque.

La recherche des caractéristiques les plus informatives caractérisant le phénomène étudié est une direction évidente consistant à réduire la dimension du problème qui ne nécessite pas la transformation des variables de source. Cela vous permet de faire un modèle plus compact et d'éviter les pertes associées à l'effet interférant des caractéristiques peu informatives. La sélection des fonctionnalités informatives est de trouver le meilleur sous-ensemble de nombreuses variables sources. Les critères du concept de "meilleur" peuvent servir ou le plus haute qualité Simulation avec une dimension donnée de l'espace de fonctionnalité ou la plus petite dimension des données auquel il est possible de construire un modèle de la qualité spécifiée.

Une solution directe à la tâche de créer le meilleur modèle est associée au buste de toutes les combinaisons possibles des signes, qui est généralement une laborieuse excessivement laborieuse. Par conséquent, en règle générale, ils ont recours à la sélection directe ou inverse des signes de signes. Dans les procédures de sélection directe, un ajout séquentiel de variables à partir de l'ensemble d'origine est effectué pour obtenir la qualité souhaitée du modèle. Dans les algorithmes de la réduction constante de l'espace caractéristique d'origine (sélection inverse), il existe une suppression progressive des variables les moins informatives à la réduction admissible du contenu de l'information du modèle.

Il convient de garder à l'esprit que l'informaticité des signes est relatif. La sélection devrait assurer une meilleure informativement de l'ensemble des fonctionnalités et non le total informatif des composants de ses variables. Ainsi, la présence de corrélation entre les signes réduit leur état de l'information en raison de la duplication des informations communes. Par conséquent, l'ajout d'une nouvelle fonctionnalité à la sélection déjà sélectionnée assure une augmentation de l'informatique dans la mesure où elle contient informations utilesAbréparation dans les variables précédemment sélectionnées. Le plus simple est la situation de la sélection de signes orthogonaux mutuellement, dans lesquels l'algorithme de sélection est très simple: les variables sont classées sur l'informativement et la composition des premiers signes de ce classement est utilisée, ce qui garantit une informatique spécifiée.

La méthode limitée de méthodes de sélection afin de réduire la dimension de l'espace est associée à l'hypothèse de la présence immédiate des signes nécessaires dans les données source, qui est généralement incorrecte. Une approche alternative de la réduction de la dimension prévoit la conversion des caractéristiques dans un ensemble réduit de nouvelles variables. Contrairement à la sélection des signes originaux, la formation d'un nouvel espace de fonctionnalités implique la création de nouvelles variables, qui sont généralement des fonctions de signes de source. Ces variables directement observées sont souvent appelées cachées, ou latent. En cours de création, ces variables peuvent être dotées de diverses propriétés utiles, telles que l'orthogonalité. En pratique, les panneaux initiaux sont généralement liés à la transformation de leur espace vers orthogonal génèrent de nouvelles coordonnées, dans lesquelles il n'y a aucun effet de duplication des informations sur les objets étudiés.

L'affichage des objets dans un nouvel espace de fonctionnement orthogonal crée la possibilité de présenter visuellement l'utilité de chacun des signes du point de vue des différences entre ces objets. Si les coordonnées de la nouvelle base sont organisées par dispersion caractérisant la gamme de valeurs sur eux pour les observations considérées, il devient une impossibilité évidente d'un point de vue pratique de certaines caractéristiques avec de petites variables, car les objets de ces caractéristiques sont pratiquement indiscernables par rapport à leurs différences sur des variables plus informatives. Dans une telle situation, nous pouvons parler de la soi-disant dégénérescence de l'espace de fonctionnalité initial de k. variables et la dimension réelle de cet espace t. peut être moins source (m< k.).

La réduction de l'espace caractéristique est accompagnée d'une certaine diminution des informations de données, mais le niveau de réduction admissible peut être déterminé à l'avance. La sélection des fonctionnalités prévoit un ensemble de variables de source dans un espace de dimension plus petit. La compression de l'espace caractéristique à deux-trois dimensions peut être utile pour la visualisation des données. Ainsi, le processus de formation d'un nouvel espace de fonctionnalités conduit généralement à un ensemble plus petit de variables vraiment informatives. Sur leur base, un meilleur modèle peut être construit comme basé sur un nombre plus petit des caractéristiques les plus informatives.

La formation de nouvelles variables basées sur la source est utilisée pour une analyse sémantique latente, une compression de données, une classification et une reconnaissance des images, d'augmenter la vitesse et l'efficacité des processus d'apprentissage. Les données comprimées sont généralement appliquées à une analyse et de modélisation ultérieures.

L'une des applications importantes de transformation de l'espace de fonctionnalité et de réduire la dimension consiste à construire des catégories latentes synthétiques en fonction des signes mesurés de signes. Ces signes latents peuvent caractériser les caractéristiques spécifiques générales du phénomène qui intègrent les propriétés privées des objets observés, ce qui nous permet de créer des indicateurs intégrés de différents niveaux de généralisation d'informations.

Le rôle des méthodes de réduction de l'espace de fonctionnalités dans l'étude du problème de la duplication des informations dans les panneaux initiaux, ce qui entraîne le "gonflement" de la dispersion des estimations des coefficients de modèles de régression, est essentiel. Transition vers un nouveau cas idéal orthogonal et interprétable significatif et significatif, les variables sont outil efficace Modélisation dans les conditions de la multicollinearité des données source.

La transformation de l'espace de fonctionnalité initial en orthogonal est pratique pour résoudre les tâches de classification, car elle permet d'appliquer raisonnablement certaines mesures de proximité ou de différences d'objets, telles que la distance euclidienne ou le carré de la distance euclidienne. En analyse de régression, la construction de l'équation de régression sur les composants principaux permet de résoudre le problème de la multicollinéaire.



Avez-vous aimé l'article? Partagez-le