Contacts

Spearman et Kendall classent les corrélations. Kendall et Spearman classent les coefficients de corrélation. Découvrez ce qu’est le « coefficient de corrélation de rang Kendall » dans d’autres dictionnaires

Le coefficient de corrélation de Kendall est utilisé lorsque les variables sont représentées sur deux échelles ordinales, à condition qu'il n'y ait pas de rangs associés. Le calcul du coefficient de Kendall consiste à compter le nombre de correspondances et d'inversions. Considérons cette procédure en utilisant l'exemple du problème précédent.

L'algorithme pour résoudre le problème est le suivant :

    Nous réorganisons les données dans le tableau. 8.5 pour qu'une des lignes (dans ce cas la ligne X i) s'est avéré être classé. Autrement dit, on réorganise les paires X Et oui dans le bon ordre et Nous saisissons les données dans les colonnes 1 et 2 du tableau. 8.6.

Tableau 8.6

X je

oui je

2. Déterminez le « degré de classement » de la 2ème rangée ( oui je). Cette procédure s'effectue dans l'ordre suivant :

a) prendre la première valeur de la série non classée « 3 ». Compter le nombre de rangs ci-dessous numéro donné, qui plus valeur comparée. Il existe 9 valeurs de ce type (numéros 6, 7, 4, 9, 5, 11, 8, 12 et 10). Entrez le chiffre 9 dans la colonne « correspondances ». Ensuite on compte le nombre de valeurs qui moins trois. Il existe 2 valeurs de ce type (rangs 1 et 2) ; On rentre le chiffre 2 dans la colonne « inversion ».

b) écartez le chiffre 3 (nous avons déjà travaillé avec) et répétez la procédure pour la valeur suivante « 6 » : le nombre de correspondances est 6 (rangs 7, 9, 11, 8, 12 et 10), le nombre de les inversions sont de 4 (rangs 1, 2, 4 et 5). On rentre le chiffre 6 dans la colonne « coïncidence », et le chiffre 4 dans la colonne « inversion ».

c) la procédure est répétée de la même manière jusqu'à la fin du rang ; il ne faut pas oublier que chaque valeur « calculée » est exclue d'un examen ultérieur (seuls les rangs inférieurs à ce nombre sont calculés).

Note

Afin de ne pas commettre d'erreurs de calcul, il faut garder à l'esprit qu'à chaque « pas » la somme des coïncidences et des inversions diminue de un ; Cela est compréhensible étant donné qu’à chaque fois une valeur est exclue de la prise en compte.

3. La somme des correspondances est calculée (R) et la somme des inversions (Q); les données sont saisies dans une et trois formules interchangeables pour le coefficient de Kendall (8.10). Les calculs correspondants sont effectués.

t (8.10)

Dans notre cas:

Dans le tableau L'annexe XIV contient les valeurs critiques du coefficient pour cet échantillon : τ cr. = 0,45 ; 0,59. La valeur obtenue empiriquement est comparée à celle tabulée.

Conclusion

τ = 0,55 > τ cr. = 0,45. La corrélation est statistiquement significative au niveau 1.

Note:

Si nécessaire (par exemple s'il n'existe pas de tableau de valeurs critiques), signification statistique t Kendall peut être déterminé par la formule suivante :

(8.11)

S* = P-Q+ 1 si P.< Q , Et S* = P – Q – 1 si P>Q.

Valeurs z pour le niveau de signification correspondant correspondent à la mesure de Pearson et se trouvent dans les tableaux correspondants (non inclus en annexe. Pour les niveaux de signification standards z kr = 1,96 (pour β 1 = 0,95) et 2,58 (pour β 2 = 0,99). Le coefficient de corrélation de Kendall est statistiquement significatif si z > z cr

Dans notre cas S* = P-Q– 1 = 35 et z= 2,40, c'est-à-dire que la conclusion initiale est confirmée : la corrélation entre les caractéristiques est statistiquement significative pour le 1er niveau de signification.

Il est utilisé pour identifier la relation entre des indicateurs quantitatifs ou qualitatifs, s'ils peuvent être classés. Les valeurs de l'indicateur X sont affichées par ordre croissant et par rang attribué. Les valeurs de l'indicateur Y sont classées et le coefficient de corrélation de Kendall est calculé :

S = P.Q.

P. grand la valeur des rangs Y.

Q- le nombre total d'observations suite aux observations en cours avec plus petit la valeur des rangs Y. (les rangs égaux ne sont pas pris en compte !)

Si les données étudiées sont répétées (ont les mêmes rangs), alors le coefficient de corrélation de Kendall ajusté est utilisé dans les calculs :

t- le nombre de rangs apparentés dans les séries X et Y, respectivement.

19. De quoi devons-nous partir pour déterminer le sujet, l'objet, le sujet, le but, les objectifs et l'hypothèse de l'étude ?

Le programme de recherche comprend généralement deux sections : méthodologique et procédurale. Le premier comprend la justification de la pertinence du sujet, la formulation du problème, la définition de l'objet et du sujet, les buts et objectifs de l'étude, la formulation des concepts de base (appareil catégoriel), l'analyse systémique préliminaire de l'objet d'étude et la formulation d’une hypothèse de travail. La deuxième section révèle la conception stratégique de l'étude, ainsi que la conception et les procédures de base pour la collecte et l'analyse des données primaires.

Tout d'abord, lors du choix d'un sujet de recherche, il faut partir de la pertinence. Justification de la pertinence comprend une indication de la nécessité et de l'opportunité d'étudier et de résoudre le problème pour le développement ultérieur de la théorie et de la pratique de l'enseignement et de l'éducation. Les recherches actuelles apportent des réponses aux questions les plus urgentes de l'heure, reflètent l'ordre social de la société pour la science pédagogique et révèlent les contradictions les plus importantes qui surviennent dans la pratique. Le critère de pertinence est dynamique, flexible, dépend du temps, compte tenu de circonstances particulières et particulières. Dans sa forme la plus générale, la pertinence caractérise le degré d'écart entre la demande d'idées scientifiques et de recommandations pratiques (pour satisfaire un besoin particulier) et les propositions que la science et la pratique peuvent apporter à l'heure actuelle.

La base la plus convaincante définissant le sujet de la recherche est l'ordre social, reflétant les problèmes les plus urgents et socialement importants qui nécessitent des solutions urgentes. L'ordre social nécessite une justification pour un sujet spécifique. Il s’agit généralement d’une analyse du degré de développement d’une question scientifique.

Si l’ordre social découle de l’analyse de la pratique pédagogique, alors problème scientifique est dans un autre plan. Il exprime la principale contradiction qui doit être résolue par la science. La solution au problème est généralement but de l'étude. Le but est un problème reformulé.

La formulation du problème implique sélection d'objet recherche. Il peut s'agir d'un processus pédagogique, d'un domaine de réalité pédagogique ou d'une relation pédagogique contenant une contradiction. En d’autres termes, l’objet peut être tout ce qui contient explicitement ou implicitement une contradiction et donne lieu à une situation problématique. Un objet est ce à quoi vise le processus de cognition. Sujet d'étude - partie, côté d'un objet. Il s'agit des propriétés, aspects et caractéristiques les plus significatifs d'un objet d'un point de vue pratique ou théorique qui font l'objet d'une étude directe.

Conformément au but, à l'objet et au sujet de l'étude, la recherche est déterminée Tâches, qui visent généralement à vérifier hypothèses. Cette dernière est un ensemble d’hypothèses théoriques dont la véracité est sujette à vérification.

Critère nouveauté scientifique applicable pour évaluer la qualité des études réalisées. Il caractérise de nouvelles conclusions théoriques et pratiques, des modèles d'éducation, sa structure et ses mécanismes, son contenu, ses principes et ses technologies, qui à cette époque n'étaient pas connus et n'étaient pas enregistrés dans la littérature pédagogique. La nouveauté de la recherche peut avoir une signification à la fois théorique et pratique. La signification théorique de la recherche réside dans la création d'un concept, l'obtention d'une hypothèse, d'un modèle, d'une méthode, d'un modèle pour identifier un problème, une tendance, une direction. L'importance pratique de la recherche réside dans la préparation de propositions, de recommandations, etc. Les critères de nouveauté, d'importance théorique et pratique varient selon le type de recherche, ils dépendent également du moment où de nouvelles connaissances ont été acquises.

Un facteur limitant l’utilisation de tests basés sur l’hypothèse de normalité est la taille de l’échantillon. Tant que l'échantillon est suffisamment grand (par exemple, 100 observations ou plus), vous pouvez supposer que la distribution d'échantillonnage est normale, même si vous n'êtes pas sûr que la distribution de la variable dans la population soit normale. Cependant, si l’échantillon est petit, ces tests ne doivent être utilisés que si vous êtes sûr que la variable a réellement une distribution normale. Il n’existe cependant aucun moyen de tester cette hypothèse sur un petit échantillon.

L'utilisation de critères basés sur l'hypothèse de normalité est également limitée par l'échelle de mesure (voir le chapitre Concepts élémentaires d'analyse des données). Les méthodes statistiques telles que le test t, la régression, etc. supposent que les données originales sont continues. Cependant, il existe des situations dans lesquelles les données sont simplement classées (mesurées sur une échelle ordinale) plutôt que mesurées avec précision.

Un exemple typique est donné par les évaluations de sites sur Internet : la première position est occupée par le site avec le nombre maximum de visiteurs, la deuxième position est occupée par le site avec le nombre maximum de visiteurs parmi les sites restants (parmi les sites dont le premier site a été supprimé), etc. Connaissant les notes, on peut dire que le nombre de visiteurs d'un site est supérieur au nombre de visiteurs d'un autre, mais on ne peut pas en dire beaucoup plus. Imaginez que vous ayez 5 sites : A, B, C, D, E, qui sont classés aux 5 premières places. Supposons que dans le mois en cours nous ayons la disposition suivante : A, B, C, D, E, et dans le mois précédent : D, E, A, B, C. La question est de savoir s'il y a eu des changements significatifs dans le classement. de sites ou pas ? Dans cette situation, évidemment, on ne peut pas utiliser le test t pour comparer ces deux groupes de données, et on entre dans le domaine des calculs probabilistes spécifiques (et tout test statistique contient des calculs probabilistes !). Nous raisonnons approximativement comme suit : quelle est la probabilité que la différence entre les deux dispositions des sites soit due à des raisons purement aléatoires, ou si cette différence est trop grande et ne peut pas être expliquée par le pur hasard. Dans ces discussions, nous utilisons uniquement des classements ou des permutations de sites et n'utilisons en aucun cas un type spécifique de répartition du nombre de visiteurs de ceux-ci.

Des méthodes non paramétriques sont utilisées pour analyser de petits échantillons et pour des données mesurées à des échelles médiocres.

Un bref aperçu des procédures non paramétriques

Essentiellement, pour chaque critère paramétrique, il existe au moins une alternative non paramétrique.

En général, ces procédures entrent dans l'une des catégories suivantes :

  • tests de différence pour des échantillons indépendants ;
  • tests de différence pour les échantillons dépendants ;
  • évaluation du degré de dépendance entre les variables.

En général, l’approche des critères statistiques dans l’analyse des données doit être pragmatique et ne pas s’encombrer de raisonnements théoriques inutiles. Avec un ordinateur exécutant STATISTICA, vous pouvez facilement appliquer plusieurs critères à vos données. Connaissant certains des pièges des méthodes, vous choisirez la bonne solution grâce à l’expérimentation. Le développement de l'intrigue est assez naturel : si vous souhaitez comparer les valeurs de deux variables, alors vous utilisez un test t. Il convient cependant de rappeler qu’elle repose sur l’hypothèse de normalité et d’égalité des variances dans chaque groupe. La suppression de ces hypothèses conduit à des tests non paramétriques, particulièrement utiles pour les petits échantillons.

Le développement du test t conduit à une analyse de variance, utilisée lorsque le nombre de groupes comparés est supérieur à deux. Le développement correspondant de procédures non paramétriques conduit à une analyse de variance non paramétrique, bien qu'elle soit nettement moins bonne que l'analyse de variance classique.

Pour évaluer la dépendance ou, pour le dire un peu pompeusement, le degré d'étroitesse de la connexion, le coefficient de corrélation de Pearson est calculé. À proprement parler, son utilisation présente des limites liées, par exemple, au type d'échelle dans laquelle les données sont mesurées et à la non-linéarité de la relation, donc des coefficients de corrélation non paramétriques, ou dits de rang, utilisés, par exemple. , pour les données classées, sont également utilisés comme alternative. Si les données sont mesurées sur une échelle nominale, il est alors naturel de les présenter dans des tableaux de contingence, qui utilisent le test du chi carré de Pearson avec diverses variations et ajustements pour plus de précision.

Il n’existe donc essentiellement que quelques types de critères et de procédures que vous devez connaître et pouvoir utiliser, en fonction des spécificités des données. Vous devez déterminer quel critère doit être appliqué dans une situation particulière.

Les méthodes non paramétriques sont plus appropriées lorsque la taille des échantillons est petite. S'il y a beaucoup de données (par exemple, n >100), il n'est souvent pas logique d'utiliser des statistiques non paramétriques.

Si la taille de l'échantillon est très petite (par exemple, n = 10 ou moins), alors les niveaux de signification des tests non paramétriques qui utilisent l'approximation normale ne peuvent être considérés que comme des estimations approximatives.

Différences entre groupes indépendants. Si vous souhaitez comparer deux échantillons (par exemple, des hommes et des femmes) en ce qui concerne une valeur moyenne, telle que la pression artérielle moyenne ou le nombre de globules blancs, vous pouvez utiliser le test t pour échantillons indépendants.

Des alternatives non paramétriques à ce test sont le test de la série Wald-Wolfowitz, Mann-Whitney)/n, où x i est la i-ème valeur, n est le nombre d'observations. Si une variable contient des valeurs négatives ou zéro (0), la moyenne géométrique ne peut pas être calculée.

Moyenne harmonique

La moyenne harmonique est parfois utilisée pour faire la moyenne des fréquences. La moyenne harmonique est calculée par la formule : GS = n/S(1/x i) où GS est la moyenne harmonique, n est le nombre d'observations, x i est la valeur du numéro d'observation i. Si une variable contient zéro (0), la moyenne harmonique ne peut pas être calculée.

Variance et écart type

La variance de l'échantillon et l'écart type sont les mesures de variabilité (variation) les plus couramment utilisées dans les données. La dispersion est calculée comme la somme des carrés des écarts des valeurs variables par rapport à la moyenne de l'échantillon, divisée par n-1 (mais pas par n). L'écart type est calculé comme la racine carrée de l'estimation de la variance.

Portée

L'étendue d'une variable est un indicateur de variabilité, calculé comme le maximum moins le minimum.

Plage de quartiles

La fourchette trimestrielle, par définition, correspond au quartile supérieur moins le quartile inférieur (75 % centile moins 25 % centile). Puisque le centile de 75 % (quartile supérieur) est la valeur à gauche de laquelle se trouvent 75 % des observations, et le centile de 25 % (quartile inférieur) est la valeur à gauche de laquelle se trouvent 25 % des observations, le quartile range est l'intervalle autour de la médiane qui contient 50 % des observations (valeurs variables).

Asymétrie

L'asymétrie est une caractéristique de la forme d'une distribution. La distribution est asymétrique vers la gauche si la valeur d’asymétrie est négative. La distribution est asymétrique vers la droite si l’asymétrie est positive. L'asymétrie de la distribution normale standard est 0. L'asymétrie est associée au troisième moment et est définie comme : asymétrie = n × M 3 /[(n-1) × (n-2) × s 3 ], où M 3 est égal à : (x i -xmoyenne x) 3, s 3 - écart type élevé à la puissance trois, n - nombre d'observations.

Excès

L'aplatissement est une caractéristique de la forme d'une distribution, à savoir une mesure de l'acuité de son pic (par rapport à une distribution normale dont l'aplatissement est de 0). Généralement, les distributions avec un pic plus net que le pic normal ont un aplatissement positif ; les distributions dont le pic est moins net que le pic d'une distribution normale ont un aplatissement négatif. L'aplatissement est associé au quatrième moment et est déterminé par la formule :

kurtosis = /[(n-1) × (n-2) × (n-3) × s 4 ], où M j est égal à : (x-moyenne x, s 4 - écart type à la puissance quatrième, n - nombre d'observations .

COEFFICIENT DE CORRÉLATION DES RANGS DE KENDALL

L'un des exemples de mesures de dépendance de deux variables aléatoires (caractéristiques) Xi Oui, basé sur le classement des éléments de l'échantillon (X 1, Oui x), .. ., (X n, Y n). K.k.r. fait donc référence à classement des statisticiens et est déterminé par la formule

r je- U, appartenant à ce couple ( X, Oui), pour coupe Xequal je, S = 2N-(n-1)/2, N est le nombre d'éléments de l'échantillon, pour lesquels j>i et rj >r je. Toujours En tant que mesure sélective de la dépendance de K. k.r. K. a été largement utilisé par M. Kendall (M. Kendall, voir).

K.k.r. k. est utilisé pour tester l’hypothèse d’indépendance des variables aléatoires. Si l'hypothèse d'indépendance est vraie, alors E t =0 et D t =2(2n+5)/9n(n-1). Avec un petit échantillon, vérifier les statistiques les hypothèses d'indépendance sont formulées à l'aide de tableaux spéciaux (voir). Pour n>10, utilisez l'approximation normale pour la distribution m : si

alors l'hypothèse de l'indépendance est rejetée, sinon elle est acceptée. Voici un . - le niveau de signification, u a /2 est le point de pourcentage de la distribution normale. K.k.r. k., comme n'importe quel autre, peut être utilisé pour détecter la dépendance de deux caractéristiques qualitatives, si seuls les éléments de l'échantillon peuvent être ordonnés par rapport à ces caractéristiques. Si X, Oui avoir une normale conjointe avec le coefficient de corrélation p, alors la relation entre K. k.r. k. et a la forme :

voir également Corrélation des rangs de Spearman, test de rang.

Allumé.: Kendal M., Corrélations de rang, trans. de l'anglais, M., 1975 ; Van der Waerden B. L., Mathématique, trad. de l'allemand, M., 1960 ; Bolshev L. N., Smirnov N. V., Tableaux de statistiques mathématiques, M., 1965.

A.V. Prokhorov.


Encyclopédie mathématique. - M. : Encyclopédie soviétique. I.M. Vinogradov. 1977-1985.

Voyez ce qu'est « COEFFICIENT DE CORRÉLATION DE RANG DE KENDALL » dans d'autres dictionnaires :

    Anglais avec une corrélation de classement efficace Kendall ; Allemand Kendalls Rangkorrelationskoeffizient. Coefficient de corrélation qui détermine le degré d'accord entre l'ordre de toutes les paires d'objets selon deux variables. Antinazi. Encyclopédie de sociologie, 2009... Encyclopédie de sociologie

    COEFFICIENT DE CORRÉLATION DES RANGS DE KENDALL- Anglais coefficient, corrélation de rang Kendall ; Allemand Kendalls Rangkorrelationskoeffizient. Le coefficient de corrélation, qui détermine le degré de correspondance de l'ordre de toutes les paires d'objets selon deux variables... Dictionnaire explicatif de sociologie

    Une mesure de la dépendance de deux variables aléatoires (caractéristiques) X et Y, basée sur le classement des résultats d'observations indépendantes (X1, Y1), . . ., (Xn,Yn). Si les rangs des valeurs X sont dans l'ordre naturel i=1, . . ., n,a Ri rang Y, correspondant à... ... Encyclopédie mathématique

    Coefficient de corrélation- (Coefficient de corrélation) Le coefficient de corrélation est un indicateur statistique de la dépendance de deux variables aléatoires. Définition du coefficient de corrélation, types de coefficients de corrélation, propriétés du coefficient de corrélation, calcul et application... ... Encyclopédie des investisseurs

    Dépendance entre variables aléatoires qui, d’une manière générale, n’a pas un caractère strictement fonctionnel. Contrairement à la dépendance fonctionnelle, K., en règle générale, est considérée lorsque l'une des quantités dépend non seulement de l'autre, mais aussi... ... Encyclopédie mathématique

    La corrélation (dépendance de corrélation) est une relation statistique entre deux ou plusieurs variables aléatoires (ou des variables qui peuvent être considérées comme telles avec un certain degré de précision acceptable). Dans ce cas, des changements dans les valeurs d'un ou ... ... Wikipedia

    Corrélation- (Corrélation) La corrélation est une relation statistique entre deux ou plusieurs variables aléatoires. Le concept de corrélation, les types de corrélation, le coefficient de corrélation, l'analyse de corrélation, la corrélation de prix, la corrélation de paires de devises sur le Forex Contenu... ... Encyclopédie des investisseurs

    Il est généralement admis que le début de S. m.v. ou, comme on l'appelle souvent, la statistique des « petits n », a été fondée dans la première décennie du XXe siècle avec la publication des travaux de W. Gosset, dans lesquels il a placé la distribution t, postulée par celle qui a reçu un peu plus tard dans le monde entier... ... Encyclopédie psychologique

    Maurice Kendall Sir Maurice George Kendall Date de naissance : 6 septembre 1907 (1907 09 06) Lieu de naissance : Kettering, Royaume-Uni Date de décès... Wikipedia

    Prévision- (Prévision) Définition des prévisions, tâches et principes de prévision Définition des prévisions, tâches et principes de prévision, méthodes de prévision Contenu Contenu Définition Concepts de base de la prévision Tâches et principes de prévision... ... Encyclopédie des investisseurs



Avez-vous aimé l'article? Partagez-le