Test du χ²

{{#ifeq:||Un article de Ziki, l'encyclopédie libre.|Une page de Ziki, l'encyclopédie libre.}}

Modèle:Autre Modèle:Sources Modèle:Infobox Méthode scientifique

Fichier:Chi-square pdf.svg
Densité de la loi du Modèle:Math en fonction du nombre k de degrés de liberté.

En statistique, le test du khi carré, aussi dit du khi-deux<ref>Modèle:Lien web.</ref>, d’après sa désignation symbolique Modèle:Formule, est un test statistique où la statistique de test suit une [[loi du χ²|loi du Modèle:Formule]] sous l'hypothèse nulle.

Par exemple, il permet de tester l'adéquation d'une série de données à une famille de lois de probabilité ou de tester l'indépendance entre deux variables aléatoires.

Histoire

Modèle:... Ce test a été proposé par le statisticien Karl Pearson en 1900<ref name="stigler">Modèle:Article.</ref>.

Principe

Tout test de statistique classique vise à vérifier une hypothèse, en particulier par rapport à l'hypothèse nulle, notée H0, qui postule qu'une différence entre des jeux de données est due au hasard<ref group=N>Les méthodes bayésiennes, pour leur part, ne font que remplacer cette valeur arbitraire unique par une distribution de probabilité qui sera ensuite affinée par les observations successivesModèle:Référence nécessaire.</ref>. L'hypothèse alternative que l'on vérifie suppose que les données considérées proviennent de variables aléatoires qui suivent une loi de probabilité donnée, et l'on souhaite tester la validité de cette hypothèse.

Ces données ayant été réparties en classes, il faut :

  • calculer algébriquement la distance entre les données observées et les données théoriques attendues ;
  • se donner a priori un risque d'erreur, celle consistant à rejeter l'hypothèse, alors qu'elle est vraie (la valeur 5 % est souvent choisie par défautModèle:Référence nécessaire) ;
  • déterminer le nombre de degrés de liberté du problème à partir du nombre de classes, et à l'aide d'une [[Loi du χ²#Table de valeurs des quantiles|table de Modèle:Math]]<ref>Modèle:Lien web.</ref>, déduire, en tenant compte du nombre de degrés de liberté, la distance critique qui a une probabilité de dépassement égale à ce risque.

Si la distance calculée entre les données observées et théoriques est supérieure à la distance critique, on conclut que le résultat n'est pas dû seulement aux fluctuations d'échantillonnage, et que l'hypothèse nulle Modèle:Math doit être rejetée. Le risque choisi au départ est celui de donner une réponse fausse lorsque les fluctuations d'échantillonnage sont seules en cause. Le rejet est évidemment une réponse négative dans les tests d'adéquation et d'homogénéité mais il apporte une information positive dans les tests d'indépendance. Pour ceux-ci, il montre le caractère significatif de la différence, ce qui est intéressant en particulier dans les tests de traitement d'une maladie.

Test du Modèle:Math d'adéquation

Le test du Modèle:Math d'adéquation (dénommé aussi test du Modèle:Math de conformité ou test du Modèle:Math d'ajustement) permet de vérifier si un échantillon d'une variable aléatoire Modèle:Mvar donne des observations comparables à celles d'une loi de probabilité P définie a priori dont on pense, pour des raisons théoriques ou pratiques, qu'elle devrait être la loi de Modèle:Mvar. L’hypothèse nulle (H0) est donc la suivante : la variable aléatoire Modèle:Mvar suit la loi de probabilité P.

En termes de valeur-p, l'hypothèse nulle (l'observation est suffisamment proche de la théorie) est généralement rejetée lorsque Modèle:Math.

Test d'adéquation à une loi multinomiale

On observe un échantillon de données Modèle:Math d'une variable aléatoire Modèle:Mvar qui prend un nombre fini Modèle:Mvar de valeurs distinctes Modèle:Math. On veut tester l'hypothèse nulle suivante : « la probabilité que Modèle:Mvar prenne la valeur Modèle:Math vaut <math>p_j</math>, pour j allant de 1 à Modèle:Mvar, avec <math>\sum_{j=1}^{J} p_j = 1</math>. »

On appelle <math>\hat{p_j}</math> la probabilité empirique que Modèle:Mvar prenne la valeur Modèle:Math , c'est-à-dire le nombre <math> n_j </math> d'observations <math>y_i</math> qui prennent la valeur Modèle:Math dans l'échantillon divisé par le nombre total Modèle:Mvar d'observations :

<math>\hat{p_j} = \frac{1}{N} \sum_{i=1}^{N}1_{y_i = v_j}\ \textrm{ avec }\ 1_{y_i = v_j} = \begin{cases} 1 & \text{si } y_i = v_j \\ 0 & \text{sinon} \end{cases}</math>

On peut alors définir la statistique du Modèle:Math :

<math>T = \sum_{j=1}^{J} \frac{(N\hat{p_j} - N p_j)^2}{N p_j} = \sum_{j=1}^{J} \frac{(n_j - N p_j)^2}{N p_j}\ </math> où <math> n_j= N\hat{p_j}=\sum_{i=1}^{N}1_{y_i = v_j}\ </math>

Sous l'hypothèse nulle, cette statistique suit asymptotiquement une [[loi du χ²|loi du Modèle:Math]] à Modèle:Math degrés de liberté<ref>Modèle:Harvsp.</ref>. On peut donc construire un test de niveau Modèle:Mvar en rejetant l'hypothèse nulle lorsque la statistique de test T est plus grande que le quantile d'ordre Modèle:Math de la loi du Modèle:Math à Modèle:Math degrés de liberté :

Modèle:Math avec Modèle:Math le quantile d'ordre Modèle:Math de la loi du Modèle:Math à Modèle:Math degrés de liberté.

Modèle:Démonstration, \frac{[Y=2]-p_2}{\sqrt{p_2}}, \ldots, \frac{[Y=J]-p_J}{\sqrt{p_J}}\right)</math> avec comme ci-dessus :

<math>[Y = j] = \begin{cases} 1 & \text{si } Y = j \\ 0 & \text{sinon} \end{cases}</math>

Si on note Modèle:Math les composantes de Modèle:Mvar, on vérifie que :

pour tout i, <math>\mathbb{E}(Z^{(i)}) = 0</math>
pour tout i, <math>\textrm{Var}(Z^{(i)}) = 1 - p_i</math>
pour tout i différent de j, <math>{\rm Cov}(Z^{(i)},Z^{(j)}) = -\sqrt{p_ip_j}</math>

Autrement dit, Modèle:Mvar est un vecteur aléatoire centré dont la matrice de covariance est <math>\Gamma = I_J - \sqrt{p}{\rm }\,\,(^t\sqrt{p})</math>, où l'on a posé <math>\sqrt{p}</math> la colonne de composantes <math>\sqrt{p_i}</math>.

Si l'on dispose d'un échantillon Modèle:Math de la variable Modèle:Mvar, on en déduit un échantillon Modèle:Math de la variable Modèle:Mvar. Le théorème central limite permet alors de conclure que la loi de <math>\frac{Z_1+\ldots+Z_N}{\sqrt{N}}</math> converge vers une loi normale centrée de matrice de covariance Modèle:Math quand N tend vers l'infini. Mais cette loi n'est autre que celle du projeté d'un vecteur aléatoire de <math>\mathbb R^J</math> suivant une loi normale centrée réduite sur l'hyperplan orthogonal à Modèle:Racine (espace de dimension Modèle:Math). D'après le théorème de Cochran, le carré de ce projeté suit alors une loi du Modèle:Math à Modèle:Math degrés de liberté. C'est la loi limite du carré de <math>\frac{Z_1+\ldots+Z_N}{\sqrt{N}}</math> qui n'est autre que Modèle:Mvar. }}

Cas général

Il s'agit de juger de l'adéquation entre une série de données statistiques et une loi de probabilité définie a priori. Dans le cas général, cette loi peut être celle d'une variable aléatoire Modèle:Mvar prenant un nombre dénombrable de valeurs (comme une loi de Poisson ou une loi géométrique par exemple), ou bien une variable aléatoire continue (comme une loi exponentielle ou une loi normale).

Pour appliquer la méthode précédente pour laquelle Modèle:Mvar prend un nombre fini J de valeurs, on découpe l'ensemble des valeurs que peut prendre Modèle:Mvar en Modèle:Mvar classes. Par exemple, pour tester l'adéquation avec une loi de Poisson, on pourra prendre les classes {0}, {1}, ..., {J-2}, {n>J-2}. On note alors <math>\hat{p_j}</math> la probabilité empirique que Modèle:Mvar appartienne à la classe Modèle:Mvar, et <math>p_j</math> la probabilité théorique d'y appartenir. On peut alors appliquer le test précédent. Les classes doivent être assez nombreuses pour ne pas perdre trop d'information mais, à l'inverse, pour satisfaire les conditions requises par la méthode, elles ne doivent pas être trop petites. En théorie, il faudrait que les effectifs soient infinis pour que la loi normale s'applique mais il est généralement admis qu'il faut 5 éléments dans chaque classe. Cette règle a été très discutée et celle qui semble recueillir le plus de suffrages est due à Cochran : 80 % des classes doivent satisfaire la règle des cinq éléments tandis que les autres doivent être non vides.

Le critère porte sur les Modèle:Mvar déduits de la loi de référence et non sur les Modèle:Mvar des données analysées. Il est souvent satisfait sans difficulté car, à la différence de la construction d'un histogramme, il est possible de jouer sur la largeur des classes.

Si la loi de probabilité théorique dépend de paramètres (moyenne, variance...) inconnus au moment du test, les données peuvent être utilisées pour estimer ceux-ci, ce qui facilite l'adéquation. Il faut alors diminuer le nombre de degrés de liberté du nombre de paramètres estimés. S'il y a Modèle:Mvar paramètres inconnus, le nombre de degrés de liberté sera Modèle:Math. Ainsi, dans l'exemple de l'adéquation à une loi de Poisson de paramètre inconnu, on pourra estimer la valeur de ce paramètre par la moyenne empirique de Y, mais la loi du Modèle:Math à appliquer aura un nombre de degrés de liberté égal à Modèle:Math au lieu de Modèle:Math<ref>Modèle:Ouvrage</ref>.

Exemple 1 : détermination de l'équilibrage d'un dé

Fichier:Sixsided Dice inJapan.jpg
Est-ce que le dé est bien équilibré ?

On souhaite tester l'hypothèse selon laquelle un dé à six faces n'est pas truqué, avec un risque Modèle:Math. L'hypothèse que l'on souhaite rejeter (qu'on appelle hypothèse nulle et qu'on note <math>H_0</math>) est donc ici : « Le dé est équilibré ». Pour cela, le dé est lancé Modèle:Nobr de suite. S'il est équilibré, on s'attend que sur ces Modèle:Nobr, chaque chiffre tombe Modèle:Nobr. Supposons que notre expérience donne les résultats suivants :

numéro tiré 1 2 3 4 5 6
effectifs 88 109 107 94 105 97

c'est-à-dire nous avons obtenu 88 fois le chiffre 1, 109 fois le chiffre 2Modèle:, etc. En considérant l'hypothèse nulle vraie, la variable Modèle:Mvar définie précédemment vaut :<math>\frac{(88-100)^2}{100}+\frac{(109-100)^2}{100}+\frac{(107-100)^2}{100}+\frac{(94-100)^2}{100}+\frac{(105-100)^2}{100}+\frac{(97-100)^2}{100} = 3,\!44</math>.

Le nombre de degrés de liberté est de Modèle:Math. En effet, 88 + 109 + 107 + 94 + 105 + 97 = 600 et si l'on connaît par exemple les nombres de fois où l'on obtient les chiffres 1 à 5, on connaît le nombre de fois où l'on obtient le chiffre 6 : 600 - (88 + 109 + 107 + 94 + 105) = 97.

Ainsi, la statistique Modèle:Mvar suit la loi du Modèle:Math à cinq degrés de liberté. Cette loi du Modèle:Math donne la valeur en deçà de laquelle on considère le tirage comme conforme avec un risque Modèle:Math : Modèle:Math. Puisque Modèle:Math, on ne peut pas rejeter l'hypothèse nulle : ces données statistiques ne permettent pas de considérer que le dé est truqué.

Par contre, supposons que notre expérience donne le tirage suivant :

numéro tiré 1 2 3 4 5 6
effectifs 89 131 93 92 104 91

Dans ce cas, la variable Modèle:Mvar définie précédemment vaut : <math>\frac{(89-100)^2}{100}+\frac{(131-100)^2}{100}+\frac{(93-100)^2}{100}+\frac{(92-100)^2}{100}+\frac{(104-100)^2}{100}+\frac{(91-100)^2}{100} = 12,\!92</math>.

Puisque Modèle:Math, on peut cette fois rejeter l'hypothèse nulle : ces données statistiques permettent de considérer que le dé est truqué.

Exemple 2 : adéquation avec la loi de Poisson

On considère une variable aléatoire Modèle:Mvar prenant des valeurs entières positives ou nulles. Un échantillonnage de 100 valeurs de cette variable se répartit comme suit :

valeur de Modèle:Mvar 0 1 2 3 4
effectifs 31 45 16 7 1

On souhaite tester l'hypothèse selon laquelle Modèle:Mvar suit une loi de Poisson, avec un risque Modèle:Math. La valeur du paramètre de cette loi de Poisson est obtenue en calculant l'espérance empirique de Modèle:Mvar, ce qui donne ici Modèle:Math. Ce paramètre étant ici l'objet d'une estimation, on diminuera le nombre de degré de liberté d'une unité. Les effectifs attendus pour une loi de Poisson de paramètre Modèle:Mvar sont :

valeurs 0 1 2 3 ou plus
effectifs 36,06 36,78 18,76 8,40

On regroupe les effectifs supérieurs ou égaux à 3 dans une même classe, ceux supérieurs à 4 étant trop petits. La variable Modèle:Mvar prend alors la valeur 2,97. Or, la loi du Modèle:Math à deux degrés de liberté donne Modèle:Math. Donc, on ne rejette pas l'hypothèse que la variable aléatoire Y suive une loi de Poisson, au risque d'erreur de 5 %.

Test du Modèle:Math d'homogénéité

Il s'agit ici de se demander si deux listes de nombres de même effectif total Modèle:Mvar peuvent dériver de la même loi de probabilité. L'hypothèse nulle (H0) est la suivante : les deux échantillons proviennent de deux variables aléatoires suivant la même loi.

En termes de valeur p, l'hypothèse nulle est généralement rejetée lorsque Modèle:Math.

La méthode précédente s'applique en remplaçant le terme Modèle:Mvar relatif à la loi de probabilité par Modèle:Mvar relatif à la seconde liste et le Modèle:Math est donné par <math>\sum_{i=1}^J \frac {(n_i - n'_i)^2} {n'_i}</math>.

Cette notation s'inspire de celle utilisée pour le test d'adéquation, elle-même déduite de la notation classique de la loi multinomiale. Ici, comme dans le test d'indépendance, la notion de probabilité n'apparaît plus de manière explicite. De nombreux utilisateurs préfèrent donc adopter la notation qui utilise les symboles Modèle:Mvar pour les valeurs observées et Modèle:Mvar pour les valeurs espérées, ce qui conduit à l'expression <math>\sum_{i=1}^J \frac {(O_i - E_i)^2} {E_i}</math>.

Dans le cas où l'on dispose de plusieurs listes de nombres, chacune d'effectif différent, et qu'on veuille tester si ces listes suivent une même loi de probabilité, on appliquera le test d'indépendance, décrit ci-après. Il s'agit en effet de tester si les diverses modalités Modèle:Mvar de la loi de probabilité sont indépendantes des listes Modèle:Mvar en présence.

Test du Modèle:Math d'indépendance

Ce test permet de vérifier l'absence de lien statistique entre deux variables Modèle:Mvar et Modèle:Mvar. Les deux sont dites indépendantes lorsqu'il n'existe aucun lien statistique entre elles, dit autrement, la connaissance de Modèle:Mvar ne permet en aucune manière de se prononcer sur Modèle:Mvar. L'hypothèse nulle (H0) de ce test est la suivante : les deux variables Modèle:Mvar et Modèle:Mvar sont indépendantes.

En termes de valeur p, l'hypothèse nulle est généralement rejetée lorsque Modèle:Math.

Problème

On considère ici deux variables aléatoires Modèle:Mvar et Modèle:Mvar et on souhaite tester le fait que ces deux variables sont indépendantes. Par exemple, Modèle:Mvar désigne une catégorie de population (salarié, employé, agriculteur, cadre supérieur, chômeur...) et Modèle:Mvar un critère particulier (par exemple, le revenu réparti dans diverses tranches). L'hypothèse à tester est l'indépendance entre la population d'appartenance Modèle:Mvar de l'individu et la valeur Modèle:Mvar du critère. L'hypothèse affirme donc que le fait de connaître la catégorie de population d'un individu n'influence pas la valeur des critères.

Modèle:Mvar et Modèle:Mvar sont censées prendre un nombre fini de valeurs, Modèle:Mvar pour Modèle:Mvar, Modèle:Mvar pour Modèle:Mvar. On dispose d'un échantillonnage de Modèle:Mvar données. Notons Modèle:Mvar l'effectif observé de données pour lesquelles Modèle:Mvar prend la valeur Modèle:Mvar et Modèle:Mvar la valeur Modèle:Mvar. Sous l'hypothèse d'indépendance, on s'attend à une valeur espérée Modèle:Mvar définie comme suit :

<math> E_{ij} = \frac{O_{i+} \times O_{+j}}{N} </math>

<math> O_{i+}=\sum_{j=1}^{J}{O_{ij}} </math> (nombre de données pour lesquelles Modèle:Mvar)

et

<math> O_{+j}=\sum_{i=1}^{I}{O_{ij}} </math> (nombre de données pour lesquelles Modèle:Mvar)

On calcule la distance entre les valeurs observées Modèle:Mvar (ou valeurs empiriques) et les valeurs attendues s'il y avait indépendance Modèle:Mvar (ou valeurs théoriques) au moyen de la formule :

<math> T = \sum_{i,j} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}</math>

On montre que la loi de Modèle:Mvar suit asymptotiquement une loi du Modèle:Math à Modèle:Math degrés de liberté.

Démonstration

Le test d’indépendance du tableau de Modèle:Math cases équivaut au test d’adéquation à une loi multinomiale de probabilités Modèle:Mvar estimées par Modèle:Math selon H0, ce qui demande donc d’estimer Modèle:Math valeurs parmi Modèle:Math (la Modèle:Math est forcée par <math>\textstyle\sum_{i=1}^I p_{i+} = 1</math>) et Modèle:Math valeurs parmi Modèle:Math (la Modèle:Mvare est forcée par <math>\textstyle\sum_{j=1}^J p_{+j} = 1</math>). On a donc au départ Modèle:Math degrés de liberté pour remplir les Modèle:Math cases du tableau, valeur de laquelle il faut retrancher les Modèle:Math estimations de paramètres (voir dernier paragraphe de la section #Cas général ci-dessus), ce qui donne un nombre total de degrés de liberté de Modèle:Math<ref>https://onlinecourses.science.psu.edu/stat414/node/312.</ref>.

Exemple

Considérons par exemple deux variables Modèle:Mvar et Modèle:Mvar, Modèle:Mvar prenant les valeurs Modèle:Mvar ou Modèle:Mvar et Modèle:Mvar prenant les valeurs entières de 1 à 4. Les lois de Modèle:Mvar et de Modèle:Mvar sont-elles différentes ? Une représentation sur une table de contingence des occurrences des variables permet d'illustrer la question.

1 2 3 4 Total
Modèle:Mvar 50 70 110 60 290
Modèle:Mvar 60 75 100 50 285
Total 110 145 210 110 575

Dans cet exemple, on remarque que les effectifs de Modèle:Mvar sont supérieurs à ceux de Modèle:Mvar dans les classes de faible valeur Modèle:Mvar, et inférieur dans celles à haute valeur Modèle:Mvar. Cette différence (c’est-à-dire cette dépendance entre les variables) est-elle statistiquement significative ? Le test du Modèle:Math aide à répondre à cette question.

On a ici Modèle:Math et Modèle:Math, donc la loi du Modèle:Math utilisée aura trois degrés de liberté. Si on se donne un risque de se tromper (rejeter à tort l'hypothèse nulle) égal à 5 %, la valeur critique trouvée dans les tables est 7,81. Le calcul de la variable Modèle:Mvar donne comme résultat 2,42. Étant inférieure à la distance critique (7,81), les données recueillies ne permettent pas de remettre en cause l'indépendance de Modèle:Mvar et de Modèle:Mvar, c'est-à-dire le fait que la répartition des valeurs de Modèle:Mvar ne dépend pas de la valeur de Modèle:Mvar, avec un risque de se tromper égal à 5 %.

Conditions du test

Plusieurs auteurs proposent des critères pour savoir si un test est valide, voir par exemple Modèle:Pdf The Power of Categorical Goodness-Of-Fit Test Statistics p. 19 (Modèle:P. du ch. 2), Michael C. Steele. On utilise en général le critère de Cochran de 1954 selon lequel toutes les classes Modèle:Mvar, Modèle:Mvar doivent avoir une valeur théorique non nulle (Modèle:Math), et que 80 % des classes doivent avoir une valeur théorique supérieure ou égale à 5 :

<math>E_{i,j} \geqslant 5</math>

Lorsque le nombre de classes est petit, cela revient à dire que toutes les classes doivent contenir un effectif théorique supérieur ou égal à 5.

D'autres valeurs ont été proposées pour l'effectif théorique minimal : 5 ou 10 pour tous (Cochran, 1952), 10 (Cramér, 1946) ou 20 (Kendall, 1952). Dans tous les cas, ces valeurs sont arbitraires.

Certains auteurs ont proposé des critères basés sur des simulations, par exemple :

  • effectif théorique supérieur à Modèle:Math pour chaque classe, où Modèle:Mvar est le nombre de classes ayant un effectif supérieur ou égal à 5 et Modèle:Mvar est le nombre de catégories (Yarnold, 1970) ;
  • Modèle:Math, où Modèle:Mvar est l'effectif total et Modèle:Mvar est toujours le nombre de catégories (Koehler et Larntz, 1980) ;
  • des recommandations plus récentes se trouvent, par exemple, dans P. Greenwood et M. Nikulin, A Guide to Chi-Squared Testing, (1996), John Wiley and Sons.

Tests apparentés

Test du Modèle:Math de Pearson

Modèle:Article détaillé

Il s'agit du test du Modèle:Math le plus communément utilisé.

Une fois la corrélation entre deux variables établie, on peut utiliser le coefficient V de Cramer afin de mesurer l'intensité de la corrélation<ref>Modèle:Lien web.</ref> :

<math>V = \sqrt{\frac{T}{N \times (\min(I,J) - 1)}}</math>

Il est compris entre 0 et 1 : V = 0 si et seulement si on est en cas d'indépendance parfaite ; plus V est proche de 1, plus la corrélation est forte.

Test du rapport de vraisemblance

Modèle:Article détaillé

Le développement des méthodes bayésiennes – seules utilisables lorsqu'on n'a que peu de données sous la main – a dégagé un test de vraisemblance nommé le psi-test, dont Myron Tribus fait remarquer qu'il devient asymptotiquement identique au Modèle:Math à mesure que le nombre de données augmente<ref>Myron Tribus, Décisions rationnelles dans l'incertain, traduction française de Jacques Pézier, Masson, 1974.</ref>. Le test du rapport de vraisemblance est donc un test asymptotique qui devient identique au Modèle:Math. Il teste s'il existe des preuves de la nécessité de passer d'un modèle simple à un modèle plus complexe (autrement dit si le modèle simple est imbriquée dans un modèle plus complexe).

Test exact de Fisher

Modèle:Article détaillé

Il s'agit d'un test exact qui peut s'apparenter à un test du Modèle:Math.

Test du Modèle:Math de Yates

Modèle:Article détaillé

L'utilisation de la loi du Modèle:Math pour interpréter un test du Modèle:Math de Pearson nécessite de supposer que la loi discrète des fréquences binomiales peut être estimée par la loi continue du Modèle:Math. Cette hypothèse n'est pas tout à fait correcte et introduit une erreur.

Pour réduire l'erreur d'approximation, Frank Yates a suggéré une correction pour la continuité qui modifie légèrement la formule du [[test du χ² de Pearson|test du Modèle:Math de Pearson]] en soustrayant 0,5 de la différence entre chaque valeur observée et sa valeur attendue dans un tableau de contingence 2x2. Ceci réduit la valeur du Modèle:Math obtenue et augmente ainsi sa valeur p.

Autres tests du Modèle:Math

Notes et références

Notes

Modèle:Références

Références

Modèle:Références

Voir aussi

Modèle:Autres projets

Bibliographie

Articles connexes

Liens externes

Modèle:Palette Modèle:Portail