Loi hypergéométrique
{{#invoke:Bandeau|ébauche}} Modèle:Sources Modèle:Infobox/Début Modèle:Infobox/Titre Modèle:Infobox/Image Modèle:Infobox/Image Modèle:Infobox/Séparateur optionnel Modèle:Infobox/Image Modèle:Infobox/Séparateur optionnel Modèle:Infobox/Ligne mixte optionnelle Modèle:Infobox/Ligne mixte optionnelle Modèle:Infobox/Ligne mixte optionnelle Modèle:Infobox/Ligne mixte optionnelle Modèle:Infobox/Ligne mixte optionnelle Modèle:Infobox/Ligne mixte optionnelle Modèle:Infobox/Ligne mixte optionnelle Modèle:Infobox/Ligne mixte optionnelle Modèle:Infobox/Ligne mixte optionnelle Modèle:Infobox/Ligne mixte optionnelle Modèle:Infobox/Ligne mixte optionnelle Modèle:Infobox/Ligne mixte optionnelle Modèle:Infobox/Ligne mixte optionnelle Modèle:Infobox/Ligne mixte optionnelle Modèle:Infobox/Ligne mixte optionnelle Modèle:Infobox/Notice Modèle:Infobox/Fin\,</math> | pmf = <math>\frac{{pN\choose k}{qN\choose n-k}}Modèle:N\choose n</math> | cdf = | mean = <math>np\!</math> | median = | mode = <math>\left \lfloor (n+1)\frac{(pN+1)}{N+2} \right \rfloor</math> | variance = <math>npq\frac{(N-n)}{(N-1)}</math> | skewness = <math>\frac{(N-2n)(q-p)(N-1)^\frac{1}{2}}{[npq(N-n)]^\frac{1}{2}(N-2)}</math> | kurtosis = <math display=inline> \frac{(N-1)[N^2(1-6pq)+N(1-6n)+6n^2]}{npq(N-n)(N-2)(N-3)}</math> <math>+ \frac{6N^2}{(N-2)(N-3)} - 6</math> | entropy = | mgf = <math display=inline>\frac{{qN \choose n} {\,_2F_1(-n, -pN; qN - n + 1; \mathrm{e}^{t}) } }
Modèle:N \choose n \,\!</math>
| char = <math display=inline>\frac{{qN \choose n} {\,_2F_1(-n, -pN; qN - n + 1; \mathrm{e}^{\mathrm{i}t}) }} Modèle:N \choose n </math> }}
La loi hypergéométrique de paramètres associés <math>n</math>, <math>p</math> et <math>N</math> est une loi de probabilité discrète, décrivant le modèle suivant :
- On tire simultanément (ou successivement sans remise (mais cela induit un ordre)) <math>n</math> boules dans une urne contenant <math>N_1=pN</math> boules gagnantes et <math>N_2=qN</math> boules perdantes (avec <math>q = 1-p</math>, soit un nombre total de boules valant <math>pN + qN</math> = <math>N</math>). On compte alors le nombre de boules gagnantes extraites et on appelle <math>X</math> la variable aléatoire donnant ce nombre.
Les valeurs pouvant être prises sont les entiers de 0 à <math>n</math>. La variable <math>X</math> suit alors la loi de probabilité définie par<ref>Modèle:Ouvrage</ref>
- <math>\mathbb{P}(X=k)=\mathbb{P}_X(k)=\frac{{pN\choose k}{qN\choose n-k}}Modèle:N\choose n</math> (probabilité d'avoir <math>k</math> succès).
Cette loi de probabilité s'appelle la loi hypergéométrique de paramètres <math>(n,p,N)</math> et l'on note <math>X \sim \mathcal{H}(n,p,N)</math>.
Il est nécessaire que <math>p</math> soit un réel compris entre 0 et 1, que <math>pN</math> soit entier et que <math>n\leqslant N</math>. Lorsque ces conditions ne sont pas imposées, l'ensemble des possibles <math>X \! ( \Omega )</math> est l'ensemble des entiers entre <math>\max(0,n-qN)</math> et <math>\min(pN,n)</math>.
Exemple simple
Un lac renferme une centaine de poissons dont un quart sont des brochets. On pêche 10 poissons ; la loi du nombre <math>X</math> de brochets dans la prise est <math>H(10,1/4,100)</math>.
On trouve alors pour les couples successifs <math>(k , \mathbb{P}(X = k))</math> :
- (0, 5%), (1, 18%), (2, 30%), (3, 26%), (4, 15%), (5, 5%), (6, 1%), (7, 0%), (8, 0%), (9, .0%), (10, 0%)
Donc un maximum de chances pour 2 ou 3 brochets. D'ailleurs, l'espérance du nombre de brochets vaut 10/4 = 2,5.
Calcul de la loi de probabilité
Il s'agit d'un tirage simultané (c'est-à-dire non ordonné et sans remise, même si la loi de probabilité resterait la même si l'on décidait d'ordonner le tirage car cela reviendrait à multiplier par <math>n!</math> le numérateur et le dénominateur de la quantité <math>P(X=k)</math> ) de <math>n</math> éléments parmi <math>N</math>, tirage que l'on considère comme équiprobable.
La combinatoire permet de dire que le cardinal de l'univers est <math>\textstyle{N\choose n}</math>.
Tirage | Resté dans l'urne | Total | |
---|---|---|---|
Succès | <math>k</math> | <math>pN - k</math> | <math>pN</math> |
Échecs | <math>n - k</math> | <math>qN - n + k</math> | <math>qN</math> |
Total | <math>n</math> | <math>N - n</math> | <math>N</math> |
L'évènement <math>\{X=k\}</math> (voir tableau) représente le cas où l'on a tiré <math>k</math> boules gagnantes parmi <math>pN</math> et <math>n - k</math> boules perdantes parmi <math>qN</math>. Le cardinal de cet événement est donc <math>\textstyle{pN\choose k}{qN\choose n-k}</math>.
La probabilité de l'évènement est donc <math>\mathbb{P}(X=k) =\mathbb{P}_X(k)= \frac{{pN\choose k}{qN\choose n-k}}Modèle:N\choose n</math>.
Remarque : comme pour toute densité de probabilité, la somme des <math>\mathbb{P}(X=k)</math> vaut 1, ce qui prouve l'identité de Vandermonde.
Espérance, variance et écart type
L'espérance d'une variable aléatoire <math>X</math> suivant une loi hypergéométrique de paramètres <math>(n,p,N)</math>, est la même que celle d'une variable binomiale de paramètres <math>(n,p)</math> : <math>\mathbb{E}(X)=np\,</math>.
La variance d'une variable aléatoire suivant une loi hypergéométrique de paramètres <math>n,p,N</math> est <math>npq\frac{N - n}{N - 1}</math>, dont on remarque qu'elle tend vers la variance <math>npq</math> de la variable binomiale précédente lorsque <math>N</math> tend vers l'infini.
L'écart type est alors <math>\sqrt{npq}\sqrt{\frac{N - n}{N - 1}}</math>.
Convergence
Lorsque <math>N</math> tend vers l'infini, la loi hypergéométrique converge vers une loi binomiale de paramètres <math>n</math> et <math>p</math>. D'ailleurs, intuitivement, pour <math>N</math> grand, tirer simultanément <math>n</math> boules revient à effectuer <math>n</math> fois une épreuve de Bernoulli dont la probabilité de succès serait <math>p</math> (<math>p</math> est la proportion de boules gagnantes dans l'ensemble des boules), car il est très peu probable de retomber sur la même boule, même si on la replace dans l'urne.
Modèle:Démonstration{N^n} = {n\choose k} p^k q^{n-k}</math>
Il s'agit bien d'une loi binomiale de paramètres <math>(n,p)</math>. }}
En pratique, on peut approcher la loi hypergéométrique de paramètres <math>(n,p,N)</math> par une loi binomiale de paramètres <math>(n,p)</math> dès que <math>n/N < 0,1</math>, c'est-à-dire lorsque l'échantillon <math>n</math> est 10 fois plus petit que la population <math>N</math>.
Un exemple très classique de ce remplacement concerne les sondages. On considère fréquemment un sondage de <math>n</math> personnes comme <math>n</math> sondages indépendants alors qu'en réalité le sondage est exhaustif (on n'interroge jamais deux fois la même personne). Comme <math>n</math> (nombre de personnes interrogées) < <math>N</math> (population sondée)/10, cette approximation est légitime.
Origine de l'appellation hypergéométrique
L'appellation "loi hypergéométrique" vient du fait que sa série génératrice <math>E(x^X)=\sum_{k=0}^n\mathbb{P}(X=k)x^k</math> est un cas particulier de série hypergéométrique, série généralisant la série géométrique. En effet <math>\frac{\mathbb{P}(X=k+1)}{\mathbb{P}(X=k)}=\frac{(N_1-k)(n-k)}{(k+1)(N_2-n+k+1)}</math> est bien une fraction rationnelle en <math>k</math>.