Loi uniforme continue
Modèle:Infobox/Début Modèle:Infobox/Titre Modèle:Infobox/Image Modèle:Infobox/Image Modèle:Infobox/Séparateur optionnel Modèle:Infobox/Image Modèle:Infobox/Séparateur optionnel Modèle:Infobox/Ligne mixte optionnelle Modèle:Infobox/Ligne mixte optionnelle Modèle:Infobox/Ligne mixte optionnelle Modèle:Infobox/Ligne mixte optionnelle Modèle:Infobox/Ligne mixte optionnelle Modèle:Infobox/Ligne mixte optionnelle Modèle:Infobox/Ligne mixte optionnelle Modèle:Infobox/Ligne mixte optionnelle Modèle:Infobox/Ligne mixte optionnelle Modèle:Infobox/Ligne mixte optionnelle Modèle:Infobox/Ligne mixte optionnelle Modèle:Infobox/Ligne mixte optionnelle Modèle:Infobox/Ligne mixte optionnelle Modèle:Infobox/Ligne mixte optionnelle Modèle:Infobox/Ligne mixte optionnelle Modèle:Infobox/Notice Modèle:Infobox/Fin{n-1} . \end{cases}</math>
Modèle:Démonstration</math> :
<math display=block>\mathbb{E}(\hat{\hat{a}}) = \mathbb{E}(\hat{a})-\frac{1}{n-1} \left(\mathbb{E}(\hat{b})-\mathbb{E}(\hat{a})\right) = a+\frac{b-a}{n+1}-\frac{b-a}{n-1}\, \frac{n-1}{n+1} = a.</math>
L'espérance de l'erreur commise <math>(\hat{\hat{a}}-a) </math> est nulle, ce qui en fait un estimateur sans biais de <math>a.</math>
La démonstration est identique avec l'autre estimateur <math>\hat{ \hat{b} } .</math> }}
Le calcul de ces estimateurs (avec ou sans biais) ne nécessite pas la connaissance des paramètres <math>(a;b)</math> de la distribution mère.
Les lois de distribution qui régissent le couple d'estimateurs sans biais sont plus complexes à déterminer. Le document <ref name=":1" /> donne les lois suivantes :
Densité de probabilité associée au couple d'estimateurs sans biais
- <math>
d^{2} \mathbb{P}\, \left(x \le \hat{\hat{a}} \le x+dx \, ; \, y \le \hat{\hat{b}} \le y+dy \right) = \underbrace{\frac{n\,\left(n-1\right)^{n}}{\left(n+1\right)^{n-1}\, \left(b-a\right)^{n}}\, \left(y-x\right)^{n-2}}_{f_{\hat{\hat{a}},\hat{\hat{b}}}(x,y)} \,dx\,dy. </math>
Lois marginales régissant chacun des deux estimateurs sans biais
Sachant que la variable <math>\hat{\hat{a}}</math> admet comme support l'intervalle <math>\left[\frac{n\,a-b}{n-1}\, ;\, b\right]</math> :
- <math>\begin{cases}
\forall x \le a & d \mathbb{P}\, \left(x \le \hat{\hat{a}} \le x+dx\right) & = & \frac{\left(n-1\right)^{n-1}}{n^{n-2}\, \left(b-a\right)^{n}}\, \left[\left(b-x\right)^{n-1}-n^{n-1}\left(a-x\right)^{n-1}\right]\, dx \\ \forall x \ge a & d \mathbb{P}\, \left(x \le \hat{\hat{a}} \le x+dx\right) & = & \frac{\left(n-1\right)^{n-1}}{n^{n-2}\,\left(b-a\right)^{n}}\,\left(b-x\right)^{n-1}\, dx. \end{cases}</math> Sachant que la variable <math>\hat{\hat{b}}</math> admet comme support l'intervalle <math>\left[a\, ; \, \frac{n\,b-a}{n-1}\right]</math> :
- <math>\begin{cases}
\forall y \le b & d \mathbb{P}\, \left(y \le \hat{\hat{b}} \le y+dy\right) & = & \frac{\left(n-1\right)^{n-1}}{n^{n-2}\,\left(b-a\right)^{n}}\,\left(y-a\right)^{n-1}\, dy \\ \forall y \ge b & d \mathbb{P}\, \left(y \le \hat{\hat{b}} \le y+dy\right) & = & \frac{\left(n-1\right)^{n-1}}{n^{n-2}\, \left(b-a\right)^{n}}\, \left[\left(y-a\right)^{n-1}-n^{n-1}\left(y-b\right)^{n-1}\right]\, dy. \end{cases}</math>
Intervalle de pari
On considère ici :
- une loi mère uniforme <math>\mathcal{U} (a, b)</math> donnée et connue,
- le couple d'estimateurs avec biais formé par le minimum <math>(\hat{a})</math> et le maximum <math>(\hat{b})</math> empiriques déterminés sur un <math>n</math>-échantillon.
Les estimateurs considérés sont ceux avec biais car :
- leurs lois de distribution sont simples à manipuler ;
- le document référencé <ref name=":1" /> montre que construire des intervalles de pari à partir des estimateurs sans biais n'aboutit pas in fine à des intervalles plus réduits pour un niveau de confiance donné, et en explique la raison.
On cherche à connaître comment se répartissent les n-échantillons possibles formés à partir de la distribution mère <math>\mathcal{U}\,(a, b)</math>, en plaçant dans le plan <math>\mathbb{R}^2</math> :
- sur l'axe des abscisses, la borne inférieure <math>(a)</math> de la distribution mère et les minima empiriques des échantillons ;
- sur l'axe des ordonnées, la borne supérieure <math>(b)</math> de la distribution mère et les maxima empiriques des échantillons.
On note :
- <math>\begin{cases}
m & = & \text{valeur de}\, \hat{a} & = & \min \,(x_i)_{i=1,n} \\ M & = & \text{valeur de}\, \hat{b} & = & \max \,(x_i)_{i=1,n} . \end{cases}</math>
La distribution mère <math>\mathcal{U} (a, b)</math> et la construction des estimateurs imposent la hiérarchie suivante : <math>a \leq m \leq M \leq b.</math> Les échantillons issus de cette loi mère sont tous situés à l'intérieur du triangle rectangle formé par la droite <math>x=a</math>, la droite <math>y=b</math> et la première bissectrice (cf. figure ci-contre).
Un bon échantillon (i.e. un échantillon représentatif de sa population mère) se caractérise par :
- un minimum empirique <math>(m)</math> proche de <math>a</math>
- et un maximum empirique <math>(M)</math> proche de <math>b.</math>
Le risque de pari <math>(\alpha)</math> associé à un échantillon <math>(\hat{a}=m \,;\hat{b}=M)</math> est défini par la probabilité de trouver un échantillon plus mauvais que lui, i.e. présentant :
- un minimum empirique supérieur ou égal à <math>m,</math>
- ou un maximum empirique inférieur ou égal à <math>M.</math>
Intervalle de pari sur le minimum empirique
L'expérimentateur choisit son risque de pari <math>(\alpha)</math>. Le risque de pari sur le minimum empirique est défini par l'équation suivante :
- <math>\alpha=\mathbb{P}\,\left(\hat{a} \geq m \; \forall \hat{b} \in \left[\hat{a}\,;\, b\right]\right)=\left(\frac{b-m}{b-a}\right)^{n}\Rightarrow\, m_{1-\alpha}=b-(b-a)\cdot\alpha^{\frac{1}{n}}</math>
La surface de pari sur le minimum empirique au niveau de confiance <math>(1-\alpha)</math> rassemble les échantillons qui vérifient : <math>\hat{a}\in [a\,;m_{1-\alpha}]</math> et <math>\hat{b} \in [\hat{a}\,;b]</math>.
Intervalle de pari sur le maximum empirique
De façon similaire, le risque de pari sur le maximum empirique est défini par l'équation suivante :
- <math>\alpha=\mathbb{P}\,\left(\hat{b} \leq M\; \forall \hat{a} \in \left[a\,;\hat{b}\right]\right)=\left(\frac{M-a}{b-a}\right)^{n}\Rightarrow\, M_{1-\alpha}=a+(b-a)\cdot\alpha^{\frac{1}{n}}</math>
La surface de pari sur le maximum empirique au niveau de confiance <math>(1-\alpha)</math> rassemble les échantillons qui vérifient : <math>\hat{b}\in [M_{1-\alpha}\,;b]</math> et <math>\hat{a} \in [a\,;\hat{b}]</math>.
Surface de pari sur les deux bornes
La surface de pari est celle qui capture la proportion <math>(1-\alpha)</math> des échantillons formés à partir d'une population mère <math>\mathcal{U}\,(a, b)</math> donnée et connue.
Le problème dépend de la forme que l'on aura choisi de donner à cette surface, qui peut être un carré, un triangle, un quart de cercle, ... On choisit ici un triangle rectangle, de sommet <math>P_1\,\left(a\,;\,b\right)</math> et dont l'hypoténuse est parallèle à la première bissectrice (cf. figure ci-contre). La raison est que la densité de probabilité associée au couple <math>\left(\hat{a}\,;\,\hat{b}\right)</math>est constante le long d'un lieu <math>y-x=Cte</math>. Ceci permet de découper l'espace suivant une ligne iso-densité, minimisant ainsi la surface de pari pour capturer un effectif donné.
Les variables réduites classiques pour les distributions uniformes sont introduites afin de simplifier les calculs qui suivent :
- <math>\begin{cases}
\varphi & = & \frac{m-a}{b-a} \\ \psi & = & \frac{M-a}{b-a} \end{cases}</math>
Les relations de conversion du domaine réel en domaine réduit sont données par le tableau ci-dessous :
Échantillon {m ; M} à population {a ; b} donnée | Représentation adimensionnée | Population {a ; b} à échantillon {m ; M} donné |
---|---|---|
<math>a \le m \le M \le b</math> | <math>0 \le \varphi \le \psi \le 1</math> | <math>a \le m \le M \le b</math> |
<math>\begin{cases}
m & \in & \left[a\,;\,M\right] \\ M & \in & \left[m\,;\,b\right] \end{cases}</math> |
<math>\begin{cases}
a & \in & \left]-\infty\,;m\right] \\ b & \in & \left[M\,;+\infty\right[\end{cases}</math> | |
<math>m=a</math> | <math>\varphi=0</math> | <math>a=m</math> |
<math>m \rightarrow M=b</math> | <math>\varphi=1</math> | <math>a \rightarrow -\infty</math> |
<math>M \rightarrow m=a</math> | <math>\psi=0</math> | <math>b \rightarrow +\infty</math> |
<math>M=b</math> | <math>\psi=1</math> | <math>b=M</math> |
Exprimée dans le plan des coordonnées réduites, la surface pari au niveau de confiance <math>(1-\alpha)</math> est constituée par l'intérieur du triangle rectangle de sommets :
- <math>
P_1 \begin{pmatrix} 0 \\ 1\end{pmatrix}\;\; P_2 \begin{pmatrix} \delta \\ 1\end{pmatrix}\;\;P_3 \begin{pmatrix} 0 \\ 1-\delta \end{pmatrix} </math>
La marge réduite <math> \left(\delta\right) </math> est reliée au risque de pari <math> \left(\alpha\right) </math> par l'équation suivante :
<math> \left(1-\delta\right)^{n-1}\,\left[1+\left(n-1\right)\delta\right]=\alpha </math>
L'équation liant la marge réduite <math>\left(\delta_{1-\alpha}\right)</math> au risque de pari <math>\left(\alpha\right)</math> peut être résolue par la méthode du point fixe : la suite <math>\left(x_n\right)</math> définie ci-dessous converge rapidement vers la solution, même avec une initialisation forfaitaire :
<math>\begin{cases} x_0 & = & \frac{1}{2} \\ x_{n+1} & = & 1-\left(\frac{\alpha}{1+\left(n-1\right)\,x_n}\right)^{\frac{1}{n-1}} \end{cases}</math>
Le lieu des solutions est tracé ci-contre, en fonction de l'effectif de l'échantillon et du risque de pari <math>\alpha</math>.
Replacée dans le plan des coordonnées correspondant au problème réel de l'expérimentateur, la surface pari au niveau de confiance <math>(1-\alpha)</math> est constituée par l'intérieur du triangle rectangle de sommets :
- <math>
P_1 \begin{pmatrix} a \\ b\end{pmatrix}\;\; P_2 \begin{pmatrix} a+\delta_{1-\alpha}\,\left(b-a\right) \\ b\end{pmatrix}\;\;P_3 \begin{pmatrix} a \\ b-\delta_{1-\alpha}\,\left(b-a\right) \end{pmatrix} </math>
Surface de confiance
Le point de vue est inversé par rapport à la section précédente :
- le n-échantillon est connu, et le couple des minimum et maximum empiriques obtenus est <math>\left(m\,;M\right)</math> ;
- on veut connaître quelles populations mères <math>\mathcal{U}\,(a, b)</math> auraient pu générer cet échantillon, au niveau de confiance <math>(1-\alpha)</math> choisi par l'expérimentateur.
Il s'agit donc de recenser les populations mères qui contiennent l'échantillon en question dans leurs surfaces de pari respectives au niveau de confiance <math>(1-\alpha)</math>.
L'intégrale calculée lors de la démonstration qui établit la surface de pari en coordonnées réduites <math>\left(\varphi\,;\,\psi\right)</math> reste inchangée, quelles que soient les raisons qui font varier ces coordonnées réduites :
- les variations du couple <math>\left(m\,;M\right)</math> à population mère <math>\mathcal{U}\,(a, b)</math> fixée,
- ou bien les variations des bornes <math>\left(a\,;\,b\right)</math> de la population mère à échantillon <math>\left(m\,;M\right)</math> fixé
La surface de confiance est obtenue par déréduction de la surface établie en coordonnées <math>\left(\varphi\,;\,\psi\right)</math> pour le niveau de confiance <math>(1-\alpha)</math>, en cherchant <math>\left(a\,;\,b\right)</math> à échantillon <math>\left(m\,;M\right)</math> fixé. Cette surface de confiance est constituée par l'intérieur du triangle rectangle de sommets :
- <math>
Q_1 \begin{pmatrix} m \\ M\end{pmatrix}\;\; Q_2 \begin{pmatrix} \frac{m-\delta_{1-\alpha}\,M}{1-\delta_{1-\alpha}} \\ M\end{pmatrix}\;\;Q_3 \begin{pmatrix} m \\ \frac{M-\delta_{1-\alpha}\,m}{1-\delta_{1-\alpha}} \end{pmatrix} </math>
Applications
En statistiques, lorsqu'une valeur p (p-value) est utilisée dans une procédure de test statistique pour une hypothèse nulle simple, et que la distribution du test est continue, alors la valeur p est uniformément distribuée selon la loi uniforme sur [0, 1] si l'hypothèse nulle est vérifiée.
Obtenir des réalisations de la loi uniforme
Modèle:Article détaillé La plupart des langages de programmation fournissent un générateur de pseudo-nombres aléatoires, dont la distribution est effectivement la loi uniforme standard.
Si u est U(0, 1), alors v = a + (b − a)u suit la loi U(a, b).
Obtenir des réalisations d'une loi continue quelconque
D'après le théorème cité plus haut, la loi uniforme permet en théorie d'obtenir des tirages de toute loi continue à densité. Il suffit pour cela d'inverser la Fonction de répartition de cette loi, et de l'appliquer à des tirages de la loi uniforme standard. Malheureusement, dans bien des cas pratiques, on ne dispose pas d'une expression analytique pour la fonction de répartition; on peut alors utiliser une inversion numérique (coûteuse en calculs) ou des méthodes concurrentes, comme la Méthode de rejet.
Le plus important exemple d'échec de la méthode de la transformée inverse est la Loi normale. Toutefois, la Méthode de Box-Muller fournit une méthode pratique pour transformer un échantillon uniforme en un échantillon normal, et ce de manière exacte<ref>Plus exactement, la méthode nécessite deux tirages indépendants U(0, 1) pour fournir deux tirages normaux indépendants.</ref>.
Permutations aléatoires uniformes et loi uniforme
Des mathématiciens comme Luc Devroye ou Richard P. Stanley ont popularisé l'utilisation de la loi uniforme sur [0, 1] pour l'étude des permutations aléatoires (tailles des cycles, nombres eulériens, analyse d'algorithmes de tri comme le tri rapide, par exemple).
Construction d'une permutation aléatoire uniforme à l'aide d'un échantillon de loi uniforme
Soit <math>U=(U_{1}, U_{2}, \dots, U_{n})</math> une suite de variables aléatoires i.i.d. uniformes sur [0, 1], définies sur un espace probabilisé <math>(\Omega,\mathcal A,\mathbb P)</math> (par exemple, définies sur <math>\Omega=[0,1]^n</math> muni de sa tribu des boréliens et de sa mesure de Lebesgue, par <math>U_{k}(\omega_{1}, \omega_{2}, \dots, \omega_{n})\ =\ \omega_{k},</math> ou, de manière équivalente, par <math>U(\omega)=\omega</math>). Pour tout entier k compris entre 1 et n, posons
Ainsi, <math> \sigma(k,\omega)</math> s'interprète comme le rang de <math> U_{k}(\omega)</math> dans l'échantillon, une fois celui-ci rangé dans l'ordre croissant. Modèle:Théorème
Modèle:Démonstration\}.</math>
Par ailleurs, de manière évidente, si <math>U(\omega)\in A_{\tau},</math> alors
Comme
il en découle que
Si <math>U(\omega)\in B,</math> il existe donc un couple i < j tel que <math>U_{i}(\omega)=U_{j}(\omega),</math> et, par suite, <math>\sigma(i,\omega)=\sigma(j,\omega).</math> Ainsi σ(., ω) n'est pas une permutation. Finalement, comme B et les ensembles de type <math>A_{\rho}</math> forment une partition de <math>\R^{n},</math> il en découle que pour toute permutation τ,
et par conséquent
Comme les composantes du vecteur aléatoire <math>U=(U_{1}, U_{2}, \dots, U_{n})</math> sont des variables aléatoires indépendantes à densité de densités respectives notées <math>f_{i}, \quad 1\le i\le n,</math> on sait que le vecteur aléatoire U possède lui-même une densité f, définie par
De même, une densité de probabilité du vecteur aléatoire τ.U est g, définie par :
Dans le cas, comme ici, où les composantes d'un vecteur aléatoire sont i.i.d., on peut choisir les densités de probabilités <math> f_i</math> toutes égales. Ainsi, les densités f et g des vecteurs aléatoires U et τ.U sont égales : les vecteurs aléatoires U et τ.U ont donc même loi. Par conséquent, pour toute permutation τ,
Par ailleurs,
En effet l'hyperplan <math>\{x_{i}=x_{j}\}</math> est de mesure de Lebesgue nulle, et la loi de probabilité de U est à densité donc absolument continue par rapport à la mesure de Lebesgue, donc
Finalement
n!\,\mathbb P\left(\sigma=\tau\right) & = n!\, \mathbb P\left(U\in A_{\tau^{-1}}\right)\ = \ n!\, \mathbb P\left(U\in A_{\mathrm{Id}}\right) \\ & = \sum_{\rho\in\mathfrak{S}_n}\mathbb P\left(U\in A_{\rho}\right) \\ & = \mathbb P\left(U\in B\right) +\sum_{\rho\in\mathfrak{S}_n}\mathbb P\left(U\in A_{\rho}\right) \\ & = 1, \end{align}
</math>où la dernière égalité utilise le fait que B et les ensembles <math>A_{\rho}</math> forment une partition de <math>\R^{n}.</math> }} La proposition ci-dessus reste vérifiée si la distribution de probabilité commune aux variables <math>U_{i}</math> possède une densité, quelle qu'elle soit, et non pas seulement pour la densité uniforme. On peut même se contenter de variables i.i.d. dont la loi est diffuse (sans atomes) modulo une modification mineure de la démonstration. Cependant la loi uniforme est particulièrement commode pour diverses applications.
Nombres de descentes d'une permutation aléatoire, et nombres eulériens
Soit <math>X_{n}(\omega)</math> le nombre de descentes d'une permutation <math>\sigma(\omega)</math> tirée au hasard uniformément dans <math>\mathfrak{S}_n.</math> Bien sûr,
\mathbb P\left(X_{n}=k\right) & = \frac{\mathrm{nombre~de~cas~favorables}}{\mathrm{nombre~de~cas~possibles}} \\ & = \frac{A(n,k)}{n!}, \end{align}
</math>où A(n,k) désigne le nombre de permutations de <math>\mathfrak{S}_n</math> possédant exactement k descentes. A(n,k) est appelé nombre eulérien. Posons
On a alors<ref>voir Modèle:Article ou bien Modèle:Article.</ref> Modèle:Théorème Modèle:Démonstration Il en découle immédiatement un théorème central limite pour <math>X_{n},</math> via le théorème de Slutsky.