Loi forte des grands nombres

{{#ifeq:||Un article de Ziki, l'encyclopédie libre.|Une page de Ziki, l'encyclopédie libre.}}

Une loi forte des grands nombres est une loi mathématique selon laquelle la moyenne des n premiers termes d'une suite de variables aléatoires converge presque sûrement vers une constante (non aléatoire), lorsque n tend vers l'infini. Lorsque ces variables ont même espérance, par exemple lorsqu'elles ont toutes la même loi, cette limite constante est l'espérance commune à toutes les variables aléatoires de cette suite. La loi forte est vérifiée sous diverses conditions de dépendance et d'intégrabilité portant sur les variables aléatoires de la suite.

Les exemples les plus célèbres concernent la proportion de résultats pile ou face lors des n premiers lancers d'une série potentiellement infinie de lancers (cette proportion converge presque sûrement vers 0,5), ou la proportion de chiffres 0, 1, 2, ..., 8 ou 9 dans le développement décimal d'un nombre réel tiré au hasard. La première version de la loi forte des grands nombres est due à Émile Borel, qui démontre ainsi, en 1909<ref>Modèle:Article.</ref>, le théorème des nombres normaux.

Énoncé général

Le principe de la loi forte des grands nombres est que sous certaines conditions (sur la dépendance, sur l'homogénéité et sur les moments) la moyenne d'une suite de variables aléatoires <math>\{X_n\}</math> converge presque sûrement vers la même limite (constante) que l'espérance de la moyenne. En particulier, l'adjectif « fort » fait référence à la nature de la convergence établie par ce théorème : il est réservée à un résultat de convergence presque sûre. Par opposition, la loi faible des grands nombres, établie par Bernoulli, est un résultat de convergence en probabilité, seulement. Soit : Modèle:Théorème

Il existe différents théorèmes selon le type d'hypothèses faites sur la suite <math>\{X_n\}</math><ref>Classification et notation reprise de White (1984).</ref> :

  • observations indépendantes et identiquement distribuées,
  • observations indépendantes et non identiquement distribuées,
  • observations dépendantes et identiquement distribuées.

Observations indépendantes et identiquement distribuées

Modèle:Théorème

C'est la première loi forte à avoir été démontrée avec des hypothèses optimales. Pour la démontrer, il fallait définir rigoureusement le concept de convergence presque sûre, ce qui a amené Kolmogorov à considérer les probabilités comme une branche de la théorie de la mesure, un saut conceptuel dont Kolmogorov prouvait ainsi l'efficacité. La théorie moderne des probabilités s'est construite à partir du travail fondateur de Kolmogorov sur la loi forte des grands nombres. La loi forte des grands nombres est aussi un ingrédient important dans la démonstration d'autres lois fortes des grands nombres, comme le théorème de Glivenko-Cantelli, la LFGN pour les processus de renouvellement, ou la LFGN pour les chaînes de Markov. C'est bien du théorème dû à Kolmogorov que l'on parle lorsqu'on dit « la loi forte des grands nombres », les autres théorèmes n'étant que des lois fortes des grands nombres. Ce théorème est aussi intéressant parce qu'il aboutit à une conclusion plus forte : il établit l'équivalence entre l'intégrabilité de la suite et sa convergence, alors que les autres théorèmes fournissent seulement des implications, sans leurs réciproques. Dans le cas où les termes de la somme sont des variables de Bernoulli, la loi forte des grands nombres a été établie par Émile Borel en 1909. D'autres versions de la loi forte des grands nombres ont succédé à la version due à Borel, jusqu'à la version définitive de Kolmogorov.

Observations indépendantes et non-identiquement distribuées

Modèle:Théorème <\infty </math> alors

<math>\overline X_n -\overline\mu_n \xrightarrow{p.s.} 0 .</math> }}

Pour pouvoir relâcher l'hypothèse d'équidistribution, on est amené à faire une hypothèse plus forte sur l'intégrabilité.

Observations dépendantes et identiquement distribuées

Modèle:Théorème

Loi forte des grands nombres de Kolmogorov

La moyenne empirique d’une suite de variables aléatoires indépendantes, identiquement distribuées, et intégrables, converge presque sûrement vers leur moyenne mathématique (ou espérance).

Autres formulations

On note souvent :

<math>S_{n}=X_{1}+X_{2}+\cdots+X_{n}.</math>

Ainsi l'énoncé devient Modèle:Théorème

Énoncé usuel de la loi forte

L'énoncé ci-dessous est la forme habituelle de la loi forte des grands nombres, et est une conséquence directe (une forme affaiblie) du théorème donné plus haut : Modèle:Théorème

Remarques

  • En statistiques, <math>\textstyle \frac{X_1 + \cdots + X_n}{n}</math> ou bien <math>\textstyle \frac{S_n}{n}</math> est appelée moyenne empirique des <math>X_i</math>, et est souvent notée <math>\overline{X}</math>.
  • On peut formuler l'hypothèse <math>\left\{\forall n\ge1,\ X_{n}\text{ est integrable}\right\}</math> sous différentes formes :
    • <math>\left\{\forall n\ge1,\ \mathbb{E}\left[\left|X_{n}\right|\right]<+\infty\right\}</math>,
    • <math>\left\{\forall n\ge1,\ X_{n}\in\mathcal L^1(\Omega,\mathcal A,\mathbb P)\right\}</math>,
  • ou bien encore, puisque les <math>X_{i}</math> ont toutes même loi,
    • <math>\left\{X_{1}\text{ est integrable}\right\}</math>,
    • <math>\left\{\mathbb{E}\left[\left|X_{1}\right|\right]<+\infty\right\}</math>,
    • <math>\left\{X_{1}\in\mathcal L^1(\Omega,\mathcal A,\mathbb P)\right\}</math>.

Démonstration de la loi forte de Kolmogorov

Modèle:1ère étape de la démonstration : troncature

On suppose tout d'abord que les variables <math>X_{n}</math> sont centrées. On n'abandonnera cette hypothèse qu'à la toute dernière étape de la démonstration. On pose

<math>

X^{\prime}_{n} = X_{n}\,1_{\left|X_{n}\right|\le n},

</math>

et

<math>

S^{\prime}_{n} = X^{\prime}_{1}+X^{\prime}_{2}+\cdots+X^{\prime}_{n}.

</math>

Dans cette section on démontre que

Modèle:Théorème

Modèle:Démonstration

Dans les sections suivantes on va donc démontrer que

<math>

\mathbb{P}\left(\omega\in\Omega\ \left|\ \lim_{n}\tfrac{S^{\prime}_{n}(\omega)}n=0\right.\right) = 1.

</math>

L'idée est que plus les variables concernées sont intégrables, i.e. plus la queue de distribution <math>\mathbb{P}\left(\left|X_1-\mathbb{E}(X_1)\right|\ge x\right)</math> décroît rapidement, plus il est facile de démontrer la loi forte des grands nombres à l'aide du lemme de Borel-Cantelli. Ainsi il est facile de démontrer une forme affaiblie de la loi forte des grands nombres, par exemple sous l'hypothèse que les variables <math>X_n</math> sont indépendantes, identiquement distribuées et bornées, auquel cas <math>\mathbb{P}\left(\left|X_1-\mathbb{E}(X_1)\right|\ge x\right)</math> est nulle pour <math>x</math> assez grand, ou bien sous l'hypothèse, moins brutale, que les variables <math>X_n</math> sont indépendantes et identiquement distribuées et possèdent un moment d'ordre 4, auquel cas

<math>\mathbb{P}\left(\left|X_1-\mathbb{E}(X_1)\right|\ge x\right)=\mathcal{O}\left(x^{-4}\right)</math>.

Ici, en tronquant les <math>X_n</math>, Kolmogorov s'est ramené à des variables <math>X^{\prime}_n</math> bornées et indépendantes, mais qui n'ont pas même loi.

Modèle:2ème étape de la démonstration : recentrage

Les <math>X_{k}</math> ont beau être centrées, cela n'entraîne pas que les <math>X^{\prime}_{k}</math> soient centrées, sauf si on suppose, par exemple, que les <math>X_{k}</math> sont symétriques, c'est-à-dire sauf si <math>X_{k}</math> a même loi que <math>-X_{k}</math>. Par exemple, si <math>f_{X_{1}}(x)=e^{-x-1}1_{[-1,+\infty[}(x)</math>, alors, dès que <math>n\ge 1,</math> <math>X^{\prime}_{k}</math> n'est pas centrée. Il est commode, pour la suite, de centrer les <math>X^{\prime}_{k}</math> : on pose

<math>Z_{k}= X^{\prime}_{k}-\mathbb{E}\left[X^{\prime}_{k}\right],</math>

et

<math>C_{n}=Z_{1}+Z_{2}+\cdots+Z_{n}.</math>

Alors Modèle:Théorème

Modèle:Démonstrationn\rightarrow\ell</math>), donc, pour tout <math>\omega\in\Omega</math>,

<math>\begin{align}

\lim_{n}\frac{S^{\prime}_{n}(\omega)}n-\frac{C_{n}(\omega)}n &= 0. \end{align}

</math>

La Proposition 2 est donc démontrée. }}

Modèle:3e étape : Inégalité de Kolmogorov

C'est l'étape où Kolmogorov utilise l'hypothèse d'indépendance (et, sans le dire, la notion de temps d'arrêt). Par contre, l'Inégalité de Kolmogorov ne requiert pas des variables de même loi. Modèle:Théorème

Modèle:Démonstration

Modèle:AncreModèle:4ème étape : Convergence de séries de variables aléatoires

L'inégalité de Kolmogorov est, avec le lemme de Borel-Cantelli, l'ingrédient essentiel de la preuve de la proposition suivante : Modèle:Théorème

Modèle:Démonstration{x^2}.</math>

Notons que la suite de variables aléatoires <math>(V_{M})_{M\ge 0}</math>, définie par

<math>

\begin{align} V_{M} &= \sup_{n,m\ge 1}\left|T_{M+n}-T_{M+m}\right| \\ &= \sup_{k,\ell> M}\left|T_{k}-T_{\ell}\right|, \end{align}

</math>

est décroissante, puisque la suite d'ensembles <math>(C_{M})_{M\ge 0}</math>, définie par

<math>

C_M=\{\left|T_{k}-T_{\ell}\right|\ |\ k,\ell> M\},

</math>

est décroissante. De plus <math>V_{M}</math> satisfait à

<math>

\begin{align} V_{M} &\le \sup_{n,m\ge 1}\left(\left|T_{M+n}-T_{M}\right|+\left|T_{M}-T_{M+m}\right|\right) \\ &= 2\sup_{n\ge 1}\left|T_{M+n}-T_{M}\right|. \end{align}

</math>

On en déduit que, pour tout <math> k,M\ge 1</math>,

<math>

\begin{align} \mathbb{P}\left(V_{M}>\tfrac1k\right) &\le \mathbb{P}\left(\sup_{n\ge 1}\left|T_{M+n}-T_{M}\right|>\tfrac1{2k}\right) \\ &\le 4k^2r_{M}. \end{align}

</math>

La suite <math> (r_{M})_{M\ge 1}</math> convergeant vers 0, il suit que, pour tout <math> k\ge 1</math>, on peut choisir <math> M(k)>M(k-1)</math> tel que

<math>

\mathbb{P}\left(V_{M(k)}>\tfrac1k\right) \le 2^{-k}.

</math>

Ainsi

<math>\sum_{k}\mathbb{P}\left(V_{M(k)}>\tfrac1k\right)<+\infty,</math>

et le lemme de Borel-Cantelli entraîne que, presque sûrement, à partir d'un certain rang, <math> V_{M(k)}</math> est majorée par <math> \tfrac1k,</math> et donc que <math> V_{M(k)}</math> converge presque sûrement vers 0. Par ailleurs, on a vu plus haut que pour tout <math> \omega</math>, <math> V_{M}(\omega)</math> est une suite décroissante en <math> M.</math> Une suite décroissante possédant une sous-suite convergente est elle-même convergente, donc <math> V_{M}</math> converge presque sûrement vers 0. Or

<math>

\begin{align} \left\{\lim_{M}V_{M}(\omega)=0\right\}\ &\stackrel{{\scriptstyle\text{def.}}}{\Leftrightarrow}\ \left\{T_{n}(\omega)\text{ est une suite de Cauchy}\right\} \\ &\Leftrightarrow\ \left\{T_{n}(\omega)\text{ est une suite convergente}\right\} \\ &\Leftrightarrow\ \left\{\sum_{n}U_{n}(\omega)\ \mathrm{est~une~s\acute erie~convergente}\right\} \end{align}

</math>

C.Q.F.D. }}

Modèle:5e étape : Lemme de Kronecker

Modèle:Théorème

Modèle:Démonstration^1\,\beta x^{\beta-1}\,dx \\ &= \sum_{k=1}^n\ \ b_{k}\int_{0}^1\,\beta x^{\beta-1}1_{k\le nx}\,dx \\ &= \int_{0}^1\,\beta x^{\beta-1}\left(\sum_{1\le k\le nx}\ b_{k}\right)\,dx \end{align}

</math>

Comme la suite <math> \left(\sum_{1\le k\le n}\ b_{k}\right)_{n}</math> est convergente, il existe un réel <math> M </math> tel que

<math>\forall n\ge 1,\ \left|\sum_{1\le k\le n}\ b_{k}\right|\le M.</math>

Donc la suite de fonctions <math> (\phi_{n})_{n} </math> définies sur <math> [0,1] </math> par

<math>\phi_{n}(x)=\sum_{1\le k\le nx}\ b_{k}</math>

est une suite de fonctions uniformément bornées par <math> M </math> (en valeur absolue). De plus, pour tout <math> x\in[0,1] </math>,

<math>\lim_{n}\phi_{n}(x)=b\ 1_{x>0}.</math>

Ainsi le théorème de convergence dominée de Lebesgue donne

<math>

\begin{align} \lim_{n}\int_{0}^1\,\beta x^{\beta-1}\left(\sum_{1\le k\le nx}\ b_{k}\right)\,dx &= b\ \int_{0}^1\,\beta x^{\beta-1}1_{x>0}\,dx \\ &= b. \end{align}

</math>

Comme on a <math> \lim_{n}\sum_{k=1}^nb_{k}=b </math>, en observant le second terme de l'identité

<math>

-a_{n}\left(u_{1}+u_{2}+\cdots+u_{n}\right)+\sum_{k=1}^nb_{k} = \int_{0}^1\,\beta x^{\beta-1}\left(\sum_{1\le k\le nx}\ b_{k}\right)\,dx,

</math>

démontrée plus haut, on en déduit que

<math>\lim_{n}a_{n}\left(u_{1}+u_{2}+\cdots+u_{n}\right)=0.</math>

C.Q.F.D.

Cette démonstration est empruntée à Sydney Resnik, A probability path. }} Pour conclure sa démonstration, Kolmogorov utilise le lemme de Kronecker avec <math> a_{n}=\tfrac{1}{n} </math>, voir section suivante.

Modèle:6e étape : Conclusion dans le cas de variables centrées

Modèle:Théorème{k}\right)<+\infty.</math>

}}

Modèle:Démonstration{k+1}\right)\ = \ \frac{\mathbb{E}\left[X^{\prime 2}_{k}\right]}{(k+1)^2}\ - \ \frac{\mathbb{E}\left[X^{\prime}_{k}\right]^2}{(k+1)^2}.

</math>

Comme <math> \lim_{n} \mathbb{E}\left[X^{\prime}_{n}\right]=0 </math>,

<math>\frac{\mathbb{E}\left[X^{\prime}_{k}\right]^2}{(k+1)^2}=o\left(\frac{1}{k^2}\right),</math>

et la convergence de la série

<math>\sum_{k}\ \text{Var}\left(\frac{Z_{k}}{k+1}\right)</math>

est équivalente à la convergence de la série

<math>\sum_{k}\ \frac{\mathbb{E}\left[X^{\prime 2}_{k}\right]}{(k+1)^2}.</math>

Or

<math>

\begin{align} \sum_{k\ge 1}\ \frac{\mathbb{E}\left[X^{\prime 2}_{k}\right]}{(k+1)^2} &= \sum_{k\ge 1}\ (k+1)^{-2}\ \mathbb{E}\left[X^{2}_{1}\,1_{0<\left|X_{1}\right|\le k}\right] \\ &\le \sum_{k\ge 1}\ \int_{k}^{k+1}x^{-2}\ \mathbb{E}\left[X^{2}_{1}\,1_{0<\left|X_{1}\right|\le x}\right]\ dx \\ &= \int_{1}^{+\infty}x^{-2}\ \mathbb{E}\left[X^{2}_{1}\,1_{0<\left|X_{1}\right|\le x}\right]\ dx \\ &= \mathbb{E}\left[X^{2}_{1}\,1_{0<\left|X_{1}\right|}\ \int_{1}^{+\infty}x^{-2}\ 1_{\left|X_{1}\right|\le x}\ dx\right] \\ &\le \mathbb{E}\left[X^{2}_{1}\,1_{0<\left|X_{1}\right|}\ \int_{\left|X_{1}\right|}^{+\infty}\ x^{-2}\ dx\right] \\ &= \mathbb{E}\left[X^{2}_{1}\,1_{0<\left|X_{1}\right|}\left|X_{1}\right|^{-1}\right] \\ &= \mathbb{E}\left[\left|X_{1}\right|\right]\ <\ +\infty, \end{align}

</math>

par hypothèse. }}

Du lemme 1 et de la Proposition 3, on déduit que, presque sûrement,

<math>

\text{la série }\sum_{k\ge 1}\,\frac{Z_{k}(\omega)}{k}\text{ est convergente,}

</math>

puis, grâce au lemme de Kronecker, on déduit que, presque sûrement,

<math>\lim_{n}\ \frac{C_{n}(\omega)}n\ =\ 0,</math>

ce qui est équivalent à la loi forte des grands nombres (pour des variables centrées), comme on l'a vu aux étapes « troncature » et « recentrage ».

Modèle:7e étape : décentrage

Si on ne suppose plus les <math> X_{n} </math> centrées, mais seulement indépendantes, identiquement distribuées et intégrables, on pose

<math>\hat{X}_{k}= X_{k}-\mathbb{E}\left[X_{k}\right],\ \ \hat{S}_{n}= \hat{X}_{1}+\hat{X}_{2}+\cdots+\hat{X}_{n},</math>

et, les <math> \hat{X}_{n} </math> étant centrées, indépendantes, identiquement distribuées et intégrables, la conclusion des étapes précédentes est que

<math>

\mathbb{P}\left(\omega\in\Omega\ \left|\ \lim_{n}\frac{\hat{S}_{n}(\omega)}n=0\right.\right) = 1.

</math>

Mais

<math>

\begin{align} \frac{\hat{S}_{n}(\omega)}n &= \frac{S_{n}(\omega)-n\mathbb{E}\left[X_{1}\right]}n \\ &= \frac{S_{n}(\omega)}n\ -\ \mathbb{E}\left[X_{1}\right]. \end{align}

</math>

Donc

<math>

\mathbb{P}\left(\omega\in\Omega\ \left|\ \lim_{n}\frac{\hat{S}_{n}(\omega)}n=0\right.\right) = \mathbb{P}\left(\omega\in\Omega\ \left|\ \lim_{n}\frac{S_{n}(\omega)}n=\mathbb{E}\left[X_{1}\right]\right.\right) .

</math>

C.Q.F.D.

Réciproque

Supposons que l'ensemble Ωc défini par

<math>

\Omega_c=\left\{\omega\in\Omega\ \left|\ \frac{S_{n}(\omega)}n \text{ est une suite convergente }\right.\right\}

</math>

est de probabilité 1. Notons <math>\ell(\omega)</math> la limite de la suite ci-dessus, lorsqu'elle est définie, i.e. lorsqu'ω appartient à Ωc. L'ensemble Ωc est inclus dans l'ensemble suivant

<math>

\Omega_0=\left\{\omega\in\Omega\ \left|\ \lim_n\frac{|X_{n}(\omega)|}n=0\right.\right\}

</math>

puisque, lorsque ω appartient à Ωc, on a

<math>

\frac{X_{n}(\omega)}n\ =\ \frac{S_{n}(\omega)}n\ -\ \frac{n-1}n\,\frac{S_{n-1}(\omega)}{n-1}\ \rightarrow\ \ell(\omega)-\left(1\times\ell(\omega)\right)=0.

</math>

Ainsi, l'ensemble Ω0 lui aussi est de probabilité 1. Posons

<math>

A_n=\left\{\omega\in\Omega\ \left|\ |X_{n}(\omega)|>n\right.\right\}

</math>.

La limite supérieure des An est disjointe de l'ensemble Ω0 , donc elle est de probabilité nulle. En vertu de la loi du zéro-un de Borel, on en déduit, puisque les événements An sont indépendants, que

<math>

+\infty>\sum_{n\ge 1}\mathbb{P}\left(|X_{n}|>n\right).

</math>

Par ailleurs, en toute généralité, comme on l'a vu lors de la première étape,

<math>

\sum_{n\ge 1}\mathbb{P}\left(|X_{n}|>n\right)\ =\ \sum_{n\ge 1}\mathbb{P}\left(|X_{1}|>n\right)\ =\ \mathbb{E}\left[\left\lceil|X_{1}|\right\rceil-1\right]\ \ge\ -1+\mathbb{E}\left[|X_{1}|\right].

</math>

Notes et références

Modèle:Références

Voir aussi

Articles connexes

Références

Liens externes

Modèle:Portail