Écart type
En mathématiques, l’écart type (aussi orthographié écart-type) est une mesure de la dispersion des valeurs d'un échantillon statistique ou d'une distribution de probabilité. Il est défini comme la racine carrée de la variance ou, de manière équivalente, comme la moyenne quadratique des écarts par rapport à la moyenne. Il se note en général avec la lettre grecque σ (« sigma »), d’après l’appellation Modèle:Langue en anglais. Il est homogène à la variable mesurée.
Les écarts types sont rencontrés dans tous les domaines où sont appliquées les probabilités et la statistique, en particulier dans le domaine des sondages, en physique, en biologie ou dans la finance. Ils permettent en général de synthétiser les résultats numériques d'une expérience répétée. Tant en probabilités qu'en statistique, il sert à l'expression d'autres notions importantes comme le coefficient de corrélation, le coefficient de variation ou la répartition optimale de Neyman.
Quand l'écart type d'une population est inconnu, sa valeur est approchée à l'aide d'estimateurs.
Exemples
- Population de personnes de même taille
On considère une population de 4 personnes mesurant Modèle:Unité. La moyenne des tailles est de Modèle:Unité. Chaque valeur étant égale à la moyenne, l'écart type est de Modèle:Unité.
- Population de personnes de tailles différentes
On considère maintenant une population de 4 personnes de taille Modèle:Unité, Modèle:Unité, Modèle:Unité et Modèle:Unité. La moyenne est aussi de <math>\frac {2 + 1,8 + 2,2 + 2} 4 = 2\mathrm{m}</math>. Les écarts par rapport à la moyenne sont maintenant de Modèle:Unité, Modèle:Unité, Modèle:Unité et Modèle:Unité, respectivement. Ainsi l'écart type est la moyenne quadratique de ces écarts, c'est-à-dire <math>\sqrt{\frac {0^{2}+0,2^{2}+0,2^{2}+0^{2}} 4}</math> , qui vaut environ Modèle:Unité.
Histoire
L'écart type est une grandeur dont l'invention remonte au Modèle:S mini- siècleModèle:Vérification siècle, qui voit la statistique se développer au Royaume-Uni.
C'est à Abraham de Moivre qu'est attribuée la découverte du concept de mesure de la dispersion qui apparaît dans son ouvrage Modèle:Langue en 1718<ref name=PBerstein group="b">Modèle:Harvsp.</ref>. Mais le terme d'écart type (Modèle:Citation étrangère) a été employé pour la première fois par Karl Pearson en 1893 devant la Royal Society<ref name=Dodge506 group="b">Modèle:Harvsp</ref>. C'est aussi Karl Pearson qui utilise pour la première fois le symbole σ pour représenter l'écart type<ref name=Dodge506 group="b"/>. En 1908, William Gosset, plus connu sous le pseudonyme de Student, définit l'écart type empirique d'un échantillon et montre qu'il est important de le distinguer de l'écart type d'une population<ref name=Dodge506 group="b"/>. La variance est une notion qui apparut plus tard, en 1918, dans un texte de Ronald Fisher intitulé Modèle:Langue<ref name=RAFisher group="i">Modèle:Article</ref>.
Sur population totale
Définition
À partir d'un relevé exhaustif Modèle:Math d'une variable quantitative pour tous les individus d'une population, l'écart type est la racine carrée de la variance, c'est-à-dire<ref name="Saporta279" group="b">Modèle:Harvsp</ref>,<ref>Modèle:Lien web</ref>,<ref> Voir théorème de König-Huygens pour l'établissement de la seconde formule</ref> :
où <math>\overline{x}</math> représente la moyenne. L'écart type est homogène à la variable mesurée, c'est-à-dire que si par un changement d'unité, toutes les valeurs sont multipliées par un coefficient Modèle:Math, l'écart type sera multiplié par le même coefficient. En revanche, l'écart type est invariant par décalage additif : si on ajoute une constante à toutes les valeurs relevées, cela ne change pas l'écart type. Ces deux propriétés font de l'écart type un indicateur de dispersion.
Par contraste avec d'autres indicateurs de dispersion comme l'écart interquartile, l'écart type a l'avantage de pouvoir se calculer à partir des moyennes et écarts types sur une partition de la population, puisque la variance globale est la somme de la variance des moyennes et de la moyenne des variances. Cela permet de calculer l'écart type en parallèle.
L'écart type est implémenté en Python dans la bibliothèque numpy
avec la méthode std
. En R, la fonction sd
utilise <math>\frac{1}{n-1}</math> à la place de <math>\frac1n</math><ref>Modèle:Lien web.</ref>, ce qui correspond à l'estimateur de l'écart-type d'une population à partir d'un échantillon.
Expression comme distance
L'écart type est la distance euclidienne du point <math>M</math> de coordonnées <math>\left( x_1, \ldots, x_n \right)</math> à la droite diagonale engendrée par le vecteur <math>\left( 1, \ldots, 1 \right)</math> dans <math>\R^n</math>, atteinte en son projeté orthogonal de coordonnées <math>\left( \overline{x}, \ldots, \overline{x} \right)</math>.
L'écart type est donc le minimum de la fonction <math>t\mapsto \sqrt{\frac{1}{n}\sum_{i=1}^n (x_i-t)^2}</math> qui calcule la distance entre Modèle:Mvar et le point de coordonnées Modèle:Math.
Coefficient de variation
L'écart type peut être utilisé pour comparer l'homogénéité de plusieurs populations sur une même variable. Par exemple, si on donne deux classes d'un même niveau moyen et évaluées selon les mêmes critères, la classe avec un plus fort écart type des notes sera plus hétérogène. Dans le cas d'une notation de <math>0</math> à <math>20</math>, l'écart type minimal est <math>0</math> (notes toutes identiques), et peut valoir jusqu'à <math>10</math> si la moitié de la classe à <math>0 / 20</math> et l'autre moitié <math>20 / 20</math><ref group="Note">Si n élèves ont 0/20 et n élèves ont 20/20, c'est-à-dire l'échantillon contient n fois la valeur 20 et n fois la valeur 0, la moyenne est <math>\tfrac{n\times 20}{n+n}</math> ; soit Modèle:Math et Modèle:Math.
Les valeurs au carré, notées Modèle:Math, sont n fois 400 et n fois 0. La moyenne de Modèle:Math vaut donc <math>\overline{X^2} = 200</math>. On en déduit que la variance vaut 100 et l'écart type 10.</ref>.
En revanche, on ne peut comparer tels quels les écarts types de variables différentes, et dont les ordres de grandeur ne correspondent pas nécessairement. Pour une variable quantitative strictement positive, on définit alors le coefficient de variation, égal au quotient de l'écart type par la moyenne<ref name=Saporta121 group="b">Modèle:Harvsp</ref>. Ce nombre adimensionnel ne dépend pas de l'unité de mesure choisie et permet de comparer la dispersion de variables différentes.
Un coefficient de variation élevé peut éventuellement signaler l'existence d'une valeur aberrante. Un critère consiste à rejeter les valeurs qui diffèrent de la moyenne par plus de 3 fois l'écart type. Dans le cas d'une distribution gaussienne, la probabilité d'un tel dépassement<ref name=DAnderson group="b">Modèle:Article</ref> est de l'ordre de 3/1000.
Pour une variable aléatoire
Définition
La modélisation probabiliste d'une distribution statistique consiste à définir une variable aléatoire, c'est-à-dire une application Modèle:Mvar avec une mesure de probabilité <math>\mathbb{P}</math>, laquelle permet de définir les probabilités de la forme <math>\mathbb{P}(X \in A)</math>. La donnée de ces probabilités constitue la loi de probabilité<ref name=Saporta16 group="b">Modèle:Harvsp</ref> de Modèle:Mvar. La modélisation est fidèle si la probabilité d'un évènement correspond à la fréquence d'occurrence des valeurs correspondantes dans la population testée, conformément à la loi des grands nombres.
On s'intéresse ici aux variables aléatoires réelles ou vectorielles de carré intégrable, c'est-à-dire dont l'espérance Modèle:Math converge. Pour une variable vectorielle (à valeurs dans un espace vectoriel normé complet), l'espérance est un vecteur du même espace et le carré désigne le carré de la norme. L'ensemble <math>\mathrm{L}^2(\Omega)</math> de ces variables est lui-même un espace vectoriel.
L'écart type de Modèle:Mvar est la racine carrée de la variance<ref group="Note">La deuxième égalité est donnée par le théorème de König-Huygens.</ref>,<ref name=SMéléard group="i">Modèle:Lien web</ref> <math>\sigma(X)=\sqrt{ \mathbb{E}\left[\left (X-\mathbb{E}[X]\right )^2 \right]}=\sqrt{ \mathbb{E}[ X^2 ] - \mathbb{E}[ X ]^2}</math>.
L'existence de l'écart type est assurée pour une variable aléatoire bornée ou admettant une fonction de densité dominée à l'infini par une fonction puissance <math>t\mapsto \frac{1}{t^{\alpha}}</math> avec Modèle:Math.
Exemples
Dans le cas d'une variable aléatoire discrète dont les valeurs sont notées Modèle:Mvar, avec <math>p_i = \mathbb{P}(X = x_i)</math>, l'écart type s'écrit comme pour une série statistique <math>\sigma := \sqrt{\sum_{i=1}^n p_i (x_i-\mu)^2} = \sqrt{\left( \sum_{i=1}^n p_i {x_i}^2 \right) - \mu^2 }</math>, où Modèle:Mvar est l'espérance de la loi de Modèle:Mvar.
En particulier, si Modèle:Mvar est uniforme<ref name=Saporta30 group="b">Modèle:Harvsp</ref> sur un ensemble fini <math>(x_1, \dots, x_n)</math>, c'est-à-dire si
- <math>p_i = \frac{1}{n}</math> pour tout Modèle:Mvar entre 1 et Modèle:Mvar,
alors
- <math>\sigma_X:=\sqrt{ \frac{1}{n}\sum_{i=1}^n (x_i-\mu)^2} = \sqrt{ \frac{1}{n}\left( \sum_{i=1}^n {x_i}^2 \right) - \mu^2 }</math>.
Dans le cas d'une variable aléatoire à densité pour laquelle les probabilités s'écrivent <math>\mathbb P_X \left(]a,b[\right) = \mathbb P\left(X\in ]a,b[\right)=\int_a^b f(x)\,\mathrm{d}x</math> où Modèle:Mvar est une fonction localement intégrable, pour la mesure de Lebesgue par exemple, mais pas nécessairement une fonction continue<ref name=Rioul45 group="b">Modèle:Harvsp</ref>, l'écart type de Modèle:Mvar est défini par <math>\sigma_X:=\sqrt{\int_{\R} (x- \mu)^2 f(x) \mathrm{d}x} = \sqrt{\int_{\R}x^2 f(x)\mathrm{d}x - \mu^2}</math>où <math>\mu = \int_{\R}x f(x)\mathrm{d}x</math> est l'espérance de Modèle:Mvar.
Avec ces formules et la définition, le calcul des écarts types pour les lois couramment rencontrées est aisé. Le tableau suivant donne les écarts types de quelques-unes de ces lois :
Nom de la loi | Paramètre(s) | Description | Écart type |
---|---|---|---|
Loi de Bernoulli<ref group="b" name="Saporta30"/> | Modèle:Math | Loi discrète sur Modèle:Math avec une probabilité Modèle:Mvar d'obtenir 1 | <math>\sigma=\sqrt{p(1-p)}</math> |
Loi binomiale<ref name=Saporta31 group="b">Modèle:Harvsp</ref> | <math>n\in\N^*</math> et Modèle:Math | Loi de la somme de Modèle:Mvar variables indépendantes suivant la loi de Bernoulli de même paramètre Modèle:Mvar | <math>\sigma=\sqrt{n p (1-p)}</math> |
Loi géométrique<ref name=Saporta38 group="b">Modèle:Harvsp</ref> | Modèle:Math | Loi du rang de la première réalisation dans une suite de variables de Bernoulli indépendantes de même paramètre Modèle:Mvar | <math>\sigma=\sqrt{\frac{1-p}{p^2}}</math> |
Loi uniforme sur un segment<ref name=Saporta39 group="b">Modèle:Harvsp</ref> | Modèle:Math | Loi de densité constante surModèle:Math | <math>\sigma=\frac{b-a}{2\sqrt{3}}</math> |
Loi exponentielle<ref name=Saporta39 group="b"/> | <math>\lambda\in\R^{+*}</math> | Loi à densité avec un taux de panne constant Modèle:Math | <math>\sigma=\frac{1}{\lambda}</math> |
Loi de Poisson<ref name=Saporta33 group="b">Modèle:Harvsp</ref> | <math>\lambda \in\R^{+*}</math> | Loi sur du nombre de réalisations indépendantes sur <math>\N</math> de moyenne Modèle:Math | <math>\sigma=\sqrt{\lambda}</math> |
Loi du χ²<ref name=Dodge71 group="b">Modèle:Harvsp</ref> | Modèle:Mvar | Loi de la somme de Modèle:Mvar carrés de variables normales centrées réduites indépendantes | <math>\sigma=\sqrt{2n}</math> |
Si la variable X suit une loi log-normale alors Modèle:Math suit une loi normale et l'écart type de X est relié à l'écart type géométrique<ref name=WHFinlay group="b">Modèle:Ouvrage</ref>.
Mais toutes les lois de probabilité n'admettent pas forcément un écart type fini : la loi de Cauchy (ou loi de Lorentz) n'a pas d'écart type, ni même d'espérance mathématique<ref name=Dodge60 group="b">Modèle:Harvsp</ref>.
Propriétés
- Positivité
- L'écart type est toujours positif ou nul. Celui d'une constante est nul.
- Invariance par translation
- L'écart type ne change pas si on ajoute une constante Modèle:Mvar à la variable aléatoire Modèle:Mvar : Modèle:Math.
- Homogénéité<ref group="Note">Toutes ces propriétés sont la conséquence directe du théorème de Huygens et des propriétés de l'espérance mathématique.</ref>,<ref name=Saporta2325 group="b">Modèle:Harvsp</ref>
- Pour toute constante positive Modèle:Mvar et toute variable aléatoire réelle Modèle:Mvar, on a Modèle:Math.
- Somme algébrique de deux variables
- L'écart type de la somme de deux variables s'écrit<ref name=Saporta26 group="b">Modèle:Harvsp</ref> sous la forme
- <math>\sigma_{X + Y}=\sqrt{\sigma_X^2+\sigma_Y^2 + 2\sigma_X \sigma_Y \rho(X,Y)}</math>
où Modèle:Math est le coefficient de corrélation entre les deux variables X et Y.
- Inégalité triangulaire
- L'écart type de la somme est majoré par la somme des écarts types<ref group=Note>L'inégalité découle de l'égalité précédente et de l'encadrement du coefficient de corrélation : <math>-1 \le \rho(X,Y) \le 1</math>.</ref> :
- <math>\sigma_{X+Y} \le \sigma_X+\sigma_Y</math>.
- De plus, il y a égalité si et seulement s'il existe une relation affine presque sûre entre les deux variables.
- Distance euclidienne
- L'écart type d'une variable aléatoire réelle Modèle:Mvar est la distance euclidienne de cette variable à la droite des constantes dans l'espace des variables admettant une variance<ref name=Rioul146 group="b">Modèle:Harvsp</ref>. C'est donc le minimum de la fonction <math>\R \rightarrow \R^+ : c \rightarrow \sqrt{(|X-c|^2)}</math>, atteint sur la constante Modèle:Math.
Usages
Intervalle de fluctuation
En sciences, il est fréquent de considérer que les mesures d'une grandeur se répartissent selon une distribution gaussienne, par accumulation d'erreurs de mesure ou d'interférences indépendantes avec d'autres phénomènes, en application du théorème central limite. L'histogramme des valeurs observées se rapproche alors d'une courbe en cloche caractéristique de la loi normale. La courbe étant complètement définie par la donnée de la valeur moyenne et de l'écart type, ces deux valeurs permettent de définir un intervalle de fluctuation qui concentre l'essentiel des observations.
Le calcul des quantiles de cette loi montre par exemple que pour une grandeur satisfaisant cette distribution sur une population d'individus, avec une moyenne Modèle:Mvar et un écart type Modèle:Math, 95 % des valeurs observées appartiendront à l'intervalle Modèle:Math (voir 97,5ème centile). On peut ainsi associer des probabilités à des intervalles de valeurs centrés sur la moyenne et dont l'amplitude est un multiple de l'écart type<ref name=Saporta43 group="b">Modèle:Harvsp</ref>.
Écart maximal à la moyenne | Proportion des valeurs |
---|---|
<math>\pm\sigma</math> | 68,27 % |
<math>\pm 1.96\cdot \sigma</math> | 95 % |
<math>\pm 2\sigma</math> | 95,45 % |
<math>\pm 3\sigma</math> | 99,73 % |
Dans l'industrie, l'écart type intervient dans le calcul de l'indice de qualité des produits manufacturés ou dans l'indice de fidélité d'un appareil de mesure<ref name=PFerignac group="i">Modèle:Article</ref>,<ref name=PFerignac2 group="i">Modèle:Article</ref>.
En physique des particules, la détection d'évènements est ainsi quantifiée en nombre de sigmas, représentant l'écart entre la valeur observée et la moyenne attendue en l'absence d'évènement. Un résultat est considéré comme significatif par l'obtention de 5 sigmas, représentant une probabilité d'erreur inférieure à 0,00006 % (soit niveau de confiance de plus de 99,99994 %)<ref name=RHeuer group="i">Modèle:Article</ref>.
Dans le domaine de la communication financière, l'écart type est une mesure de la volatilité des cours des actions des sociétés cotées<ref name=JPPetit group="b">Modèle:Ouvrage</ref>. Les bandes de Bollinger sont des outils facilitant l'analyse des prévisions boursières. John Bollinger a construit la courbe des moyennes mobiles sur 20 jours et les courbes, de part et d'autre de cette courbe, situées à deux fois l'écart type sur ces 20 jours. John Bollinger a utilisé une définition adaptée de l'écart type<ref name=JBollinger group="i">Modèle:Lien web</ref>. En outre, le risque d'un actif boursier et le risque associé au marché sont mesurés par l'écart type de la rentabilité attendue, dans le modèle d'évaluation des actifs financiers de Harry Markowitz<ref group="i">Modèle:Article</ref>.
Variable centrée réduite
Si Modèle:Mvar est une variable aléatoire d'écart type non nul, on peut lui faire correspondre la variable centrée et réduite Modèle:Mvar définie par <math>Z= \frac{X - \bar X}{\sigma}</math>. Deux variables aléatoires centrées et réduites Modèle:Math et Modèle:Math sont aisées à comparer, puisque Modèle:Math et Modèle:Math<ref name=Gautier387 group="b">Modèle:Harvsp</ref>.
Le théorème central limite a pour objet la limite d'une suite de variables aléatoires centrées réduites<ref name=Saporta66 group="b">Modèle:Harvsp</ref>, les coefficients de dissymétrie et d'aplatissement d'une densité de probabilité, Modèle:Math et Modèle:Math, permettent de comparer des distributions différentes<ref name=Rioul157 group="b">Modèle:Harvsp</ref>.
Coefficient de corrélation linéaire
Modèle:Article détaillé Si Modèle:Mvar et Modèle:Mvar sont deux variables aléatoires réelles admettant toutes les deux une variance non nulle, le coefficient de corrélation linéaire est le rapport <math>\operatorname{Cor}(X, Y) = \frac{\operatorname{Cov}(X,Y)} {\sigma_X \sigma_Y} </math> où <math>\operatorname{Cov}(X,Y)= \mathbb{E}[(X - \mathbb{E}[X])\,(Y-\mathbb{E}[Y])] = \mathbb{E}[XY] - \mathbb{E}[X]\mathbb{E}[Y]</math> est la covariance des variables Modèle:Mvar et Modèle:Mvar. D'après l'inégalité de Cauchy-Schwarz, <math>|\operatorname{cov}(X,Y)| \le \sigma_X \sigma_Y</math> ; le coefficient de corrélation prend ses valeurs dans l'intervalle Modèle:Math<ref name=Rioul175 group="b">Modèle:Harvsp</ref>.
Si les deux variables sont indépendantes, le coefficient de corrélation linéaire est nul, mais la réciproque est fausse.
Si le coefficient de corrélation linéaire vaut 1 ou −1, les deux variables sont presque sûrement en relation affine<ref name=Rioul178 group="b">Modèle:Harvsp</ref>.
Inégalité de Bienaymé-Tchebychev
Modèle:Article détaillé C'est grâce à l'inégalité de Bienaymé-Tchebychev que l'écart type apparaît comme une mesure de la dispersion autour de la moyenne. En effet, cette inégalité exprime que <math>P(|X-E(X)|>k\sigma) \le \frac{1}{k^2}</math><ref group="b" name="Saporta25">Modèle:Harvsp</ref> et montre que la probabilité pour que Modèle:Mvar s'écarte de Modèle:Math de plus de Modèle:Mvar fois l'écart type est inférieure à Modèle:Math<ref name=AJacquard2829 group="b">Modèle:Harvsp</ref>.
Principe d'incertitude
En mécanique quantique, le principe d'incertitude d'Heisenberg exprime que le produit des écarts types de la position x et de l'impulsion p d'une particule est supérieur ou égal à la constante de Planck réduite divisée par deux, soit <math>\sigma_{x} \sigma_{p} \ge \frac{\hbar}{2}</math> <ref name=YMeyer group="i">Modèle:Article</ref>.
Estimation
Lorsqu'il n'est pas possible de connaître toutes les valeurs de la caractéristique considérée, on se trouve dans le cadre de la théorie statistique. Le statisticien procède alors par échantillonnage et estimation pour évaluer les grandeurs analysées telles que l'écart type.
Un estimateur est une fonction permettant d'approcher un paramètre d'une population à l'aide d'un échantillon tiré au hasard<ref name="Saporta289" group="b">Modèle:Harvsp</ref>, ou une grandeur sur un phénomène aléatoire à partir de plusieurs réalisations de celui-ci.
Dans le cas d'un échantillon de taille Modèle:Mvar, et dont la vraie moyenne -ou espérance- Modèle:Mvar est connue, l'estimateur est le suivant : <math display="block">\sigma_X =\sqrt{ \frac{1}{n}\sum_{i=1}^n (x_i-\mu)^2}. </math>Malheureusement, le plus souvent on ne connaît pas Modèle:Mvar et on doit l'estimer à partir de l'échantillon lui-même grâce à l'estimateur suivant : <math>\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i</math>. Différents estimateurs de l'écart type sont généralement utilisés. La plupart de ces estimateurs s'expriment par la formule : <math display="block">S_k=\sqrt{\frac{1}{k}\sum_{i=1}^n(X_i-\overline{X})^2}.</math> Modèle:Math (ou S′ ) est l'estimateur le plus utilisé<ref name="tuff655" group="b">Modèle:Harvsp</ref>,<ref name="Saporta279" group="b" />, mais certains auteurs recommandent d'utiliser Modèle:Mvar (ou Modèle:Mvar)<ref name="EGrenier" group="i">Modèle:Article</ref>.
Propriétés des estimateurs
Deux propriétés importantes des estimateurs sont la convergence et l'absence de biais<ref name="Saporta279" group="b" />.
Pour tout Modèle:Mvar tel que Modèle:Math tende vers 1, la loi des grands nombres garantit que Modèle:Math puis Modèle:Math sont des estimateurs convergents de Modèle:Math. Grâce au théorème de continuité, stipulant que si Modèle:Mvar est continue, alors <math>\lim\limits_{n \to \infty} f(X_n)=f(\lim\limits_{n \to \infty} X_n)</math>. La fonction racine carrée étant continue, Modèle:Mvar converge lui aussi vers Modèle:Mvar. En particulier Modèle:Mvar et Modèle:Math sont des estimateurs convergents de Modèle:Mvar, ce qui reflète l'approximation de Modèle:Mvar par ces deux séries lorsque n devient de plus en plus grand<ref group="Note">D'après le théorème de continuité on a :Modèle:ThéorèmeX \Longrightarrow g(X_n)\xrightarrow{\mathbb{P}}g(X)</math>}}. Comme la fonction racine carrée est une fonction continue, Modèle:Math et Modèle:Mvar sont des estimateurs convergents de l'écart type, autrement dit : <math>S_{n-1} \xrightarrow{\mathbb{P}} \sigma \text{ et } S_{n} \xrightarrow{\mathbb{P}} \sigma</math></ref>,<ref name="Rioul253" group="b">Modèle:Harvsp</ref> et conforte le statisticien à utiliser ces estimateurs.
L'estimateur de la variance Modèle:Math est sans biais. Cependant, la non-linéarité de la fonction racine carrée fait que Modèle:Math est légèrement biaisé<ref name="EGrenier" group="i" />. Les estimateurs Modèle:Math et Modèle:Mvar sont eux aussi biaisés. Le fait de faire intervenir non pas Modèle:Mvar mais Modèle:Math au dénominateur (correction de Bessel) dans le calcul de la variance vient du fait que déterminer la moyenne de Modèle:Mvar à partir de l'échantillon fait perdre un degré de liberté puisque la formule <math>\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i</math> relie <math>\bar{x}</math> aux valeurs Modèle:Mvar. On a donc seulement Modèle:Math valeurs indépendantes après le calcul de <math>\bar{x}</math>. Dans le cas ou l'on cherche à estimer l’écart-type d'une loi normale, on dispose d'un estimateur non biaisé de Modèle:Mvar proche de <math>S_{n - 3/2}</math> <ref name="RBrugger" group="i">Modèle:Article</ref>. Le choix de <math>n - 3/2</math> permet de corriger le biais supplémentaire lié à la racine carrée.
La précision, donnée par l'erreur quadratique moyenne, est difficile à calculer explicitement pour des lois quelconques. Il semblerait cependant qu'en dépit d'un biais plus important, Modèle:Mvar soit plus précis que Modèle:Math<ref name="EGrenier" group="i" />.
Écart type des moyennes
Pour estimer la précision de l'estimation de la moyenne d'une variable, la méthode du calcul de l'écart type de la distribution d'échantillonnage des moyennes est utilisée. Appelé aussi erreur type de la moyenne (Modèle:Citation étrangère), noté <math>\sigma_{\bar x} </math>, c'est l'écart type des moyennes des échantillons de tailles identiques d'une population. Si Modèle:Mvar est la taille des échantillons prélevés sur une population d'écart type Modèle:Math, et si Modèle:Mvar est la taille de la population, alors <math>\sigma_{\bar x} = \frac{\sigma}{\sqrt{n}}\sqrt{\frac{N-n}{N-1}}</math><ref name=Dodge509 group="b">Modèle:Harvsp</ref>. Lorsque l'écart type Modèle:Mvar de la population est inconnu, il peut être remplacé par l'estimateur Modèle:Math<ref name=Dodge509 group="b"/>. Quand Modèle:Mvar est suffisamment grand (Modèle:Math), la distribution d'échantillonnage suit approximativement une loi de Laplace-Gauss, ce qui permet de déduire un intervalle de confiance, fonction de <math>\sigma_{\bar x} </math>, permettant de situer la moyenne de la population par rapport à la moyenne de l'échantillon<ref name=Dodge472 group="b">Modèle:Harvsp</ref>,<ref name=AVessereau56 group="b">Modèle:Harvsp</ref>.
Écart type des écarts types empiriques
En général, il est très difficile de calculer la loi de distribution des écarts types empiriques. Mais si Modèle:Mvar est une suite de variables aléatoires distribuées selon la loi normale <math>\mathcal{N}(\mu,\sigma^2) </math>, alors <math>n\frac{S_n^2}{\sigma^2}</math> suit une loi du Modèle:Math à Modèle:Mvar degrés de liberté<ref group="b" name="Dodge71"/>,<ref group="Note">par définition de la [[Loi du χ²|loi du Modèle:Math]]</ref>. Cette loi a pour écart type Modèle:Math et donc l'écart type de la distribution des variances de variables normales a pour expression <math>\sigma_{S_n^2}=\sigma^2\sqrt{\frac{2}{n}}</math><ref name=Dodge71 group="b"/>.
Sondages d'opinion
Dans les sondages d'opinion, l'écart type <math>\sigma_{\bar x}</math> évalue l'incertitude des variations accidentelles de Modèle:Surligner inhérentes au sondage, ce qu'on appelle la marge d'erreur due aux variations accidentelles<ref name=WEDeming group="i">Modèle:Article</ref>.
De plus, avec la méthode d'échantillonnage représentatif, lorsque les différentes strates ont des écarts types très différents, l'écart type est utilisé pour calculer la répartition optimale de Neyman qui permet d'évaluer la population dans les différentes strates en fonction de leur l'écart type ; en d'autres termes <math>n_i=n\frac{N_i\sigma_i}{\sum N_j\sigma_j}</math> est la taille de l'échantillon dans la strate Modèle:Mvar, où Modèle:Mvar est la taille totale de l'échantillon, Modèle:Mvar est la taille de la strate Modèle:Mvar, Modèle:Mvar l'écart type de la strate Modèle:Mvar<ref name=WEDeming group="i"/>.
En algorithmique
Les écarts types obtenus par un programme d'ordinateur peuvent être incorrects si on n'utilise pas un algorithme adapté aux données, comme lorsqu'on utilise celui qui exploite directement la formule <math>\sqrt{ \frac{1}{n}\left( \sum_{i=1}^n {x_i}^2 \right) - \left( {\frac{1}{n}\sum_{i=1}^n x_i} \right)^2 }</math> sur des grands échantillons de valeurs comprises entre 0 et 1<ref group="i">Modèle:Lien web</ref>,<ref group="i">Modèle:Lien web</ref>.
Un des meilleurs algorithmes est celui de B.P. Welford qui est décrit par Donald Knuth dans son livre Modèle:Langue<ref name=Welfod group="i">Modèle:Article</ref>,<ref group="i">Modèle:Lien web</ref>.
Une approximation de l'écart type de la direction du vent est donnée par l'algorithme de Yamartino dont on se sert dans les anémomètres modernes<ref name=RJYamartino group="i">Modèle:Article</ref>,<ref group="i">Modèle:Lien web</ref>.
Notes et références
Notes
Références
Ouvrages spécialisés
Articles de revue
Autres références
<references/>
Voir aussi
Bibliographie
- Modèle:Saporta1, seconde édition Modèle:Plume
- Modèle:Ouvrage
- Modèle:Ouvrage
- Modèle:Ouvrage
- Modèle:Ouvrage
- Modèle:Ouvrage
- Modèle:Ouvrage
- Modèle:Ouvrage
- Modèle:Ouvrage
- Modèle:Ouvrage
- Modèle:Ouvrage
Articles connexes
- Calcul d'erreur
- Indicateur de dispersion
- Erreur type
- Écart type géométrique
- Moment d'ordre n
- Coefficient de variation
- Variance
- Écart moyen
Liens externes
- {{#invoke:Langue|indicationDeLangue}} Algorithms for calculating variance