Méthode des moindres carrés

{{#ifeq:||Un article de Ziki, l'encyclopédie libre.|Une page de Ziki, l'encyclopédie libre.}}

Modèle:Infobox Méthode scientifique

La méthode des moindres carrés, indépendamment élaborée par Legendre et Gauss au début du Modèle:Lien siècleModèle:Vérification siècle, permet de comparer des données expérimentales, généralement entachées d’erreurs de mesure, à un modèle mathématique censé décrire ces données.

Ce modèle peut prendre diverses formes. Il peut s’agir de lois de conservation que les quantités mesurées doivent respecter. La méthode des moindres carrés permet alors de minimiser l’impact des erreurs expérimentales en « ajoutant de l’information » dans le processus de mesure.

Présentation de la méthode

Dans le cas le plus courant, le modèle théorique est une famille de fonctions Modèle:Math d’une ou plusieurs variables muettes x, indexées par un ou plusieurs paramètres Modèle:Mvar inconnus. La méthode des moindres carrés permet de sélectionner parmi ces fonctions celle qui reproduit le mieux les données expérimentales. On parle dans ce cas d’ajustement par la méthode des moindres carrés. Si les paramètres Modèle:Mvar ont un sens physique, la procédure d’ajustement donne également une estimation indirecte de la valeur de ces paramètres.

La méthode consiste en une prescription (initialement empirique), qui est que la fonction Modèle:Math qui décrit « le mieux » les données est celle qui minimise la somme quadratique des déviations des mesures aux prédictions de Modèle:Math. Si, par exemple, on dispose de N mesures Modèle:Math, les paramètres Modèle:Mvar « optimaux » au sens de la méthode des moindres carrés sont ceux qui minimisent la quantité :

<math> S(\theta) = \sum_{i=1}^N \left(y_i - f(x_i;\theta)\right)^2 = \sum_{i=1}^N r^2_i(\theta) </math>

où les Modèle:Math sont les résidus du modèle, i.e. Modèle:Math est l'écart entre la mesure Modèle:Mvar et la prédiction Modèle:Math donnée par le modèle. Modèle:Math peut être considéré comme une mesure du carré de la distance entre les données expérimentales et le modèle théorique qui prédit ces données. La prescription des moindres carrés commande que cette distance soit minimale.

Si, comme c'est généralement le cas, on dispose d'une estimation de l'écart-type Modèle:Mvar du bruit qui affecte chaque mesure Modèle:Mvar, on l'utilise pour « pondérer » la contribution de la mesure au Modèle:Math. Une mesure aura d'autant plus de poids que son incertitude sera faible :

<math> \chi^2(\theta) = \sum_{i=1}^N \left(\frac{y_i - f(x_i;\theta)}{\sigma_i}\right)^2 = \sum_{i=1}^N w_i \left(y_i - f(x_i;\theta)\right)^2</math>

La quantité Modèle:Mvar, inverse de la variance du bruit affectant la mesure Modèle:Mvar, est appelée poids de la mesure Modèle:Mvar. La quantité ci-dessus est appelée khi carré ou khi-deux. Son nom vient de la loi statistique qu'elle décrit, si les erreurs de mesure qui entachent les Modèle:Mvar sont distribuées suivant une loi normale (ce qui est très courant). Dans ce dernier cas, la méthode des moindres carrés permet de plus d’estimer quantitativement l’adéquation du modèle aux mesures, pour peu que l'on dispose d'une estimation fiable des erreurs Modèle:Mvar. Si le modèle d’erreur est non gaussien, il faut généralement recourir à la méthode du maximum de vraisemblance, dont la méthode des moindres carrés est un cas particulier.

Son extrême simplicité fait que cette méthode est très couramment utilisée de nos jours en sciences expérimentales. Une application courante est le lissage des données expérimentales par une fonction empirique (fonction linéaire, polynômes ou splines). Cependant son usage le plus important est probablement la mesure de quantités physiques à partir de données expérimentales. Dans de nombreux cas, la quantité que l’on cherche à mesurer n’est pas observable et n’apparaît qu’indirectement comme paramètre Modèle:Mvar d’un modèle théorique Modèle:Math. Dans ce dernier cas de figure, il est possible de montrer que la méthode des moindres carrés permet de construire un estimateur de Modèle:Mvar, qui vérifie certaines conditions d’optimalité. En particulier, lorsque le modèle Modèle:Math est linéaire en fonction de Modèle:Mvar, le théorème de Gauss-Markov garantit que la méthode des moindres carrés permet d'obtenir l'estimateur non biaisé le moins dispersé. Lorsque le modèle est une fonction non linéaire des paramètres Modèle:Mvar l'estimateur est généralement biaisé. Par ailleurs, dans tous les cas, les estimateurs obtenus sont extrêmement sensibles aux points aberrants : on traduit ce fait en disant qu’ils sont non robustes. Plusieurs techniques permettent cependant de rendre plus robuste la méthode.

Histoire

Fichier:Carl Friedrich Gauss.jpg
Carl Friedrich Gauss.

Le jour du Nouvel An de 1801, l'astronome italien Giuseppe Piazzi a découvert l'astéroïde Cérès<ref>Georg Wilhelm Friedrich Hegel, Les Orbites des planètes : dissertation de 1801, p. 52.</ref>. Il a alors pu suivre sa trajectoire jusqu'au Modèle:Date-<ref>CRAS, Volume 3, Gauthier-Villars, 1836, p. 141.</ref>. Durant cette année, plusieurs scientifiques ont tenté de prédire sa trajectoire sur la base des observations de Piazzi (à cette époque, la résolution des équations non linéaires de Kepler de la cinématique était un problème très difficile). La plupart des prédictions furent erronées ; et le seul calcul suffisamment précis pour permettre à Zach, un astronome allemand, de localiser à nouveau Cérès à la fin de l'année, fut celui de Carl Friedrich Gauss, alors âgé de 24 ans (il avait déjà réalisé l'élaboration des concepts fondamentaux en 1795, lorsqu'il était alors âgé de 18 ans). Mais sa méthode des moindres carrés ne fut publiée qu'en 1809, lorsqu'elle parut dans le tome 2 de ses travaux sur la mécanique céleste, Theoria Motus Corporum Coelestium in sectionibus conicis solem ambientium. Le mathématicien français Adrien-Marie Legendre a développé indépendamment la même méthode en 1805. Le mathématicien américain Robert Adrain a publié en 1808 une formulation de la méthode.

En 1829, Gauss a pu donner les raisons de l'efficacité de cette méthode ; en effet, la méthode des moindres carrés est justement optimale à l'égard de bien des critères. Cet argument est maintenant connu sous le nom de théorème de Gauss-Markov.

Formalisme

Deux exemples simples

Moyenne d'une série de mesures indépendantes

L'exemple le plus simple d'ajustement par la méthode des moindres carrés est probablement le calcul de la moyenne Modèle:Mvar d'un ensemble de mesures indépendantes Modèle:Math entachées d'erreurs gaussiennes. Autrement dit, on veut estimer Modèle:Mvar dans la relation

<math>y_i = m + \varepsilon_i</math>

pour Modèle:Math et où Modèle:Mvar est un bruit blanc.

La prescription des moindres carrés revient à minimiser la quantité :

<math> \chi^2(m) = \sum_{i=1}^N \left(\frac{y_i -m}{\sigma_i}\right)^2 = \sum_{i=1}^N w_i \left(y_i - m\right)^2 </math>

où <math> w_i = \frac{1}{\sigma_i^2} </math> est le poids de la mesure Modèle:Mvar. Statistiquement, Modèle:Math s'interprète comme la variance de la variable aléatoire Modèle:Mvar. On parle alors de moindres carrés pondérés. Lorsqu'on ne tient pas compte de la pondération, on pose simplement Modèle:Math et on parle de moindres carrés ordinaires (MCO).

La quantité Modèle:Math, ou somme des carrés des résidus, est une forme quadratique définie positive. Son minimum se calcule par différenciation : Modèle:Math. Cela donne la formule classique :

<math> m = \frac{\sum\limits_{i=1}^N w_i y_i}{\sum\limits_{i=1}^N w_i}</math>

Autrement dit, l'estimateur par moindres carrés de la moyenne Modèle:Mvar d'une série de mesures entachées d'erreurs gaussiennes (connues) est leur moyenne pesée (ou pondérée), c'est-à-dire leur moyenne empirique dans laquelle chaque mesure est pondérée par l'inverse du carré de son incertitude. Le théorème de Gauss-Markov garantit qu'il s'agit du meilleur estimateur linéaire non biaisé de Modèle:Mvar.

La moyenne estimée Modèle:Mvar fluctue en fonction des séries de mesures Modèle:Mvar effectuées. Comme chaque mesure est affectée d'une erreur aléatoire, on conçoit que la moyenne d'une première série de Modèle:Mvar mesures différera de la moyenne d'une seconde série de Modèle:Mvar mesures, même si celles-ci sont réalisées dans des conditions identiques. Il importe de pouvoir quantifier l'amplitude de telles fluctuations, car cela détermine la précision de la détermination de la moyenne Modèle:Mvar. Chaque mesure Modèle:Mvar peut être considérée comme une réalisation d'une variable aléatoire Modèle:Mvar, de moyenne Modèle:Math et d'écart-type Modèle:Mvar. L'estimateur de la moyenne obtenu par la méthode des moindres carrés, combinaison linéaire de variables aléatoires, est lui-même une variable aléatoire :

<math> M = \frac{\sum\limits_{i=1}^N w_i Y_i}{\sum\limits_{i=1}^N w_i} </math>.

L'écart-type des fluctuations de Modèle:Mvar est donné par (combinaison linéaire de variables aléatoires indépendantes) :

<math> \sigma(M) = \left(\sum_{i=1}^N \frac{1}{\sigma_i^2}\right)^{-1/2} = \left(\sum_{i=1}^N w_i\right)^{-1/2} </math>

Sans grande surprise, la précision de la moyenne d'une série de Modèle:Mvar mesures est donc déterminée par le nombre de mesures, et la précision de chacune de ces mesures. Dans le cas où chaque mesure est affectée de la même incertitude Modèle:Math la formule précédente se simplifie en :

<math> \sigma(M) = \frac{\sigma}{\sqrt{N}} </math>

La précision de la moyenne s’accroît donc comme la racine carrée du nombre de mesures. Par exemple, pour doubler la précision, il faut quatre fois plus de données ; pour la multiplier par 10, il faut 100 fois plus de données.

Régression linéaire

Modèle:Article détaillé

Fichier:Ajustement lineaire moindres carres.jpg
Ajustement d'un modèle de type Modèle:Math par la méthode des moindres carrés. Les données suivent la loi figurée en pointillés et sont affectées d'erreurs gaussiennes, de variance 1. L'ajustement déterminé (courbe rouge) est le meilleur estimateur de la pente et de l'ordonnée à l'origine compte tenu de la quantité d'information contenue dans les points de mesure.

Un autre exemple est l'ajustement d'une loi linéaire du type Modèle:Math sur des mesures indépendantes, fonction d'un paramètre connu Modèle:Mvar. Le terme Modèle:Mvar permet de prendre en compte des erreurs de mesure. Lorsque le modèle compte Modèle:Mvar variables explicatives Modèle:Math, on gagnera à adopter la notation matricielle :

<math>\mathbf{y} = \mathbf{X}\boldsymbol{\alpha} +\beta\begin{pmatrix} 1\\\vdots\\1\end{pmatrix}+ \boldsymbol{\varepsilon}</math>

où les matrices Modèle:Math, Modèle:Math, Modèle:Math, Modèle:Math sont de dimension n × 1, n × k, k × 1, n × 1 resp.

L'utilisation de la régression linéaire se rencontre par exemple lorsque l'on veut étalonner un appareil de mesure simple (ampèremètre, thermomètre) dont le fonctionnement est linéaire. Modèle:Mvar est alors la mesure instrumentale (déviation d'une aiguille, nombre de pas d'un convertisseur analogique-numérique, …) et Modèle:Mvar la grandeur physique qu'est censé mesurer l'appareil, généralement mieux connue, si l'on utilise une source d’étalonnage fiable. La méthode des moindres carrés permet alors de mesurer la loi d’étalonnage de l'appareil, d'estimer l'adéquation de cette loi aux mesures d’étalonnage (i.e. dans le cas présent, la linéarité de l'appareil) et de propager les erreurs d’étalonnage aux futures mesures effectuées avec l'appareil étalonné. En général, les erreurs (et les corrélations) portant sur les mesures Modèle:Mvar et les mesures Modèle:Mvar doivent être prises en compte. Ce cas sera traité dans la section suivante.

La prescription des moindres carrés s'écrit pour ce type de modèle :

<math>\chi^2(\alpha, \beta) = \sum_{i=1}^N \left( \frac{y_i - \alpha x_i - \beta}{\sigma_i} \right)^2 = \sum_{i=1}^N w_i \left(y_i - \alpha x_i - \beta \right)^2 </math>

Le minimum de cette somme des carrés pondérés est atteint pour Modèle:Math, ce qui donne :

<math>

\begin{pmatrix} \sum w_i x_i^2 & \sum w_i x_i \\ \sum w_i x_i & \sum w_i \\ \end{pmatrix} \times \begin{pmatrix} \alpha_{\min} \\ \beta_{\min} \\ \end{pmatrix} = \begin{pmatrix} \sum w_i x_i y_i \\ \sum w_i y_i \\ \end{pmatrix}

</math>

ou, plus explicitement :

<math>

\begin{pmatrix} \alpha_{\min} \\ \beta_{\min} \\ \end{pmatrix} = \begin{pmatrix} \sum w_i x_i^2 & \sum w_i x_i \\ \sum w_i x_i & \sum w_i \\ \end{pmatrix}^{-1} \begin{pmatrix} \sum w_i x_i y_i \\ \sum w_i y_i \\ \end{pmatrix}

</math>

Là encore, il s'agit d'une estimation par moindres carrés généralisée ou pondérés. La détermination des paramètres « optimaux » (au sens des moindres carrés) Modèle:Math et Modèle:Math se ramène donc à la résolution d'un système d'équations linéaires. Il s'agit là d'une propriété très intéressante, liée au fait que le modèle lui-même est linéaire. On parle d'ajustement ou de régression linéaire. Dans le cas général, la détermination du minimum du Modèle:Math est un problème plus compliqué, et généralement coûteux en temps de calcul (cf. sections suivantes).

La valeur des paramètres Modèle:Math et Modèle:Math dépend des mesures Modèle:Mvar réalisées. Comme ces mesures sont entachées d'erreur, on conçoit bien que si l'on répète Modèle:Mvar fois les Modèle:Mvar mesures d’étalonnage, et que l'on réalise à l'issue de chaque série l'ajustement décrit plus haut, on obtiendra Modèle:Mvar valeurs numériquement différentes de Modèle:Math et Modèle:Math. Les paramètres de l'ajustement peuvent donc être considérés comme des variables aléatoires, dont la loi est fonction du modèle ajusté et de la loi des Modèle:Mvar.

En particulier, l'espérance du vecteur Modèle:Math est le vecteur des vraies valeurs des paramètres : l'estimation est donc sans-biais. Qui plus est, on montre que la dispersion qui affecte les valeurs de Modèle:Math et Modèle:Math dépend du nombre de points de mesure, Modèle:Mvar, et de la dispersion qui affecte les mesures (moins les mesures sont précises, plus Modèle:Math et Modèle:Math fluctueront). Par ailleurs, Modèle:Math et Modèle:Math ne sont généralement pas des variables indépendantes. Elles sont généralement corrélées, et leur corrélation dépend du modèle ajusté (on a ici supposé les Modèle:Mvar indépendants).

Ajustement d'un modèle linéaire quelconque

Un modèle Modèle:Math est linéaire si sa dépendance en Modèle:Mvar est linéaire. Un tel modèle s'écrit :

<math>y= f(x;\theta) = \sum_{k=1}^n \theta_k \phi_k(x) </math>

où les Modèle:Mvar sont n fonctions quelconques de la variable Modèle:Mvar. Un tel cas est très courant en pratique : les deux modèles étudiés plus haut sont linéaires. Plus généralement tout modèle polynomial est linéaire, avec Modèle:Math. Enfin, de très nombreux modèles utilisés en sciences expérimentales sont des développements sur des bases fonctionnelles classiques (splines, base de Fourier, bases d'ondelettesModèle:Etc.)

Si on dispose de N mesures, Modèle:Math, le Modèle:Math peut être écrit sous la forme :

<math> \chi^2(\mathbf{\theta}) = \sum_{i=1}^N \frac{1}{\sigma_i^2} \left(\sum_{k=1}^n \theta_k \phi_k(x_i) -y_i \right)^2 </math>

On peut alors exploiter la linéarité du modèle pour exprimer le Modèle:Math sous une forme matricielle plus simple. En effet, en définissant :

<math> \mathbf{J} = \begin{pmatrix}
                       \phi_1(x_1) & \ldots & \phi_n(x_1) \\
                       \vdots      &        & \vdots \\
                       \phi_1(x_N) & \ldots & \phi_n(x_N) \\
                     \end{pmatrix} \ , \ 
         \mathbf{\theta} = \begin{pmatrix}
                      \theta_1 \\
                      \vdots \\
                      \theta_n \\
                     \end{pmatrix}

\ , \

         \mathbf{y} = \begin{pmatrix}
                      y_1 \\
                      \vdots \\
                      y_N \\
                      \end{pmatrix}

\quad \text{ et } \quad

         \mathbf{W} = \begin{pmatrix}
                      \frac{1}{\sigma_1^2} & \ldots & 0 \\
                      \vdots             & \ddots & \vdots \\
                      0                  & \ldots & \frac{1}{\sigma_N^2}\\
                      \end{pmatrix} = \begin{pmatrix}
                      w_1 & \ldots & 0 \\
                      \vdots & \ddots & \vdots \\
                      0 & \ldots & w_N \\
                      \end{pmatrix}
</math>

on montre facilement que le Modèle:Math s'écrit sous la forme :

<math> \chi^2(\mathbf{\theta}) = (\mathbf{J\theta} - \mathbf{y})^T \mathbf{W} (\mathbf{J\theta} - \mathbf{y}) </math>

La matrice Modèle:Math est appelée matrice jacobienne du problème. C'est une matrice rectangulaire, de dimension N × n, avec généralement Nn. Elle contient les valeurs des fonctions de base Modèle:Mvar pour chaque point de mesure. La matrice diagonale Modèle:Math est appelée matrice des poids. C'est l'inverse de la matrice de covariance des Modèle:Mvar. On montre que si les Modèle:Mvar sont corrélés, la relation ci-dessus est toujours valable. Modèle:Math n'est simplement plus diagonale, car les covariances entre les Modèle:Mvar ne sont plus nulles.

En différenciant la relation ci-dessus par rapport à chaque Modèle:Mvar, on obtient :

<math> {\rm grad}\ \chi^2(\mathbf{\theta}) = 2\ \mathbf{J}^T \mathbf{W J \theta} - 2\ \mathbf{J}^T \mathbf{Wy} </math>

et le minimum du Modèle:Math est donc atteint pour Modèle:Math égal à :

<math> \theta_{\min} = \left(\mathbf{J}^T \mathbf{WJ}\right)^{-1}\ \mathbf{J}^T \mathbf{Wy}</math>

On retrouve la propriété remarquable des problèmes linéaires, qui est que le modèle optimal peut être obtenu en une seule opération, à savoir la résolution d'un système n × n.

Équations normales

Modèle:Article détaillé

Dans le cas d'équations linéaires surdéterminées à coefficients constants, il existe une solution simple<ref>« 3.6 système surdéterminé » dans Analyse numérique première partie, Professeur F.X. LITT, Centrale des cours de l'AEES (ULg).</ref>. Si on dispose d'équations expérimentales surdéterminées sous la forme

<math>A \vec x = \vec b,</math>

on peut représenter l'erreur commise par le vecteur résidu

<math>\vec r = \vec b - A \vec x.</math>

La norme du résidu <math>\left\| \vec r \right\|_2 = \left\| \vec b- A \vec x \right\|_2</math> est minimum si et seulement si <math> \vec x </math> satisfait les équations normales :

<math> (A^T A) \vec x = A^T \vec b,</math>

Modèle:Mvar est la transposée de Modèle:Mvar. Et donc :

<math> \vec x = (A^T A)^{-1}A^T \vec b</math>

Ajustement de modèles non linéaires

Modèle:Article détaillé

Dans de nombreux cas, la dépendance du modèle en Modèle:Mvar est non linéaire. Par exemple, si Modèle:Math, ou Modèle:Math. Dans ce cas, le formalisme décrit à la section précédente ne peut pas être appliqué directement. L'approche généralement employée consiste alors à partir d'une estimation de la solution, à linéariser le Modèle:Math en ce point, résoudre le problème linéarisé, puis itérer. Cette approche est équivalente à l'algorithme de minimisation de Gauss-Newton. D'autres techniques de minimisation existent. Certaines, comme l'algorithme de Levenberg-Marquardt, sont des raffinements de l'algorithme de Gauss-Newton. D'autres sont applicables lorsque les dérivées du Modèle:Math sont difficiles ou coûteuses à calculer.

Une des difficultés des problèmes de moindres carrés non linéaires est l'existence fréquente de plusieurs minima locaux. Une exploration systématique de l'espace des paramètres peut alors se révéler nécessaire.

Ajustement sous contraintes

Modèle:...

Contraintes linéaires d'égalité

Dans le cas où les contraintes sont linéaires et d'égalité,

<math>\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}</math> sous contraintes <math>\mathbf{R}\boldsymbol{\beta} = \mathbf{s}</math>

l'estimateur peut s'écrire comme un estimateur des moindres carrés corrigé :

<math>\widehat{\boldsymbol{\beta}}_{\textrm{MCC}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y} - (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{R}^T \left( \mathbf{R} (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{R}^T \right)^{-1} \left( \mathbf{R} (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y} - \mathbf{s} \right)</math>

Ce résultat peut être obtenu par application des conditions d'optimalité du premier ordre.

Modèle:Démonstration (\boldsymbol{\beta}^* , \boldsymbol{\lambda}^*) = \mathbf{X}^T\left( \mathbf{X}\boldsymbol{\beta}^* - \mathbf{y} \right) + \mathbf{R}^T\boldsymbol{\lambda}^* =0 \ , \ \dfrac{\partial \ell}{\partial \boldsymbol{\lambda}} (\boldsymbol{\beta}^* , \boldsymbol{\lambda}^*) = \mathbf{R}\boldsymbol{\beta}^* - \mathbf{s} = 0</math>

La première équation donne :

<math>\boldsymbol{\beta}^* = (\mathbf{X}^T \mathbf{X})^{-1}\mathbf{X}^T \mathbf{y} - (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{R}^T\boldsymbol{\lambda}^*</math>

que l'on réinjecte dans la seconde :

<math>\mathbf{R}( (\mathbf{X}^T \mathbf{X})^{-1}\mathbf{X}^T \mathbf{y} - (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{R}^T\boldsymbol{\lambda}^* ) = \mathbf{s}</math>

ce qui donne la valeur des coefficients de Lagrange :

<math> \boldsymbol{\lambda}^* = ( \mathbf{R} (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{R}^T)^{-1} \left[\mathbf{R} (\mathbf{X}^T \mathbf{X})^{-1}\mathbf{X}^T \mathbf{y} - \mathbf{s} \right] </math>

On obtient ainsi le résultat voulu sur <math>\boldsymbol{\beta}^* </math>. }}

Ajustement de modèles implicites

Modèle:...

Interprétation statistique

Estimation statistique

Modèle standard : moindres carrés ordinaires

Pour le modèle matriciel

<math>\mathbf{y} = \mathbf{X} \boldsymbol{\beta} + \boldsymbol{\varepsilon}</math>

on conserve les hypothèses conventionnelles que <math>\mathbb{E}(\boldsymbol{\varepsilon})=\mathbf{0}</math> et que <math>\mathbb{E} (\boldsymbol{\varepsilon} \boldsymbol{\varepsilon}^T) = \sigma^2 I_n</math>, où <math>I_n</math> est la matrice d'identité. Dans ce cas, l'estimateur par moindres carrés ordinaire (MCO) est

<math>\boldsymbol{\widehat{\beta}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y}</math>

Une formalisation supplémentaire (on suppose par exemple en plus que les aléas sont normaux) permet d'obtenir les propriétés asymptotiques de l'estimateur :

<math>\boldsymbol{\widehat{\beta}} \sim \mathcal{N} \left(\boldsymbol{\beta}_0 ; \sigma_0^2 (\mathbf{X}^T \mathbf{X})^{-1} \right)</math>

Les indices 0 indiquent qu'il s'agit de la vraie valeur des paramètres.

Moindres carrés généralisés

Lorsqu'on relâche (un peu) l'hypothèse sur la structure de la matrice de variance-covariance des erreurs, on peut toujours obtenir un estimateur par moindres carrés. On suppose donc que <math>\mathbb{E} (\boldsymbol{\varepsilon} \boldsymbol{\varepsilon}^T) = \boldsymbol{\Omega}</math>, où cette dernière matrice est connue. L'estimateur par moindres carrés (dit par moindres carrés généralisé, MCG) s'écrit toujours :

<math>\boldsymbol{\widehat{\beta}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y}</math>

Les propriétés asymptotiques changent par rapport au cas standard :

<math>\boldsymbol{\widehat{\beta}} \sim \mathcal{N} \left(\boldsymbol{\beta}_0 ; (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \boldsymbol{\Omega} \mathbf{X} (\mathbf{X}^T \mathbf{X})^{-1}\right)</math>

Moindres carrés pondérés

Si l'on connaît parfaitement la matrice de variance-covariance Modèle:Math, on peut considérer la méthode des moindres carrés pondérés. Pour cela, on considère la décomposition de Cholesky de cette matrice : Modèle:Math et on prémultiplie chaque membre de la régression par Modèle:Math, pour obtenir

<math>\mathbf{y}^\ast = \mathbf{X}^\ast \boldsymbol{\beta} + \boldsymbol{\varepsilon}^\ast</math>

avec <math>\mathbf{y}^\ast = \mathbf{P}^T\mathbf{y}</math>, <math>\mathbf{X}^\ast = \mathbf{P}^T\mathbf{X}</math> et <math>\boldsymbol{\varepsilon}^\ast = \mathbf{P}^T \boldsymbol{\varepsilon}</math>. Ainsi transformé, ce modèle vérifie toutes les hypothèses requises par les MCO et l'estimateur en résultant présentera toutes les bonnes propriétés (notamment du point de vue de la matrice de variance-covariance) :

<math>\boldsymbol{\widehat{\beta}} = (\mathbf{X}^T \boldsymbol{\Omega}^{-1} \mathbf{X})^{-1} \mathbf{X}^T \boldsymbol{\Omega}^{-1}\mathbf{y}</math>

La loi asymptotique sera :

<math>\boldsymbol{\widehat{\beta}} \sim \mathcal{N} \left(\boldsymbol{\beta}_0 ; (\mathbf{X}^T \boldsymbol{\Omega}^{-1} \mathbf{X})^{-1}\right)</math>

Le critère du χ²

Modèle:...

La méthode des moindres carrés se base sur une évaluation des résidus de l'erreur commise par rapport à un modèle. On peut donc comparer la valeur estimée de l'erreur par rapport à une variance :

<math> \chi_{\nu}^2(\theta) = \frac{1}{\nu} \sum_{i=1}^N \left(\frac{y_i - f(x_i;\theta)}{\sigma_i}\right)^2.</math>

L'entier Modèle:Mvar représente le nombre de degrés de liberté dans notre estimation, soit la différence entre le nombre d'échantillons Modèle:Mvar et le nombre de paramètres qui caractérisent le modèle. Ainsi, dans le cas du modèle linéaire, puisqu'il faut deux paramètres pour le caractériser, on a Modèle:Math.

On considère que l'estimation est bonne si Modèle:Math (trop d'erreur de mesures) et Modèle:Math (surestimation des erreurs commises).

Optimalité de la méthode des moindres carrés

Dans la régression linéaire classique,

<math>\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}</math>

On suppose généralement que <math>\mathbb{E}(\boldsymbol{\varepsilon})=\mathbf{0}</math> et que <math>\mathbb{E} (\boldsymbol{\varepsilon} \boldsymbol{\varepsilon}^T) = \sigma^2 I_n</math>, où Modèle:Mvar est la matrice d'identité. La dernière hypothèse porte sur la structure de variance-covariance des aléas : on suppose que pour tout i, Modèle:Math (homoscédasticité) et que Modèle:Math pour ij (indépendance).

L'estimation par moindres carrés ordinaires (MCO) est

<math>\boldsymbol{\widehat{\beta}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y}</math>

Sous les hypothèses précédentes, cet estimateur est connu pour être le meilleur estimateur linéaire sans biais (voir le théorème de Gauss-Markov) : cela signifie que parmi les estimateurs du type <math>\boldsymbol{\tilde{\beta}} = \mathbf{B} \mathbf{y} </math> non biaisé, l'estimateur MCO présente une variance minimale.

Enfin, si on suppose de plus que les aléas sont gaussiens, le modèle peut s'estimer par la méthode du maximum de vraisemblance. Cet estimateur se trouve être celui par moindres carrés MCO et atteignant la borne de Cramér-Rao.

Enfin, sous les hypothèses du paragraphe sur les moindres carrés généralisés, l'estimateur reste le meilleur estimateur linéaire non biaisé.

Robustesse

La méthode des moindres carrés gère mal les valeurs aberrantes (ou Modèle:Lang), qui peuvent « brouiller » les points en sortant de la moyenne. En effet, chercher la solution d'un problème de moindres carrés revient à résoudre une équation sur les résidus Modèle:Math :

<math> \operatorname{grad} \chi^2 (\theta) = \operatorname{grad} \sum_{i=1}^n r_i(\theta)^2 = 0 \Longrightarrow \forall j, \sum_{i=1}^n r_i(\theta) \frac{\partial r_i(\theta)}{\partial \theta_j} = 0. </math>

Or pour une donnée aberrante, le résidu associé est élevé et entraîne une surestimation de cette donnée dans la résolution (effet de masquage ou Modèle:Lang) ; à l'inverse, des données correctes peuvent se retrouver négligées par rapport à d'autres (Modèle:Lang)<ref>Modèle:Article</ref>,<ref>Modèle:Article</ref>.

Plusieurs méthodes existent pour éviter une influence trop forte des valeurs aberrantes :

  • modifier le Modèle:Math en ne calculant plus le carré des résidus mais une fonction Modèle:Mvar bien choisie de ceux-ci (méthodes des M-estimateurs)
  • remplacer la somme par la médiane, qui contrairement à la moyenne est un estimateur robuste (méthode des moindres carrés médians).

Notes et références

Modèle:Références

Voir aussi

Modèle:Autres projets

Bibliographie

Articles connexes

Liens externes

Modèle:Palette Modèle:Portail