Inférence bayésienne
L’inférence bayésienne est une méthode d'inférence statistique par laquelle on calcule les probabilités de diverses causes hypothétiques à partir de l'observation d'événements connus. Elle s'appuie principalement sur le théorème de Bayes.
Le raisonnement bayésien construit, à partir d'observations, une probabilité de la cause d'un type d'événements. On attribue à toute proposition de cause une valeur de sa probabilité, prise dans l'intervalle ouvert allant de 0 (contradiction, faux à coup sûr) à 1 (tautologie, vraie à coup sûr)<ref>Modèle:Chapitre, Modèle:P..</ref>. Quand un événement possède plus de deux causes possibles, on considère une distribution de probabilité pour ces causes. Cette distribution est révisée à chaque nouvelle observation et s'affine de plus en plus. Ainsi, un diagnostic médical indique-t-il qu'une maladie plus qu'une autre est probablement à l'origine des symptômes d'un patient, et des examens renforcent ou infirment cette hypothèse. On révise de même, au vu des résultats de chaque sondage d'une campagne de prospection, la probabilité qu'il existe un gisement de pétrole à un certain endroit.
Le théorème de Cox-Jaynes formalise la notion intuitive de plausibilité sous une forme numérique. Il démontre que, si les plausibilités satisfont à l'ensemble d'hypothèses qu'il propose, la seule façon cohérente de les manipuler est d'utiliser un système isomorphe à la théorie des probabilités, induisant alors une interprétation « logique » des probabilités indépendante de celle de fréquence et une base rationnelle au mécanisme d'induction logique.
L'inférence bayésienne produit une probabilité qui s'interprète comme le degré de confiance à accorder à une cause hypothétique. On l'utilise pour l'apprentissage automatique en intelligence artificielle.
Manipulation des probabilités : notation et règles logiques
L'inférence bayésienne effectue des calculs sur les énoncés probabilistes. Ces énoncés doivent être clairs et concis afin d'éviter toute confusion. L'inférence bayésienne est particulièrement utile dans les problèmes d'induction. Les méthodes bayésiennes se distinguent des méthodes dites standardsModèle:Lesquelles par l'usage systématique de règles formelles raffinant les probabilités par l'observation.
Notation courante
Modèle:Article détaillé La notation bayésienne reprend la notation classique des événements en probabilité qui elle-même s'inspire de la notation logique.
Notation | Sens |
---|---|
<math>A</math> | évènement <math>A</math> qui s'est réalisé |
<math>\bar A</math> | <math>A</math> qui ne s'est pas réalisé |
<math>\neg A</math> | évènement non <math>A</math> qui s'est réaliséModèle:Pas clair |
<math>\neg \bar A</math> | évènement non <math>A</math> qui ne s'est pas réaliséModèle:Pas clair |
<math>A \cap B </math> | événements <math>A</math> et <math>B</math> qui se sont réalisés |
<math>A \cup B </math> | événement <math>A</math> ou <math>B</math> qui s'est réalisé |
<math>p(A)</math> | probabilité que <math>A</math> ait lieu |
<math>p(B)</math> | probabilité que <math>B</math> ait lieu |
B)</math> | probabilité conditionnelle que <math>A</math> ait lieu étant donné que <math>B</math> a eu lieu |
Note : d'autres notations existent, et il est aussi possible de les combiner<ref>Par exemple <math>\neg A \cap B </math>, <math>p(\neg \bar A \cap B)</math>, <math>p(\bar A|\neg B)</math>Modèle:Etc.</ref>. |
Règles de la logique bayésienne
Deux règles permettent de combiner les probabilités, la règle d'addition et celle de multiplication. Le théorème de Bayes, ou de probabilité des causes, s'en dérive aussitôt en mettant à profit la symétrie de la règle de multiplication.
- Règle d'addition
- <math>p(A \cup B|C) = p(A|C) + p(B|C) - p(A \cap B|C)</math>
- Règle de multiplication
- <math>p(A \cap B) = p(A|B)\cdot p(B) = p(B|A)\cdot p(A)</math>
- Théorème de Bayes
- <math>p(A|B) = \frac{p(B|A)\cdot p(A)}{p(B)}.</math>
En conséquence, si on connaît dans le détail les causes possibles d'une conséquence observée et leurs probabilités, l'observation des effets permet de remonter aux causes.
On remarque que l'inversion de la probabilité introduit le terme Modèle:Math, la [[Probabilité a priori|probabilité Modèle:Langue]] de l'événement Modèle:Mvar, indépendamment de l'événement Modèle:Mvar. Cette estimation a priori est ignorée par les autres méthodes probabilistes.
Notation d'évidence
Dans la pratique, quand une probabilité est très proche de 0 ou de 1, seule l'observation d'éléments considérés eux-mêmes comme très improbables est susceptible de la modifier.
On définit l'évidence par :
- <math>\mathrm{Ev}(p) = \log\frac{p}{(1-p)} =\log{p}-\log(1-p)</math>
Modèle:Math est une abréviation pour Modèle:Lang, parfois traduit en français par « évidence » ; la formulation la plus conforme à l'expression anglaise d'origine serait le mot à mot « poids de témoignage » ou « poids de la preuve », mais par une coïncidence amusante « évidence » se montre très approprié en français pour cet usage précis.
L'utilisation du logarithme fait varier la valeur de l'évidence sur tout le domaine des nombres réels quand la probabilité va de 0 à 1, avec une meilleure lisibilité des très petites (10Modèle:-5, 10Modèle:-10…) et des très grandes (0,999999, 0,999999999) probabilités, faciles à confondre intuitivement.
L'intérêt de cette notation, outre qu'elle évite d'avoir trop de décimales au voisinage de 0 et de 1, est qu'elle permet de présenter l'apport d'une observation sous une forme indépendante des observateurs, donc objective : il faut le même poids de témoignage pour faire passer un événement d'une plausibilité de -4 (probabilité Modèle:Nb avec logarithme en base 10) à -3 (probabilité Modèle:Nb) que pour le faire passer de -1 (probabilité 0,09) à 0 (probabilité 0,5 soit une chance sur deux), ce qui n'était pas évident en gardant la représentation probabiliste pure.
Choisissant une base 100,1 pour le logarithme, Modèle:HarvspModèle:Refins exprime par analogie l'évidence en décibels (dB) : <math>\mathrm{Ev}(p) = 10\,\log_{10} \tfrac{p}{(1-p)}</math> tandis que le décibel se définit comme <math>\mathrm{n}(p) = 10\,\log_{10} \tfrac{p}{p_{ref}}</math>. Une évidence de -40 correspond à une probabilité de Modèle:NbModèle:Etc. En 2011, Stanislas Dehaene préconise le terme décibans<ref name="dehaene">Modèle:Lien web.</ref>. Le nom ban a été créé à partir du nom de la ville de Banbury, où on fabriquait durant la Seconde Guerre mondiale des bandes de carton utilisées à Bletchley Park pour déchiffrer les messages produits par la machine Enigma<ref>Modèle:Ouvrage.</ref>. La technique, élaborée par Alan Turing, était appelée Modèle:Lien<ref>Science4All, « Le curseur de Turing | Modèle:Nobr », Modèle:Date-, sur YouTube.</ref>Modèle:Refins.
D'autres unités ont été utilisées :
- le dit (pour Modèle:Lang)), avec des logarithmes à Modèle:Lnobr sans multiplicateur, aussi appelé hartley (symbole Hart), du nom de Ralph Hartley qui le proposa en 1928 ;
- le NATS utilisant les logarithmes népériens, dits aussi naturels.
Comparaison avec la statistique classique
L'usage de probabilités a priori a entraîné quelques reproches récurrents aux méthodes bayésiennes lors de leur introduction. On devait alors rappeler systématiquement les quatre points suivants<ref name="tribus">Modèle:Harvsp.</ref>Modèle:Refins :
- l'effet de la distribution Modèle:Lang s'estompe à mesure que les observations sont prises en compte ;
- il existe des lois impersonnelles, comme la maximisation d'entropie ou l’invariance de groupe indiquant l'unique distribution possible qui répond aux contraintes (moyenne arithmétique, géométrique, varianceModèle:Etc.) sans ajouter la moindre information propre à l'expérimentateur<ref>Modèle:Lien web, IRIT, Toulouse.</ref> ;
- les probabilités Modèle:Lang sont souvent dans d'autres méthodes utilisées inconsciemment (critère de Wald, critère du minimax…) ;
- comme pour tout autre modèle, les effets de différents choix Modèle:Lang peuvent être considérés de front.
Différence d'esprit
Les méthodes bayésiennes utilisent des méthodes impersonnelles pour mettre à jour des probabilités personnelles, tandis que les méthodes statistiques classiques utilisent des méthodes personnelles pour traiter des fréquences impersonnellesModèle:SfnModèle:Refins. Dans la théorie bayésienne, les « probabilités » ne sont pas Modèle:Citation. De ce point de vue, une « probabilité » est plutôt une « plausibilité »Modèle:Sfn.
Les bayésiens font donc le choix de modéliser leurs attentes en début de processus (quitte à réviser ce premier jugement en donnant des poids de plus en plus faibles aux Modèle:Lang au fur et à mesure des observations), tandis que les statisticiens classiques se fixent Modèle:Lang une méthode et une hypothèse arbitraires et ne traitaient les données qu'ensuite.
La possibilité de diminuer automatiquement le poids des Modèle:Lang au fur et à mesure de l’acquisition des données a permis aux modèles bayésiens d'être largement utilisés en exploration de données. En effet, contrairement aux méthodes classiques, elle ne nécessite que peu d'intervention humaine pour redéfinir à grande vitesse de nombreuses classes hypothèses en éliminant les moins validées par les données du moment.
Quand utiliser l'une ou l'autre ?
Les deux approches se complètent, la statistique étant en général préférable lorsque les informations sont abondantes et d'un faible coût de collecte. Ainsi, un sondage d'opinion ne coûte que quelques euros et un test en fin de chaîne de fabrication que quelques centimes : les statistiques classiques conviennent alors parfaitement. Lorsqu'il est question de s'informer en effectuant un forage pétrolier, le coût des mesures devient tel que les méthodes bayésiennes, qui les minimisent, sont préférables (voir aussi morphologie mathématique). En cas de profusion de données, les résultats sont asymptotiquement les mêmes dans chaque méthode, la bayésienne demandant plus de calcul. Sinon, la méthode bayésienne permet de traiter des cas où la statistique ne disposerait pas suffisamment de données pour qu'on puisse en appliquer les théorèmes limites. La diminution des coûts de calcul Modèle:Incise a joué dans la popularité écrasante des méthodes bayésiennes dès 2004<ref>Comparaison de l'intérêt pour les méthodes bayésiennes et fréquentistes.</ref>.
Le psi-test bayésien (qui est utilisé pour déterminer la plausibilité d'une distribution par rapport à des observations) est asymptotiquement convergent avec le χ² des statistiques classiques à mesure que le nombre d'observations devient grand. Le choix apparemment arbitraire d'une distance euclidienne dans le χ² est ainsi parfaitement justifié Modèle:Lang par le raisonnement bayésien<ref name="tribus" />Modèle:Refins.
Usage en apprentissage profond
Modèle:Ancre Modèle:Article détaillé Un important article souvent cité<ref>{{#invoke:Langue|indicationDeLangue}}Modèle:Lang Modèle:Pdf, de Geoffrey E. Hinton, Simon Osindero (Université de Toronto) et Yee-Whye Teh (Université de Singapour).</ref>Modèle:Référence insuffisante a introduit la notion de [[Apprentissage profond|Modèle:Lang]] efficace à partir de réseaux bayésiens.
Historique
Cette démarche fut induite pragmatiquement par application du théorème de Bayes bien connu en dehors d'un strict modèle probabiliste antérieurement validéModèle:Quoi. Après la publication posthumeModèle:Référence nécessaire des travaux de Bayes, Abel et Laplace adhérèrent immédiatement au raisonnement bayésienModèle:Référence nécessaire (Laplace en tire même la loi de succession qui porte son nom).
Le théorème de Cox le formalisa sur des bases axiomatiques indépendantes de la théorie classique des probabilités et les travaux de Good, Jeffreys, Tribus et Jaynes la vulgarisèrent.
Controverses
Bien que les découvertes de Bayes (et Laplace) soient antérieures, les méthodes qui se sont historiquement imposées dans la pratique statistique sont celles de l'école portée par les travaux de Ronald Aylmer Fisher ou Richard von Mises. Cette approche est parfois appelée statistique fréquentiste mais le terme reste encore peu usité en françaisModèle:Note : la domination de cette école a été telle qu'en l'état actuel le terme « statistiques » renvoie le plus souvent implicitement à celle-ci<ref>Pablo Carranza, Alain Kuzniak, équipe DIDIREM. Université Modèle:Nobr bayesienne « cachée » et approche fréquentiste « ambiguë » dans les livres de cours français de Première S et ES Modèle:Pdf.</ref>.
L'approche fréquentiste se prêtait en effet mieux aux problèmes alors rencontrés (grands volumes de données très irrégulières, par exemple en agriculture) et aux outils disponibles (essentiellement comptables Modèle:Incise et manuels ou mécanographiques, donc limités et lents). L'usage de l'approche bayésienne était limité à un champ d'applications restreint parce que demandant des calculs plus complexes, et pour cette raison onéreux jusqu'au milieu des années 1970. L'effondrement du coût des calculs entraîné par le développement de l'informatique a permis un usage plus courant des méthodes bayésiennes, notamment dans le cadre de l'intelligence artificielle : perception automatique, reconnaissance visuelle ou de la parole, Modèle:LangModèle:Refsou.
Ce nouvel usage a contribué à clarifier le débat théorique sur les pertinences comparées des deux approches<ref>La recherche, Questions à Nicolas Vayatis : « Bayésiens contre Fréquentistes, un faux débat » mathématiques - 01/07/2008 par Propos recueillis par Mathieu Nowak.</ref>.
Notation d'évidence
Cette notation est souvent attribuée à I. J. GoodModèle:Référence nécessaire. Ce dernier en attribuait cependant la paternité à Alan Turing et, indépendamment, à d'autres chercheurs dont Harold JeffreysModèle:Référence nécessaire.
C'est peu après les publicationsModèle:Référence nécessaire de Jeffreys qu'on découvrit qu'Alan Turing avait déjà travaillé sur cette question en nommant les quantités correspondantes Modèle:Lang dans ses travaux personnelsModèle:Référence nécessaire.
Exemples d'inférence bayésienne
Cette pièce est-elle biaisée ?
On lance quatre fois une pièce. Elle tombe quatre fois du même côté. Est-elle biaisée<ref>Exemple cité par Modèle:Harvsp.</ref> ? La position des statistiques classiques est de dire qu'on ne peut pas tirer de conclusion significative de trois tirages (en effet, un côté étant déterminé par le premier lancer, on a bien une probabilité 1/8 d'avoir les trois tirages suivants du côté identique avec une pièce parfaitement honnête, ce qui ne fournit pas les 95 % de certitude demandés traditionnellement).
L'approche bayésienne mesurera simplement que cette probabilité de 1/8 déplace linéairement de 10 log10(1/8 / 7/8) = Modèle:Unité l'évidence d'honnêteté de la pièce.
- Si on lui accorde Modèle:Unité (pièce sûre), cette évidence passe à Modèle:Unité. En d'autres termes, la probabilité subjectiveModèle:Note de sa normalité reste élevée (Modèle:Unité correspondent à une probabilité de 10-3 environ que la pièce soit biaisée).
- Si en revanche la pièce est douteuse et qu'on estime Modèle:Unité son évidence d'honnêteté (autant de chances d'être bonne que biaisée), cette évidence passe à Modèle:Unité, ce qui correspond maintenant à une probabilité subjective de 87,5 % que la pièce soit biaisée, et il serait avisé de mettre fin au jeu.
Sex ratio (Laplace, 1786)
Laplace constate, dans les statistiques de 1785, Modèle:Nombre masculines et Modèle:Nombre féminines. Il cherche à déterminer si cette différence est ou non significative d'une probabilité p plus grande d'avoir un garçonModèle:Sfn. Sans avis Modèle:Lang, il prend donc pour distribution de départ de Modèle:Mvar la loi uniforme sur [0, 1]. Il obtient :
- <math>p (x \leq 1/2|(251 527; 241 945)) = 1,15 \times 10^{-42}</math>
Cette évidence inférieure à Modèle:Unité rend extrêmement improbable qu'il y ait équiprobabilité entre la naissance d'une fille et celle d'un garçon. Laplace n'emploie toutefois pas cette terminologie, qui n'existe pas encore à son époque.
Par précaution, Laplace effectue ensuite le même calcul sur d'autres statistiques concernant Londres et à Paris, qui confirment ce résultat.
Il naît donc davantage de garçons que de filles, constat contre-intuitif qu'expliquera Modèle:Incise la théorie synthétique de l'évolution au Modèle:Lien siècleModèle:Vérification siècle.
(Les statistiques classiques parviennent sans surprise au même résultat, vu la taille de l'échantillon, par le test du χ², qui ne sera imaginé par Pearson qu'en 1900)
Test médical
Un médecin effectue le dépistage d'une maladie à l'aide d'un test fourni par un laboratoire.
Le test donne un résultat booléen : soit positif, soit négatif. Les études sur des groupes tests ont montré que, lorsque le patient est porteur de la maladie, le test est positif dans 90 % des cas. Pour un patient non atteint de la maladie, le test est positif dans un cas sur 100 (faux positif).
Le médecin reçoit un résultat positif pour le test d'un patient. Il souhaiterait savoir quelle est la probabilité que le patient soit réellement atteint de la maladie.
On note :
- Modèle:Mvar l'événement « le patient est atteint de la maladie » (Modèle:Mvar son complémentaire « le patient n'est pas atteint de la maladie »)
- Modèle:Mvar l'événement « le test est positif »
La grandeur recherchée est Modèle:Math, la probabilité que le patient soit malade sachant que le test est positif.
Les hypothèses se traduisent ainsi :
- <math>p(T|M)=0,9 </math>
- <math>p(T|\bar M)=0,01</math>
Le théorème de Bayes donne le résultat suivant :
- <math>p(M|T)=\frac{p(T|M)\cdot p(M)}{p(T)}</math>
La valeur Modèle:Math s'évalue par :
- <math>p(T)=p(T|M)\cdot P(M)+P(T|\bar M) \cdot P(\bar M) = P(T|M)\cdot P(M)+P(T|\bar M)\cdot (1-P(M))</math>
En combinant les deux égalités, il vient : <math>p(M|T)=\frac{p(T|M)\cdot p(M)}{p(T|M) \cdot p(M)+p(T|\bar M)\cdot(1-p(M))}</math>
L'application numérique avec les valeurs proposées donne :
- <math>P(M|T)=\frac{0,9 P(M)}{0,9 P(M)+0,01(1-p(M))} =\frac{0,9 p(M)}{0,89 p(M)+0.01}</math>
On peut remarquer que le résultat du calcul dépend de Modèle:Math soit la probabilité globale que le patient soit malade, autrement dit, de la proportion de malades dans la population à laquelle appartient le patient.
On suppose que la maladie recherchée soit rare et touche 1/Modèle:Nombre dans la population. Alors :
- <math>p(M)=10^{-5},\, p(M|T)=0,000899.</math>
Ainsi, bien que le test soit positif pour 90 % des personnes atteintes et produise seulement 1 % de faux positif, le résultat est extrêmement peu concluant. Ce résultat qui peut sembler paradoxal parait plus évident si quand on effectue une analyse de population sur Modèle:Nombre de personnes :
- Modèle:Nombre seront touchées par la maladie, 999 990 seront saines ;
- sur les Modèle:Nombre touchées 9 reviendront avec un test positif et 1 avec un test négatif (faux négatif) ;
- sur les Modèle:Nombre, 1 % soit environ 10 000 seront des faux positifs.
Finalement sur Modèle:Nombre de tests, il y aurait Modèle:Nombre positifs dont seulement Modèle:Nombre positifs.
La probabilité qu'un patient ayant un résultat positif soit malade reste donc faible car la maladie est dans l'absolu extrêmement rare. D'un tel résultat, on pourrait conclure que le test est complètement inutile, pourtant il faut noter que la probabilité de trouver un patient malade par ce test reste 90 fois supérieure à une recherche par tirage aléatoire (Modèle:Math).
On suppose maintenant que la maladie ciblée soit moins rare et touche 1/Modèle:Nombre dans la population. Alors p(M) = 0,001 et p(M|T) = 0,0826.
Le résultat reste peu concluant. Sur Modèle:Nombre de personnes :
- Modèle:Nombre seront touchées par la maladie, 999 000 seront saines ;
- sur les Modèle:Nombre touchées 900 reviendront avec un test positif et 100 avec un test négatif (faux négatif);
- sur les 999 000 saines, 1 % soit 9 990 seront des faux positifs.
Finalement sur Modèle:Nombre de tests, il y aura Modèle:Nombre positifs dont seulement Modèle:Nombre positifs.
La probabilité qu'un patient ayant un résultat positif soit malade s'établit donc à 900 ÷ 10 890, soit 8,3 %, ce qui reste faible, mais est tout de même Modèle:Nombre plus que dans la population générale.
Si la maladie est épidémique, avec une personne sur dix touchée, on trouvera le test concluant, puisque la probabilité pour qu'une personne revenant avec un test positif soit malade sera de 91 %.
Valeur du test et notation d'évidence
On reprend les trois cas d'application du test.
Probabilité avant test | <math>\frac{p}{(1-p)}</math> | <math>\mathrm{Ev}(p) = \log\frac{p}{(1-p)}</math> | Probabilité après test | <math>\frac{p'}{(1-p')}</math> | <math>\mathrm{Ev}(p')</math> | <math>\mathrm{Ev}(p') - \mathrm{Ev}(p)</math> |
---|---|---|---|---|---|---|
1/100 000 | 0,00001 | −5 | 0,000899 | 0,000900 | −3,05 | 1,95 |
1/1 000 | 0,001 | −3 | 0,0826 | 0,0900 | −1,05 | 1,95 |
1/10 | 0,111 | −0,954 | 0,909 | 10 | 1 | 1,95 |
On voit que le test déplace toujours l'évidence de la même valeur, valeur unique qui se trouve ainsi caractériser numériquement de façon objective le résultat du test indépendamment des attentes. On peut montrer facilement que cette valeur est égale à Modèle:Centrer
D'où vient ce biscuit ?
On se donne deux boîtes de biscuits : une Modèle:Nobr comporte Modèle:Nombre au chocolat et Modèle:Nombre, l'autre, B, en comporte 20 de chaque sorte.
On choisit les yeux fermés une boîte au hasard, puis dans cette boîte un biscuit au hasard. Il se trouve être au chocolat. De quelle boîte a-t-il le plus de chances d'être issu, et avec quelle probabilité ? Intuitivement, on se doute que la Modèle:Nobr a plus de chances d'être la bonne, mais de combien ?
Le théorème de Bayes donne la réponse exacte :
Notons HA la proposition « le gâteau vient de la Modèle:Nobr » et HB la proposition « le gâteau vient de la Modèle:Nobr ».
Si lorsqu'on a les yeux bandés les boîtes ne se distinguent que par leur nom, on a p(HA) = p(HB), et la somme fait 1, puisque qu'une boîte a été choisie, soit une probabilité de 0,5 pour chaque proposition.
Notons D l'événement désigné par la phrase « le gâteau est au chocolat ». Connaissant le contenu des boîtes, il apparait que :
- p(D | HA) = 30/40 = 0,75 (évidence 3, soit Modèle:Unité ou Modèle:Nombre)
- p(D | HB) = 20/40 = 0,5 (évidence 1, soit Modèle:Unité ou Modèle:Nombre)
Note: « p(A | B) » se dit « la probabilité de A sachant B ».
La formule de Bayes donne donc :
- <math>
\begin{matrix} p(\mathrm{H_A} | \mathrm{D}) &=& \dfrac{p(\mathrm{H_A}) \cdot p(\mathrm{D} | \mathrm{H_A})}{p(\mathrm{H_A}) \cdot p(\mathrm{D} | \mathrm{H_A}) + p(\mathrm{H_B}) \cdot p(\mathrm{D} | \mathrm{H_B})} \\ \\ \ & =& \dfrac{0,5 \times 0,75}{0,5 \times 0,75 + 0,5 \times 0,5} \\ \\ \ & =& 0,6 \end{matrix} </math>
La probabilité p(HA|D) représente la probabilité d'avoir choisi la Modèle:Nobr sachant que le gâteau est au chocolat.
Avant de regarder le gâteau, la probabilité d'avoir choisi la boîte A était p(HA), soit 0,5. Après l'avoir regardé, on réévalue cette probabilité à p(HA|D), qui est 0,6 (évidence 1,5 soit Modèle:Unité ou Modèle:Nombre). L'observation a donc apporté Modèle:Unité (Modèle:Nombre).
Et puisque p(HA|D) + p(HB|D) = 1 (pas d'autre possibilité que d'avoir choisi la Modèle:Nobr ou la Modèle:Nobr sachant que le gâteau est au chocolat), la probabilité d'avoir choisi la Modèle:Nobr sachant que le gâteau est au chocolat est donc de 1 − 0,6 = 0,4.
Si on impose une probabilité Modèle:Lang quelconque de suspecter une boîte particulière plutôt que l'autre, le même calcul effectué avec cette probabilité Modèle:Lang fournit également Modèle:Nombre. C'est là une manifestation de la règle de cohérence qui constituait l'un des Modèle:Lang de Cox.
Où en sont les immatriculations du moment ?
Modèle:Article détaillé Supposons qu'un pays numérote les plaques minéralogiques de ses véhicules de 1 en 1 à partir de 1. On observe n plaques différentes. Pour n supérieur à 3, on démontre par la méthode de Bayes que le meilleur estimateur du numéro en cours ne dépend que du nombre d'observations et de la plus haute immatriculation trouvée SmaxModèle:Note. Modèle:Centrer L'estimation est d'autant plus exacte que le nombre d'observations est grand. La variance de l'estimation elle-même est inversement proportionnelle au carré de n.
Annexes
Bibliographie
- Modèle:Ouvrage
- Modèle:Ouvrage
- Modèle:Ouvrage
- Modèle:Ouvrage (éd. 1992 sous le titre L'Analyse Statistique Bayésienne, Paris:Economica).
- Modèle:Ouvrage
Les ouvrages relatifs à l'utilisation sont plus rares que les ouvrages d'enseignement généraux. Les méthodes bayésiennes, plus coûteuses, ne justifient ce surcoût que si les enjeux et risques financiers sont importants (prospection pétrolière, recherche de médicaments…). Ce sont dans ces deux cas des sociétés privées (pétroliers, laboratoires pharmaceutiques…) qui les financent, et celles-ci n'ont pas vocation à donner à leurs concurrents des informations financées avec les fonds de leurs actionnaires (voir propriété intellectuelle). Certains problèmes ludiques comme les tentatives de prédictions dans certaines séries (Travail de Richard Vale sur Modèle:Lang [1] Modèle:Pdf en sont également une utilisation possible.
Des analyses bayésiennes de problèmes concrets apparaissent dans la plupart des numéros des grands journaux de statistiques, comme Modèle:Lang, Modèle:Lang, Biometrika, Modèle:Lien ou Modèle:Lang, telles que ci-dessous.
- Modèle:Ouvrage.
- Modèle:Ouvrage.
- Modèle:Chapitre. Cet article fut publié pour la première fois en tant que Modèle:Lang en 1957. Auparavant, Jaynes l'avait soumis aux Modèle:Lang, qui en rejeta une version longue, disponible avec l'opinion des membres du comité de lecture et la réponse de Jaynes How does the brain do plausible reasoning? Modèle:Pdf.
- {{#invoke:Langue|indicationDeLangue}} Jaynes, E.T. (2003) Modèle:Lang.
- {{#invoke:Langue|indicationDeLangue}} Davic McKay, Modèle:Lang Modèle:Pdf, Modèle:Lang, 2005.
- {{#invoke:Langue|indicationDeLangue}} Francisco J. Samaniego, Modèle:Lang, 2010, Modèle:ISBN.
- Modèle:Ouvrage.
- Modèle:Ouvrage.
- Modèle:Ouvrage.
- Lê Nguyên Hoang , La formule du savoir : Une philosophie unifiée du savoir fondée sur le théorème de Bayes, EDP Sciences, 2018.
Articles connexes
- Interconnexions entre la théorie des probabilités et la statistique
- Rasoir d'Occam
- Théorème de Bayes
- Plan d'expérience
- Modèle:Lang
- Intelligence artificielle
- Modèle:Lang
- Réseau bayésien
- Famille exponentielle
- Statistique bayésienne
- Théorème de Bernstein-von Mises
- Bayésianisme
Liens externes
Vidéo pédagogique
- Modèle:Lien web, durée Modèle:Heure.