Loi de Benford
La loi de Benford, initialement appelée loi des nombres anormaux par Benford<ref>{{#invoke:Langue|indicationDeLangue}} Frank Benford, « The law of anomalous numbers », Proceedings of the American Philosophical Society, vol. 78, 1938, Modèle:P..</ref>,<ref>Ian Stewart, 1 est plus probable que 9, in Pour la science, 190, p.96. et aussi in L'univers des nombres, Belin, 2000, Modèle:P..</ref>, fait référence à une fréquence de distribution statistique observée empiriquement sur de nombreuses sources de données dans la vraie vie, ainsi qu'en mathématiques.
Dans une série de données numériques, on pourrait s'attendre à voir les chiffres de 1 à 9 apparaître à peu près aussi fréquemment comme premier chiffre significatif, soit avec une fréquence de Modèle:Nobr 11,1 % pour chacun. Or, contrairement à cette intuition (biais d'équiprobabilité), la série suit très souvent approximativement la loi de Benford : pour près du tiers des données, le Modèle:1er significatif le plus fréquent est le 1. Viennent ensuite le chiffre 2, puis le 3Modèle:Etc., et la probabilité d'avoir un 9 comme premier chiffre significatif n'est que de 4,6 %. C'est une loi observée aussi bien dans les mathématiques sociales, c'est-à-dire les sciences humaines et sociales, que dans des tables de valeurs numériques comme celles qu'on rencontre en physique<ref>Modèle:Article.</ref>, en volcanologie<ref>Modèle:Lien web.</ref>, en génétique<ref>Modèle:Lien web.</ref>, en BTP, en économie (taux de change), ou même dans les numéros de rue de son carnet d'adresses.
Énoncé de la loi
Une série de nombres réels en écriture décimale suit la loi de Benford si la fréquence d'apparition du premier chiffre significatif Modèle:Mvar vaut approximativement
- <math>f_c = \log (c+1)-\log (c)= \log \left(1 + \frac1 c\right)</math> pour tout Modèle:Mvar entre 1 et 9 où <math>\log</math> désigne le logarithme décimal.
On vérifie que la somme de ces fréquences vaut Modèle:Math.
Par exemple, la probabilité benfordienne qu'un nombre commence par un 1, comme 1 012, ou 0,000189 vaut Modèle:Math, voir la Modèle:OEIS.
L'espérance du premier chiffre vaut alors <math>\sum_{c=1}^9cf_c=9-\log9!\approx3,44</math>, loin du 5 donné par une loi uniforme.
Cette définition se généralise pour l'écriture des nombres en base Modèle:Mvar en remplaçant Modèle:Math par Modèle:Math ; par exemple :
- en système binaire, la probabilité benfordienne qu'un nombre commence par un 1 vaut Modèle:Math (tous les nombres commencent par un 1)
- en base 3, la probabilité benfordienne qu'un nombre commence par un 1 vaut Modèle:Math, par un 2 : Modèle:Math.
Historique
Cette distribution a été observée une première fois en 1881 par l'astronome américain Simon Newcomb, dans un article de l'American Journal of Mathematics<ref name=":3">Modèle:Lien brisé.</ref>, après qu'il se fut aperçu de l'usure (et donc de l'utilisation) préférentielle des premières pages des tables de logarithmes (alors compilées dans des ouvrages). Cet article de Newcomb passe complètement inaperçu pendant cinquante-sept ans. Frank Benford, aux alentours de 1938, remarque à son tour cette usure inégale, croit être le premier à formuler cette loi qui porte, conformément à la loi de Stigler, indûment son nom aujourd'hui, et arrive aux mêmes résultats après avoir répertorié des dizaines de milliers de données (longueurs de fleuves, cours de la bourse, etc.)
Valeurs des fréquences
Premiers exemples et contre-exemples
La loi de Benford n'est pas valable si l'on tire au hasard des nombres entiers strictement positifs ayant n chiffres au plus ; il y en a en effet autant qui commencent par 1, par 2,... ou par 9, soit <math>\frac{10^n-1}{9}</math>.
Par contre, dans une liste de 100 nombres obtenus comme produits de deux nombres ou plus tirés au hasard entre 1 et 10 000, les fréquences des chiffres 1 à 9 en première position suivent peu ou prou les valeurs de la loi de Benford. Une simulation donne les fréquences suivantes :
26 %, 23 %, 12 %, 11 %, 6 %, 6 %, 7 %, 5 %, 4 %, à comparer avec les valeurs attendues selon la loi de Benford :
30 %, 18 %, 12 %, 10 %, 8 %, 7 %, 6 %, 5 %, 4 %.
Dans la vie réelle, on constate souvent la décroissance des probabilités en fonction du premier chiffre, voire une adéquation avec les valeurs de la loi de Benford : données géographiques, données physiques, résultats sportifs, taille des fichiers sauvegardés dans un ordinateur, etc.
Par exemple, Mickaël Launay a relevé en 2019 Modèle:Unité dans un supermarché, et a obtenu comme fréquences successives pour les premiers chiffres de 1 à 9 : 32 %, 26 %, 15 %, 9 %, 5 %, 4 %, 3 %, 2 %, 4 %<ref>Modèle:Ouvrage.</ref>.
Par contre, cette loi n'est pas vérifiée si la série de données comporte :
- des contraintes quant à l'échelle des valeurs vraisemblables : par exemple, la taille des individus, lorsqu'elle est exprimée dans le système métrique, ne suit, à l'évidence, pas la loi de Benford puisque la quasi-totalité des mesures commence par le chiffre « 1 » ;
- des contraintes sur le premier chiffre comme pour les numéros de téléphone.
Loi de Benford continue et uniformité de la partie fractionnaire du logarithme
La mantisse d'un réel <math>>0</math> étant définie comme le nombre de l'intervalle <math>[1,10[</math> obtenu en déplaçant la virgule après le premier chiffre significatif (par exemple, la mantisse de 0,00125 est 1,25), on donne la définition suivante, généralisant la précédente, et également constatée dans la vraie vie.
Les premiers chiffres des nombres de la série suivent alors la loi de Benford simple, puisque le premier chiffre d'un réel <math>x</math> est égal à <math>c</math> si la mantisse de <math>x</math> appartient à <math>[c,c+1[</math>, et la probabilité correspondante vaut alors <math>\log(c+1)-\log(c)=\log\left ( 1+1/c \right )</math>.
Or, la mantisse de <math>x</math> étant obtenue par la formule : <math>\text{mantisse}(x)=10^{\{\log x\}}</math> où <math>\{.\}</math> désigne la partie fractionnaire, la mantisse de <math>x</math> appartient à <math>[a,b[</math> si et seulement si <math>\{\log x\}</math> appartient à <math>[\log(a),\log(b)[</math> ; Modèle:Ancreon obtient alors le théorème de Diaconis<ref>Modèle:Article.</ref> :
En fait, c’est sous cette forme plus générale impliquant la mantisse logarithmique <math>\{\log x\}</math> que la loi de Benford a été énoncée la première fois par Newcomb<ref>Modèle:Article.</ref>.
Tout ceci se généralise bien sûr en base quelconque.
Cas des chiffres suivant le premier
Loi d'un bloc de k chiffres
En utilisant la loi de Benford en base <math>10^k</math> ou la loi de Benford continue, on obtient que la probabilité benfordienne que l'écriture décimale d'un réel commence par un nombre <math>n</math> de <math>k</math> chiffres entre <math>10^{k-1}=10...00</math> et <math>10^k-1=99...99</math> vaut : <math> \log(n + 1)- \log(n) = \log \left( 1 + \frac{1}{n} \right)</math>.
Par exemple, la probabilité benfordienne qu'un nombre commence par 314, comme 3,14159..., 314285,7... ou 0,00314465... vaut <math>\log(1+1/314)\approx0,138\%</math> (ici, <math>n=314</math> et <math>k=3</math>).
Cette définition se généralise pour l'écriture des nombres en base <math>b</math> en remplaçant <math>\log</math> par <math>\log_{b}</math> ; par exemple :
- en système binaire, la probabilité benfordienne qu'un nombre commence par <math>\overline{10}^2=2</math> vaut <math>\log_2\left(1+\frac{1}{2}\right)\approx 58,5\%</math> ; il y a donc légèrement plus de nombres commençant par <math>\overline{10}^2</math> que par <math>\overline{11}^2</math>.
- en base 3, la probabilité benfordienne qu'un nombre commence par <math>\overline{10}^3=3 </math> vaut <math>\log_3 4/3\thickapprox26,2\%</math>.
Loi des chiffres suivant le premier
Ce résultat permet de trouver la probabilité benfordienne qu'un chiffre soit à une position donnée dans un nombre. Par exemple, la probabilité benfordienne qu'un <math>0</math> soit rencontré en deuxième position vaut :
- <math> \log \left( 1 + \frac 1 {10} \right ) + \log \left( 1 + \frac 1 {20} \right)+ \cdots + \log \left( 1 + \frac 1 {90} \right) \approx 12,0\% </math>
Plus généralement, la probabilité benfordienne que le chiffre <math> c\in\{0,1,..,9\} </math> soit en position <math>k>1</math> vaut :
Modèle:Centrer^{10^{k - 1} - 1} \log \left( 1 + \frac 1 {10i + c} \right )</math>}}
On remarque que la loi de cette probabilité se rapproche rapidement d'une loi uniforme avec une valeur de 10% pour chacun des dix chiffres, comme illustré ci-dessous<ref name="Hill1995sigdig2">Theodore P. Hill, The Significant-Digit Phenomenon, The American Mathematical Monthly, Vol. 102, No. 4, (Apr., 1995), Modèle:P.. Official web link (subscription required). Alternate, free web link.</ref>.
chiffre | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
---|---|---|---|---|---|---|---|---|---|---|
Modèle:1er | Modèle:NC | 30,1% | 17,6% | 12,5% | 9,7% | 7,9% | 6,7% | 5,8% | 5,1% | 4,6% |
Modèle:2e | 12,0% | 11,4% | 10,9% | 10,4% | 10,0% | 9,7% | 9,3% | 9,0% | 8,8% | 8,5% |
Modèle:3e | 10,2% | 10,1% | 10,1% | 10,1% | 10,0% | 10,0% | 9,9% | 9,9% | 9,9% | 9,8% |
On peut supposer une distribution uniforme à partir du quatrième chiffre car «0» apparaît 10,0176% du temps en quatrième position et «9» apparaît 9,9824% du temps.
Il est également possible de généraliser ce résultat en base quelconque. La probabilité benfordienne que le chiffre <math> c\in\{0,1,..,b-1\} </math> soit en position <math>k>1</math> d'un nombre en base <math>b</math> vaut<ref>Modèle:Lien web.</ref>:
<math display=block>\sum_{i=b^{k-2}}^{b^{k-1}-1}\log_b\left(1+\dfrac{1}{ib+c}\right).</math>
Lien avec la loi de Zipf
Comme pour <math> n</math> grand, <math> \log \left( 1 + \frac{1}{n} \right)\approx {1\over \ln(10). n}</math> la loi de Benford d'apparition du nombre <math> n</math> comme premier bloc peut être vue comme une loi de Zipf approchée<ref name=":2">Modèle:Article.</ref>.
Inversement si conformément à la loi de Zipf, l'on attribue le poids <math>1/n</math> à l'entier <math>n</math>, et définit la densité d'une partie <math>A</math> de <math>\mathbb{N}^*</math> comme la limite quand <math>N</math> tend vers l'infini, si elle existe, de <math>\dfrac{\underset{1\leqslant n\leqslant N,n\in A}{\sum }\dfrac{1}{n} }{\underset{1\leqslant n\leqslant N}{\sum }\dfrac{1}{n}}</math>, alors la densité de l'ensemble des entiers >0 commençant par le préfixe <math> n</math> en écriture décimale vaut justement <math> \log \left( 1 + \frac{1}{n} \right)</math><ref name=":2" />.
Applications
Détection de la fraude fiscale
Dans un article publié en 1972, l'économiste Hal Varian propose l'idée d'utiliser la loi de Benford pour détecter la fraude fiscale<ref name="varian">Modèle:Article.</ref>. Les premiers chiffres significatifs 5 et 6 prédominent nettement dans les données falsifiées : 40 % pour les 5 et plus de 20 % pour les 6.
Pour proposer un modèle de prédiction d'indice boursier, il convient d'inclure un test de cohérence car la loi de Benford ne fait pas de distinction entre les nombres 20 et 200 000 : ces deux nombres ayant 2 comme premier chiffre significatif<ref>Modèle:Harvsp.</ref>.
Les chiffres peuvent cependant aussi être influencés par le souci d'éviter des seuils et des plafonds fiscaux, dans le cadre d'une optimisation fiscale, qui n'a rien d'illégal.
Détection de la fraude comptable
Dans une étude publiée en 2011, quatre économistes allemands, Bernhard Rauch, Max Göttsche, Gernot Brähler et Stefan Engel ont testé la loi de Benford sur les données comptables produites par les États membres de l'Union européenne. Ils montrent que la Grèce est le pays européen qui s'éloigne le plus des prédictions de la loi de Benford. La Belgique est le second pays qui dévie le plus par rapport à cette loi<ref name="fact">Modèle:Article.</ref>,<ref>Modèle:Article.</ref>.
Détection de la fraude électorale
La loi de Benford a aussi été utilisée pour mettre en évidence la fraude électorale. Le canton de Genève en Suisse l'a utilisée pour détecter d'éventuelles irrégularités dans les scrutins du canton<ref>Modèle:Article.</ref>,<ref>Tests de détection de fraudes pour la votation du 3 mars 2013, Chancellerie d'État du Canton de Genève, 24 avril 2013.</ref>.
Trois politologues ont publié une étude montrant à partir de simulations que la mise en évidence de la fraude à partir d'un test d'adéquation à la loi de Benford était problématique et ne donnait pas de bons résultats sur les données simulées<ref name="deckert">. Modèle:Article.</ref>.
Détection de fraude scientifique
La loi de Benford a aussi été utilisée pour détecter des données contrefaites dans des articles scientifiques<ref name="gauvrit">Modèle:Article.</ref>.
Explications
Invariance d'échelle
L'observation empirique a montré que les ensembles de mesures physiques qui suivent la loi de Benford continuent de le faire après leur conversion dans d'autres unités (longueurs, de même pour des listes de prix exprimés dans une monnaie donnée, après un changement de devise)<ref>Modèle:Ouvrage.</ref>. En revanche, on a remarqué que si un tableau de nombres ne suit pas d'assez près la loi de Benford, le changement de monnaies ou la conversion d'unité modifie considérablement la fréquence d'apparition du premier chiffre.
Modèle:Lien a démontré le théorème suivant, dit Modèle:" : la seule loi de probabilité du premier chiffre qui reste invariante par multiplication par toute constante >0, est la loi de Benford<ref name="Hill1995base" /> ; une telle loi est dite scalante. Ainsi, la pertinence consiste à observer les écarts multiplicatifs et Modèle:Citation.
Pour de nombreux ensembles de nombres, et tout particulièrement ceux qui n'ont pas d'ordre de grandeur imposé, comme les chiffres d'affaires d'entreprises et les cours de bourse<ref>Modèle:Article.</ref>, cette supposition est raisonnable.
Donald Knuth donne une démonstration de cette propriété dans le tome 2 de son Modèle:Langue, intitulé Modèle:Langue. Cette démonstration a été redonnée par d'autres sans citer Knuth<ref name="Hill1995base">Modèle:Article.</ref>.Modèle:DémonstrationLa loi de Benford est également invariante par changement de système de numération<ref name=":3" />.
Produit de variables indépendantes
En 1994, Jeff Boyle a montré que si une variable résulte de la multiplication entre elles d'un grand nombre de variables indépendantes, elle suit à peu près la loi de Benford (exactement à la limite)<ref>Modèle:Article.</ref>,<ref name="gauvrit" />. Autrement dit, la loi de Benford serait naturelle si les nombreux facteurs qui expliquent telle ou telle grandeur agissent multiplicativement.
Ce résultat est un équivalent logarithmique de la loi des grands nombres<ref name=":4">Modèle:Article.</ref>.
Équipartition de la partie fractionnaire
En 2008, Nicolas Gauvrit et Jean-Paul Delahaye redonnent une explication de la loi de Benford<ref name="gauvrit" /> en utilisant le caractère étalé et régulier de la partie fractionnaire des logarithmes des nombres d'une série statistique<ref>« Les distances commencent le plus souvent par le chiffre 1 », Science et Vie, août 2010, Modèle:P..</ref>.
Ils utilisent en particulier le théorème de Diaconis.
Ils suggèrent de plus qu'un équivalent de cette loi fondé sur d'autres fonctions que le logarithme fonctionnerait tout aussi bien<ref name="gauvrit" />, mais donnerait des lois moins simples que celle de Benford<ref name=":4" />.
Exemples de suites infinies vérifiant ou ne vérifiant pas la loi de Benford
Par définition, une suite de réels vérifie la loi de Benford en base <math>b</math> si la fréquence limite des termes de la suite dont l'écriture en base <math>b</math> (sans tenir compte de la virgule) commence par le chiffre <math>c</math> vaut <math>\log_b\left ( 1+\frac{1}{c} \right )</math>.
Plus précisément, notant <math> U </math> l'ensemble des valeurs de la suite et <math>A_c</math> l'ensemble des réels <math>>0</math> dont l'écriture en base <math>b</math> commence par le chiffre <math>c</math>, cela signifie que <math> \lim_{n \rightarrow \infty} \frac{\left \vert U\cap[1,n]\cap A_c\right \vert}{\left \vert U\cap[1,n]\right \vert}=\log_b\left ( 1+\frac{1}{c} \right ) </math>.
Pour une suite entière, cela équivaut au fait que la densité asymptotique relative de <math>A_c</math> dans <math> U </math> existe.
Suites connues pour vérifier cette loi
Pour les suites <math>(u_n)</math> suivantes, la suite <math>(\ln u_n)</math> est équirépartie modulo 1, ce qui prouve qu'elles suivent la loi de Benford en base b (voir ci-dessus) :
- la suite des puissances de 2 <math>(2^n)</math><ref name=":02">Ralph Raimi. Modèle:Article.</ref> (pour b différent de 2) ; résultat démontré en 1968 par Arnold et Avez<ref>Modèle:Ouvrage.</ref>
- plus généralement la suite des puissances d'un entier <math>k</math> dont le logarithme en base b est irrationnel<ref name="powers2">Conséquence du théorème d'équidistribution.</ref>
- la suite de Fibonacci <math>(F_n)</math> en toute base<ref>Modèle:Article.</ref>,<ref>Modèle:Article.</ref>
- la suite des factorielles <math>(n!)</math> en toute base<ref>Modèle:Article.</ref>
- la suite <math>(n^n)</math> en toute base<ref name=":12">Modèle:Article.</ref>
Notons que le fait que ces suites suivent la loi de Benford prouve que le nombre dont le développement après la virgule est formé de la concaténation des éléments de cette suite est un nombre univers. Par exemple pour les puissances de 2, on obtient le nombre univers <math>0,1\,2\,4\,8\,16\,32...</math>.
Suites connues pour ne pas vérifier cette loi
On démontre que si une suite <math>(u_n)</math> vérifie la loi de Benford, alors la suite <math>\left ( \frac{u_{n+1}}{u_n} \right )^n</math> est non majorée<ref name=":12" />. On en déduit les contre-exemples suivants :
- la suite des entiers <math>(n)</math>
- plus généralement les suites <math>(n^\alpha)</math> et les suites polynomiales positives
- la suite <math>(\ln n)</math>
- la suite des nombres premiers <math>(p_n)</math>
Cependant, certaines de ces suites suivent une loi de Benford affaiblie en les sens suivants :
Suite des entiers
Pour cette suite, les fréquences du premier chiffre c en base b oscillent constamment entre les deux valeurs :
<math>\frac{1}{c(b-1)}</math> et <math>\frac{b}{(c+1)(b-1)}</math>
(1/9 et 5/9 par exemple pour le chiffre 1 en base 10, voir une démonstration à densité asymptotique).
On note que ces valeurs décroissent, de façon inversement proportionnelle à c et c+1, et que la densité benfordienne <math>\log_b\left ( 1+\frac{1}{c} \right )</math> est comprise entre ces deux valeurs extrêmes.
De plus, en effectuant des moyennes de Césaro successives, on obtient bien à la limite cette densité<ref>Modèle:Article.</ref>,<ref>Une démonstration du résultat de Flehinger se trouve dans un livre de Knuth (The Art of Computer Programming, Vol. 2. Addison-Wesley Publishing Company, 1981).</ref>.
Et comme on l'a vu ci-dessus, la densité logarithmique de l'ensemble <math>A_c</math> <math>\lim_{n\rightarrow \infty}\dfrac{\sum_{k\in [1,n]\cap A_c}\dfrac{1}{k} }{\underset{k\in [1,n]}{\sum }\dfrac{1}{k}}</math> est bien égale à <math>\log_b\left ( 1+\frac{1}{c} \right )</math><ref name=":22">Modèle:Article.</ref>.
Notons que tout de même, la fréquence des premiers chiffres est équirépartie (égale à <math>1/(b-1)</math>) si l'on se place entre 1 et <math>b^n</math> exclu.
Suite des nombres premiers
Pour cette suite également, les fréquences des premiers chiffres ne convergent pas <ref name=":12" />,<ref>Does Benford's Law Apply to Primes? https://primes.utm.edu/notes/faq/BenfordsLaw.html.</ref>,<ref>Modèle:Article.</ref>, mais la densité logarithmique relative de <math>A_c</math> parmi les nombres premiers<math>\lim_{n\rightarrow \infty}\dfrac{\sum_{p\in [1,n]\cap A_c\cap\mathbb P}\dfrac{1}{p} }{\underset{p\in [1,n]\cap\mathbb P}{\sum }\dfrac{1}{p}}</math> est bien égale à <math>\log_b\left ( 1+\frac{1}{c} \right )</math><ref name=":22" />.
Exemples de lois du premier chiffre pour des variables issues de variables uniformes entre 0 et 1
- Si <math>X</math> est une variable aléatoire réelle uniforme sur <math>[0,1]</math>, le premier chiffre de <math>X</math> suit une loi uniforme entre 1 et 9 ; cependant, pour <math>X^2</math>, la probabilité que le premier chiffre soit égal à <math>c</math> vaut <math>{1\over9}\frac{\sqrt{10}+1}{\sqrt c+\sqrt{c+1}}</math>, donnant (pour <math>c</math> allant de 1 à 9) la suite de valeurs (décroissante) en % : 19,2; 14,7 ; 12.4 ; 10.9 ; 9,9 ; 9,1 ; 8,5 ; 8,0 ; 7,5.
- Pour <math>X^n</math>, on obtient la probabilité <math>\frac{\sqrt[n]{c+1}-\sqrt[n]{c}}{\sqrt[n]{10}-1}</math> qui tend, lorsque <math>n</math> tend vers l'infini, vers <math>\frac{\ln(c+1)-\ln(c)}{\ln10}=\log(1+1/c)</math> : le premier chiffre de <math>X^n</math> tend donc, en loi, vers une variable benfordienne.
- Idem pour un produit de <math>n</math> variables indépendantes uniformes sur <math>[0,1]</math> (résultat de Boyle mentionné ci-dessus).
- Si <math>X</math> et <math>Y</math> sont deux variables aléatoires réelles uniforme indépendantes sur <math>[0,1]</math>, la probabilité que le premier chiffre de <math>X\over Y</math> soit égal à <math>c</math> vaut <math>{1\over18}+\frac{5}{9c(c+1)}</math> dont les valeurs successives sont 33,3 ;14,8 ; 10,2 ; 8,3 ; 7,4 ; 6,9 ; 6,6 ; 6,3 ; 6,2, assez proches de celles de la loi de Benford.
Notes et références
Voir aussi
Bibliographie
- {{#invoke:Langue|indicationDeLangue}} Ted Hill, « The first digit phenomenon », American Scientist, vol. 86, 1998, Modèle:P.
- Jean-Paul Delahaye, « L'étonnante loi de Benford », Pour la Science, Modèle:Date-, Modèle:P.
- Vincent Genest, Christian Genest, « La loi de Newcomb-Benford ou la loi du premier chiffre significatif », Bulletin de l'Association mathématique du Québec, vol. 51, Modèle:Date-, Modèle:P.
- Modèle:Article
Liens externes
- Modèle:Autorité
- Modèle:YouTube, 1er épisode de Voyages au pays des maths