Vignette écrite par Christiane Rousseau.
Il est vraiment risqué de modifier trop de nombres dans un document financier si on ne s’y connaît pas en mathématiques. En effet, dans de tels documents les nombres suivent souvent une règle mathématique étrange appelée loi de Benford, ou loi des nombres anormaux. Si on oublie de suivre cette règle les nombres échoueront des tests statistiques et seront alors étudiés avec soin. La loi de Benford assure que si vous collectez aléatoirement des nombres et calculez les fréquences de leur premier chiffre non nul, alors % des nombres devraient avoir comme premier chiffre non nul, alors que seulement % des nombres devraient avoir comme premier chiffre non nul. Cette règle peut être observée dans de nombreux ensembles de nombres, comme les puissances de ou la suite de Fibonacci.
Pourquoi?
Nous avons des explications satisfaisantes, que nous allons partager avec vous.
Le loi de Benford concerne la distribution du premier chiffre non nul des nombres. Le premier chiffre non nul d’un nombre positif est le chiffre non nul se situant le plus à gauche de son écriture décimale. Par exemple, le premier chiffre non nul de est , celui de est , et celui de est . Une autre façon de le définir, qui sera utile pour notre discussion mathématique, consiste à écrire tout nombre réel positif comme un nombre multiplié par une puissance de :
Le premier chiffre non nul de est alors la partie entière de , ce qui peut être noté . Le nombre est appelé la mantisse de . Déclarons maintenant que que si vous collectez des nombres aléatoires et calculez la fréquence du premier chiffre non nul , alors est donné approximativement par . Ceci nous donne les fréquences:
Tableau 1: Fréquences de la loi de Benford.
Donnons à présent une brève note historique. Le phénomène a d’abord été observé par l’astronome Simon Newcombe (1835-1909) qui a remarqué que les premières pages des tables logarithmiques correspondant à des premiers chiffres non nuls faibles étaient bien plus remplies que les pages suivantes. Sa découverte a été oubliée et la loi a été redécouverte par Frank Benford (1883-1948) vers 1938. Frank Benford a collecté des dizaines de milliers de nombres d’origines diverses suivant sa loi. La base de données moderne de Simon Plouffe, qui contient millions de constantes mathématiques, suit également la loi de Benford.
Beaucoup d’ensembles de nombres non aléatoires suivent également la loi de Benford. C’est le cas des populations de pays, de leurs superficies, des longueurs des rivières, etc. Peut-être allez-vous me demander d’arrêter et commencez à douter… Dans quelle unité ces longueurs et superficies sont elles écrites? Les longueurs sont-elles des miles ou des kilomètres? Ça n’a aucune importance… Si les longueurs des rivières en kilomètres suivent la loi de Benford alors les longueurs des rivières en miles suivent la loi de Benford aussi! Un changement d’unité correspond à un changement d’échelle. Nous allons voir que la loi de Benford est invariante par changement d’échelle. De plus, c’est la seule loi de probabilité qui soit invariante par changement d’échelle.
Je vous ai dit en introduction que les nombres de la suite de Fibonacci suivent la loi de Benford. Mais d’une certaine façon la loi de Benford est subjective, puisqu’elle dépend de la base dans laquelle nous écrivons les nombres. Dans une base où , les chiffres non nuls sont les éléments de l’ensemble , et la loi de Benford en base nous dit que la fréquence du premier chiffre non nul est . Et bien les nombres de la suite de Fibonacci suivent la loi de Benford dans n’importe quelle base ! La loi de Benford est invariante par changement de base. Et c’est la seule loi de probabilité non triviale qui soit invariante par changement de base.
Il est maintenant temps de donner des explications. Elles requièrent des souvenirs de vos cours de probabilité. Mais peut-être préférez-vous expérimenter vous-même la loi avant de lire des mathématiques plus sérieuses.
1. Invariance par changement d’échelle
Considérons un changement d’échelle simple obtenu en multipliant tous les nombres d’un ensemble de nombres par . Si on considère les nombres dont le premier chiffre est , alors ils sont changés en nombres dont le premier chiffre est ou . Il est facile de vérifier que . En effet,
De même, vous pouvez vérifier que , etc. Mais comment faire si on change des miles en kilometers, i.e. si on multiplie les nombres par ? La loi de Benford énoncée ci-dessus est trop restrictive et on a besoin de la généraliser. Que signifie avoir pour premier chiffre non nul ? Cela signifie que la mantisse appartient à l’intervalle . Donc la loi de Benford est une distribution de probabilité partielle de la mantisse. La loi de Benford généralisée (que par abus de langage nous allons appeler loi de Benford) sur la mantisse est donnée par une fonction de densité sur l’intervalle . Lorsque l’on choisit une nombre aléatoirement, on peut calculer sa mantisse. Ceci nous donne une variable aléatoire à valeurs dans . On dit qu’elle suit la loi de Benford si sa fonction de densité est donnée par
Si représente la probabilité que , alors cela signifie que l’on doit avoir
C’est réellement une généralisation de la loi de Benford puisque
Qu’est ce que cela signifie de dire qu’une variable aléatoire sur est invariante par changement d’échelle? Cela signifie que, si est un nombre réel strictement positif et si on prend la variable aléatoire , alors la mantisse de la variable aléatoire a la même fonction de densité que . Il n’est pas difficile de montrer que c’est le cas lorsque suit la loi de Benford, mais il y a plusieurs cas à distinguer selon la taille de . Nous allons étudier un cas et nous vous laisserons regarder les autres cas. On peut écrire , avec la mantisse de . Puisque la mantisse de est la même que celle de , il suffit de considérer le cas .
Quel est l’outil pour montrer cela? Vous vous souvenez peut-être de vos cours de probabilités que la fonction de répartition est parfois plus pratique que la fonction de densité pour une variable aléatoire continue. La fonction de répartition d’une variable aléatoire est définie par
Si suit la loi de Benford, alors sa fonction de répartition est donnée par
(1)
Nous devons donc montrer que si suit la loi de Benford et est la mantisse de pour , alors la fonction de répartition de est donnée par (1).
Pour cela, nous avons besoin de calculer pour . est la mantisse de à valeurs dans . Donc , lorsque et lorsque Le premier cas arrive lorsque . Pour que la mantisse de soit dans , la seule possibilité est que . Alors la mantisse de est égal à .
Par conséquent,
Comme prévu. Les autres cas sont étudiées de la même façon.
La réciproque est plus excitante…
2. La loi de Benford est la seule loi de probabilité de la mantisse qui soit invariante par changement d’échelle
Quel énoncé impressionnant! Et pourtant vous allez voir que sa preuve est à peine plus compliquée que la précédente. Soit une variable aléatoire représentant la mantisse et à valeurs dans . Regardons sa fonction de répartition , avec l’hypothèse que soit invariante par changement d’échelle. Nous avons donc besoin de calculer
Nous devons donc avoir et .
La difficulté principale de la preuve est dans l’interprétation de ce que cela signifie pour d’être invariante par changement d’échelle. Puisque et sont les mêmes événements, on a
(2)
Comme précédemment, considérons le cas de sorte que ( dépend de ). Ainsi, pour , est égal à sa mantisse. Puisque est invariante par changement d’échelle, la mantisse de a la même fonction de répartition que . Et donc
En combinant avec (2) on voit que vérifie
(3)
à condition que ne soit pas trop grand. Nous devons trouver à partir de l’équation fonctionnel (3). Voyons comment faire cela. Si on a , cela nous conduit à
qui peut être écrit
puisque . Prenons la limite lorsque . On reconnaît de chaque coté un quotient dont la limite est une dérivée. À gauche on a , dont la limite est , et à droite on a qui tend vers . Par conséquent on obtient l’équation différentielle à variables séparables
dont la solution est . Puisque on a , et puisque , on a . Par conséquent et nous avons terminé!
3. Pourquoi les nombres de toutes origines suivent la loi de Benford?
Une réponse a été fournie par Theodore Hill en 1995, et nous allons discuter brièvement son idée. Bien sûr, tous les ensembles de nombres ne suivent pas la loi de Benford. Par exemple, si on considère la taille des humains en mètres, alors, à quelques exceptions près, seuls les premiers chiffres et vont apparaître, et si on convertit la taille en pieds (un pieds mesure environ cm) on changera la loi de distribution du premier chiffre. Donc cet ensemble de nombre n’est pas invariant par changement d’échelle. Mais supposons que l’on considère un grand ensemble de nombres venant de toutes origines et que nous changeons l’échelle. Il y a des sous-ensembles de nombres avec leurs échelles particulières. Puisque l’ensemble est grand et les nombres de toutes origines, toutes les échelles sont probablement présentes. Multiplier tous les nombres de l’ensemble par une constante positive induit une permutation des échelles dans le nouvel ensemble. Donc, de façon générale, on peut considérer que l’ensemble de nombres se comporte comme s’il n’avait pas d’échelle particulière. Et donc il va suivre la loi de Benford.
Cette explication est valable pour un des ensembles de nombres venant de toutes origines. Mais elle n’explique pas pourquoi les superficies et les populations des pays, ou les longueurs des rivières, suivent la loi de Benford. Nous allons discuter des explication très récentes (2008!) pour ce cas, données par Gauvrit, Delahaye et Fewster. Leur explication est aussi valide pour de grands ensembles de nombres de toutes origines.
4. Les ensembles de nombres étalés sur plusieurs ordres de grandeur sont susceptibles de suivre la loi de Benford!
Nous travaillons en base et nous avons vu que des nombres positifs peuvent être écrits comme , où et . On peut considérer comme l’ordre de grandeur et on dit que notre ensemble de nombre est étalé sur plusieurs ordres de grandeurs si on a plusieurs valeurs pour dans notre ensemble de nombres. (Remarquons qu’une telle propriété est invariante par changement d’échelle!) Pour simplifier l’explication, supposons que les nombres sont dans l’intervalle . Les nombres dont le premier chiffre est sont ceux de l’ensemble
et des ensembles similaire pour les autres chiffres. Il est préférable d’utiliser le logarithme en base pour ces nombres: . Alors . Montrons que si une variable aléatoire sur suit la loi de Benford, alors la variable aléatoire est simplement uniforme sur . Pour cela, il suffit de montrer que la fonction de répartition de est celle de la variable aléatoire uniforme sur , à savoir
En effet, si ,
Si appartient à l’ensemble , alors appartient à l’ensemble :
et de façon similaire pour les autres chiffres. Supposons que choisir un nombre au hasard dans notre ensemble soit une variable aléatoire à valeurs dans . Alors est à valeurs dans . Rappelons que la probabilité qu’une variable aléatoire appartiennent à un ensemble est égal à l’aire entre la courbe de la fonction de densité et l’ensemble. Si la fonction de densité de sur était uniforme comme dans la Figure 3 (a) on aurait terminé. Cependant, ce ne sera pas souvent le cas, comme dans la Figure 3 (b). C’est pourquoi il est si important que l’ensemble de nombres de départ soit étalé sur plusieurs ordres de grandeur. Les différentes sections correspondant à un premier chiffre donné sont étalées horizontalement sur plusieurs segments, dont la somme des longueurs est de l’ordre de de la longueur totale. Dons, même si la hauteur de n’est pas la même d’un segment à l’autre, on peut espérer que la hauteur moyenne soit du même ordre de grandeur pour les différents chiffres. Quand cela arrive, alors les données suivent la loi de Benford.
5. Comment vérifier si un ensemble de nombres suit la loi de Benford?
Si vous avez suivi un cours de statistiques, vous avez probablement étudié la loi du . Ce test nous permet de vérifier si des données suivent une distribution de probabilité. Supposons que vous voulez faire le test pour un ensemble de nombres. Vous avez simplement besoin de construire un tableau dans lequel représente le nombre de nombres dans votre ensemble ayant pour premier chiffre . Bien sûr, . Les représentent le nombre de nombres qui auraient pour premier chiffre si votre ensemble suivait la loi de Benford, c’est-à-dire .
Tableau 2: Le tableau pour la loi du .
Puis vous calculez
et vous regardez dans un tableau de à la ligne correspondant à degrés de liberté. Si vous voulez faire un test avec % d’erreur, alors vous acceptez que les données suivent la loi de Benford si , sinon vous les refusez. C’est une recette rapide, mais si vous voulez faire ce test avec vos élèves, alors prenez le temps pour vous familiariser avec les détails du test et sa signification.
6. Invariance de la loi de Benford par changement de base
Ceci pourrait être modélisé de façon similaire à l’invariance par changement d’échelle. C’est cependant plus astucieux, puisqu’on ne peut pas limiter le travail à la mantisse. En effet, si , alors la partie a également besoin d’être convertie à la nouvelle base. En fait, la principale difficulté est d’exprimer en termes mathématiques ce que cela signifie pour une variable aléatoire d’être indépendante par changement de base. On saute les détails.
7. Conclusion
La loi de Benford est fascinante: elle défie l’intuition, et c’est quelque chose que vous pouvez tester vous-même et adapter à une activité en classe. Il s’agissait d’une curiosité, mais c’est maintenant un outil standard pour détecter les fraudes. Bien sûr, de plus en plus de fraudeurs en entendent parler. Mais faites attention: le premier chiffre n’est pas la seule chose à laquelle il faut faire attention. La loi de Benford généralisée permet de créer une loi pour le second chiffre, le troisième, etc. Vous pouvez essayez de le trouver vous-même: demandez-vous simplement dans quelles unions d’intervalles la mantisse d’un nombre doit être de sorte que son second chiffre soit .