Die Autorin des Originaltextes ist Christiane Rousseau.
Vom Englischen ins Deutsche übersetzt von Katrin Wörler-Veh (Universität Würzburg)
Es erweist sich als sehr riskant, zu viele Zahlen in irgendwelchen Finanzaufstellungen zu ändern, wenn man sich nicht ein bisschen mit Mathematik auskennt. In der Tat folgen Zahlen, die in Finanzaufstellungen erscheinen, sehr häufig irgendeiner seltsamen mathematischen Regel, die auch Benfordsches Gesetz oder Gesetz der ersten signifikanten Ziffer genannt wird. Wenn man vergisst, diese Regel zu befolgen, dann bestehen die Zahlen einige statistische Tests nicht und werden höchstwahrscheinlich mit äußerster Sorgfalt überprüft. Das Benfordsche Gesetz besagt, dass die Zahlen mit der als erster signifikanter Ziffer in zufälligen Zahlenansammlungen mit einer Häufigkeit von rund
% erscheinen sollten, wohingegen die Zahlen mit der
als erster signifikanten Ziffer nur in
% der Fälle auftreten. Dieses Gesetz wurde auch in vielen anderen Zahlenmengen beobachten, z. B. den Quadratzahlen oder den Fibonacci-Zahlen.
Warum?
Mittlerweile gibt es hierfür zufriedenstellende Erklärungen, die im Folgenden dargestellt werden.
Das Benfordsche Gesetz betrifft die Verteilung der ersten signifikanten Ziffern von Zahlen. Die erste signifikante Ziffer einer positiven Zahl ist die von Null verschiedene Ziffer einer Dezimalzahl, die am weite und
die von
. Alternativ – und für die nachfolgenden Darstellungen hilfreich – kann dieses Phänomen auch definiert werden, indem eine reelle positive Zahl
als Produkt einer Zahl
mit einer Potenz von
geschrieben wird:
Dann ist die erste signifikante Ziffer von der ganzzahlige Teil von
, der als
geschrieben werden kann. Die Zahl
wird Mantisse von
genannt. Wir behaupten nun, dass die relative Häufigkeit
der ersten signifikanten Ziffer
näherungsweise durch
beschrieben wird, wenn man Zahlen zufällig sammelt. Man erhält folgende Häufigkeitsverteilung:
Tabelle 1: Häufigkeiten des Benfordschen Gesetzes
Der folgende Abschnitt enthält einige kurze historische Anmerkungen. Das Phänomen wurde als erstes vom Astronomen Simon Newcombe (1835-1909) entdeckt, der bemerkte, dass die ersten Seiten von Logarithmentafeln , die niedrigen ersten signifikanten Ziffern entsprechen, viel abgenutzter aussahen als die darauffolgenden Seiten. Seine Entdeckung wurde jedoch vergessen und erst um 1938 von Frank Benford (1883-1948) wiederentdeckt. Benford sammelte Zehntausende von Zahlen aus vielerlei Quellen, die seinem Gesetz folgten. Die moderne Datenbank von Simon Plouffe, die 215 Millionen mathematische Kostanten beinhaltet, folgt ebenfalls dem Benfordschen Gesetz.
Auch viele Zahlenmengen, die nicht zufällig zusammengesetzt sind, folgen dem Benfordschen Gesetz, so beispielsweise Bevölkerungszahlen und Flächen von Ländern, die Länge von Flüssen usw. Vielleicht möchte man mich an diesem Punkt stoppen und anfangen zu zweifeln … In welchen Einheiten werden diese Längen oder Flächen angegeben? Werden die Längen in Meilen oder Kilometer angegeben? Dies alles ist nicht von Bedeutung … Wenn die Längen von Flüssen in Kilometern angegeben werden, folgen sie dem Benfordschen Gesetz genauso, wie wenn sie in Meilen angegeben werden! Ein Wechsel der Einheit korrespondiert mit dem Wechsel des Maßstabs. Wir werden sehen, dass das Benfordsche Gesetz unter Skalenwechseln invariant gültig bleibt. Es ist außerdem das einzige Wahrscheinlichkeitsgesetzt, das skaleninvariant ist.

Abbildung 2: Einige Datensätze, die näherungsweise dem Benfordschen Gesetz folgen: Flächen von Ländern in Quadratkilometern, Flächen von Ländern in Quadratmeilen und Bevölkerungszahlen von Ländern
Wie in der Einleitung bereits erwähnt, folgen die Fibonacci-Zahlen dem Benfordschen Gesetz. In gewisser Weise ist das Benfordsche Gesetz jedoch subjektiv, da es von der Basis (unseres Stellenwertsystems) abhängt, in der wir unsere Zahlen schreiben. In irgendeiner Basis
mit
sind die von Null verschiedenen Ziffern Elemente der Menge
, und das Benfordsche Gesetz bezüglich einer Basis
besagt, dass sich die Häufigkeit
der ersten signifikanten Ziffer
stets aus
ergibt. Sehr schön! Die Fibonacci-Zahlen folgen dem Benfordschen Gesetz also in jeder beliebigen Basis b. Das Benfordsche Gesetz ist somit invariant unter einem Basenwechsel. Und es ist das einzige nicht-triviale Wahrscheinlichkeitsgesetz mit dieser Eigenschaft.
Im Folgenden werden einige Erklärungen gegeben, die es erfordern, dass man sich an Einiges aus der Wahrscheinlichkeitsrechnung erinnert. Bevor man ernsthaftere Mathematik zu lesen beginnt, kann man es jedoch zunächst selbst probieren.
1. Invarianz unter Skalenwechsel
Betrachten wir einen einfachen Skalenwechsel, den man durch Multiplizieren aller Zahlen einer Zahlenmenge mit dem Faktor erhält. Zahlen mit der ersten signifikanten Ziffer 1 werden dadurch zu Zahlen, deren erste signifikante Ziffer entweder
oder
ist. Man kann leicht nachweisen, dass Folgendes gilt:
. Tatsächlich ist
Gleichermaßen kann man nachweisen, dass ergibt , etc.
Aber wie wird es gehandhabt, wenn man von Meilen zu Kilometern wechselt, d. h. die Zahlen der Menge mit dem Faktor multipliziert? Das Benfordsche Gesetz ist, wie bereits erwähnt, zu restriktiv, so dass wir es verallgemeinern müssen. Was bedeutet es, dass die erste signifikante Ziffer einer Zahl gleich
ist? Dies besagt, dass die Mantisse
im Intervall
liegt. Das Benfordsche Gesetz ist also eine Wahrscheinlichkeitsverteilung bzgl. der Mantisse. Das verallgemeinerte Benfordsche Gesetz (welches wir unter Sprachmissbrauch weiterhin Benforsches Gesetz nennen) ist auf der Mantisse durch eine Dichtefunktion auf dem Intervall
gegeben. Für eine zufällig ausgewählte Zahl lässt sich ihre Mantisse berechnen. Dadurch ergibt sich eine Zufallsvariable
, deren Werte im Intervall
liegen. Man sagt, sie folgt dem Benfordschen Gesetz, wenn ihre Dichtefunktion gegeben ist durch
Sei die Wahrscheinlichkeit für den Fall
, so erhalten wir folgende Formel:
Es handelt sich also wirklich um eine Verallgemeinerung des Benfordschen Gesetzes, da gilt:
Was bedeutet es, wenn eine Zufallsvariable aus
unter einem Skalenwechsel invariant ist? Es bedeutet, dass für eine positive reelle Zahl
und eine Zufallsvariable
die Matisse
der Zufallsvariablen
dieselbe Dichtefunktion besitzt wie
. Man kann leicht zeigen, dass dies gilt, wenn
dem Benfordschen Gesetz folgt, aber man muss abhängig von
einige Fälle unterscheiden. Wir werden hier exemplarisch einen Fall behandeln. Die Zahl
lässt sich schreiben als
mit der Mantisse
von
. Da die Mantisse von
dieselbe ist wie die von
, genügt es den Fall
zu betrachten.
Mit welchem Hilfsmittel lässt sich dies zeigen? Eventuell kann man sich (aufgrund der zurückliegenden Wahrscheinlichkeitsrechnung) daran erinnern, dass sich für eine stetige Zufallsvariable die (kumulative) Verteilungsfunktion manchmal als hilfreicher erweist als die Dichtefunktion. Die Verteilungsfunktion einer Zufallsvariable ist definiert als
Wenn dem Benfordschen Gesetz folgt, dann wird seine Verteilungsfunktion beschrieben durch
(1)
Wir müssen also zeigen, dass die Verteilungsfunktion von M durch Formel (1) genau dann gegeben ist, wenn dem Benfordschen Gesetz folgt und
die Mantisse von
für
ist.
Dafür müssen wir die Wahrscheinlichkeit für
berechnen.
ist die Mantisse von
, deren Werte innerhalb
liegen. So ergibt sich
für
und
für
.
Im ersten Fall ist . Die einzige Möglichkeit dafür, dass die Mantisse von
im Intervall
liegt, ist
. Dann ist die Mantisse von
gleich
.
Daher gilt, wie erwartet,
Die anderen Fälle werden analog berechnet.
Die Umkehrung ist spannender …
2. Das Benfordsche Gesetz ist das einzige Wahrscheinlichkeitsgesetz bzgl. der Mantisse, welches invariant unter einem Skalenwechsel ist
Dies scheint eine beeindruckende Aussage zu sein! Jedoch wird man sehen, dass der Beweis dafür nicht komplizierter ist als der vorige. Es sei eine Zufallsvariable, die die Mantisse repräsentiert und Werte aus dem Intervall
besitzt. Wir betrachten ihre Verteilungsfunktion
unter der Annahme, dass
bei einem Skalenwechsel invariant ist. Wir müssen also Folgendes berechnen:
Daher muss und
gelten.
Die größte Schwierigkeit des Beweises besteht in der Deutung der Tatsache, dass bei einem Skalenwechsel invariant ist. Da
und
die gleichen Zufallsereignisse sind, ergibt sich
(2)
Betrachten wir wie vorhin den Fall einer beliebigen Zahl mit
(wobei
abhängig von
ist). Dann ist der Wert
für
gleich der Mantisse. Da
bei einem Skalenwechsel nach Voraussetzung invariant ist, folgt die Mantisse von
derselben Verteilungsfunktion wie
. Also gilt
Kombiniert mit Formel (2) erkennt man, dass unter der Vorraussetzung, dass
nicht zu groß ist, Folgendes erfüllt:
(3)
Wir müssen also anhand der funktionalen Gleichung (3) bestimmen. Wie funktioniert das?
Sei hierfür , so ergibt sich
was man wegen auch schreiben kann als
Betrachten wir den Grenzwert für . Auf jeder Seite der Gleichung muss man einen Quotienten erkennen, dessen Grenzwert eine Ableitung ist: Auf der linken Seite haben wir
was im Grenzfall zu
wird, und auf der rechten
, was gegen
geht. Daher erhält man die Differentialgleichung,
die die Trennung der Variablen erlaubt und deren Lösung durch beschrieben wird. Wegen
ergibt sich
und aus
folgt
. Schließlich erhalten wir
und sind fertig!
3. Warum folgen Zahlen verschiedenster Quellen dem Benfordschen Gesetz?
Theodore Hill gab darauf im Jahr 1995 eine Antwort, die im Folgenden kurz erläutert wird. Selbstverständlich folgen nicht alle Zahlenmengen dem Benfordschen Gesetz. Wenn man beispielsweise die Körpergröße von Menschen in Metern betrachtet, dann erscheinen – bis auf ein paar Ausnahmen – als erste signifikante Ziffer nur die und
, und wenn man die Größe in Fuß umrechnet (ein Fuß beträgt ca.
cm), ändert sich das Verteilungsgesetz der ersten signifikanten Ziffer. Also verhält sich diese Menge von Zahlen bei einem Skalenwechsel nicht invariant. Angenommen aber, wir betrachten eine große Menge von Zahlen aus beliebigen Quellen und ändern die Skala, dann haben verschiedene Teilmengen jeweils ihre (eigene) Skala. Da die Zahlenmenge groß ist und die Zahlen von aus beliebigen Quellen stammen, so sind vermutlich alle verschiedenen Skalen vorhanden. Werden nun alle Zahlen der Menge mit einer positiven Konstanten multipliziert, so erzeugt dies (lediglich) eine Permutation der Skalen, die in der neuen Menge enthalten sind. Insgesamt kann man also davon ausgehen, dass die Zahlenmenge sich so verhält, als würde ihr keine spezielle Skala zugrundeliegen. Sie folgt daher dem Benfordschen Gesetz.
Diese Erklärung besitzt Gültigkeit für Zahlenmengen, die sich aus allen möglichen Quellen zusammensetzen. Jedoch gibt sie keine Antwort darauf, warum Länderflächen, Bevölkerungszahlen von Ländern oder Längen von Flüssen dem Benfordschen Gesetz folgen. Für diese Fälle werden hier neueste Erklärungen (2008!) von Gauvrit, Delahaye und Fewster angeführt; Sie gelten auch für große Zahlenmengen beliebiger Herkunft.
4. Zahlenmengen, die sich über mehrer Zehnerpotenzen erstrecken, folgen wahrscheinlich dem Benfordschen Gesetz!
Wir arbeiten im Dezimalsystem, also mit Basis , und konnten feststellen, dass sich positive Zahlen
darin als
mit
und
schreiben lassen. Wir könnten
als Zehnerpotenz auffassen und behaupten, dass verschiedene Zehnerpotenzen existieren, wenn für unsere Menge von Zahlen verschiedene Werte von n vorhanden sind. (Beachte, dass diese Eigenschaft bei einem Skalenwechsel invariant ist!) Um die Erklärung zu vereinfachen, nehmen wir an, dass die betrachteten Zahlen
im Intervall
liegen. Dann lässt sich die Menge der Zahlen mit signifikanter Ziffer
beschreiben als:
Für die anderen Ziffern ergeben sich änliche Mengen
.
Es ist nun von Vorteil, auf den Zehnerlogarithmus dieser Zahlen überzugehen:
. Dann ergibt sich (wegen
)
. Wir zeigen nun, dass die Zufallsvariable
im Intervall
einfach gleichverteilt ist, wenn die Zufallsvariable
im Intervall
dem Benfordschen Gesetz folgt. Es genügt zu zeigen, dass die Verteilungsfunktion von
der Verteilungsfunktion einer gleichverteilten Zufallsvariablen auf
entspricht, nämlich
Tatsächlich erhält man, wenn ,
Wenn zur Menge
gehört, dann gehört
zur Menge
:
Ähnliches gilt für die anderen Ziffern.
Angenommen, eine beliebige Zahl aus unserer Menge zu nehmen, ist eine Zufallsvariable , deren Werte innerhalb
liegen. Dann liegen die Werte von
im Intervall
. Erinnern wir uns, dass die Wahrscheinlichkeit, dass irgendeine Zufallsvariable zu irgendeiner Menge gehört, gleich ist zur Fläche unter dem Graphen der Dichtefunktion einer Menge. Wenn die Dichtefunktion
von
über
gleichverteilt wäre wie in Abbildung 3 (a), dann wären wir fertig. Viel häufiger verhält es sich aber anders, wie in Abbildung 3 (b) zu sehen ist. Daher ist es so wichtig, dass sich die ursprüngliche Zahlenmenge über mehrere Zehnerpotenzen erstreckt.
Die verschiedenen Teilbereiche, die einer vorgegebenen ersten signifikanten Ziffer entsprechen, überspannen verschiedene Abschnitte, deren Längensumme von der Größenordnung
bzgl. der gesammten Breite ist.
Selbst wenn also die Höhe von vom einen zum nächsten Abschnitt nicht gleich bleibt, so kann man dennoch hoffen, dass die durchschnittliche Höhe für die verschiedenen Ziffern von der gleichen Zehnerpotenz ist. Ist dies der Fall, so folgen die Werte dem Benfordschen Gesetz.

(a) Dichtefunktion f gleichverteilt
(b) Dichtefunktion f nicht gleichverteilt
Abbildung 3: Die Flächen, die den Häufigkeiten der ersten signifikanten Ziffern 1, 2, 3, und 4 für zwei verschiedene Dichtefunktionen von Y entsprechen. Die Werte der entsprechenden sind in Abbildung 4 graphisch dargestellt.

(a) Dichtefunktion von f
(b) Bereiche unter der Kurve für die signifikante Ziffer 1 und für die gleichverteilte Funktion
Abbildung 4: Die Flächen, die den Häufigkeiten der ersten signifikanten Ziffern 1, 2, 3 und 4 für die Dichtefunktion von Abbildung 3 (b) entsprechen. Auf der rechten Seite kann man sehen, dass diese Werte denjenigen ziemlich nahe kommen, die durch das Benfordsche Gesetz erreicht werden im Fall einer gleichverteilten Dichtefunktion für Y.
5. Wie kann man überprüfen, dass eine Zahlenmenge dem Benfordschen Gesetz folgt?
Wenn man einen Statistikkurs besucht hat, dann kennt man wahrscheinlich auch den -Test als Anpassungstest. Mit dieser Methode kann man überprüfen, ob Daten auf irgendeine Weise stochastisch verteilt sind. Angenommen, man möchte den Test mit einer Menge von n Zahlen durchführen. Dann muss man hierfür nur eine Tabelle aufstellen, in der
für die Anzahl der Zahlen der Menge steht, die die erste signifikante Ziffer
besitzen.
Selbstverständlich gilt . Ferner sei
die Anzahl derjenigen Zahlen, die
als erste signifikante Ziffer haben sollten, wenn die genannte Zahlenmenge dem Benfordschen Gesetz folgt, nämlich
.
Tabelle 2: Tabelle für den -Anpassungstest.
Man berechnet dann
und schlägt in einer Tabelle zur Chi-Quadrat-Verteilung die Zeile nach, in der die Werte für Freiheitsgrade eingetragen sind. Wenn man den Test mit einem Signifikanzniveau von
% durchführt, dann nimmt man an, dass sich die Daten nach dem Benfordschen Gesetz verteilt sind, wenn
ist; andernfalls weist man die Annahne zurück. Es handelt sich dabei um ein schnelles Rezept, aber wenn man solch einen Test mit Lernenden durchführt, sollte man sich einige Zeit nehmen, um sie mit den Einzelheiten des Tests und ihrer Bedeutung vertraut zu machen.
6. Invarianz des Benfordschen Gesetzes beim Wechsel der Basis
Diesen Fall kann man in einer ähnlichen Weise behandeln wie die Invarianz beim Skalenwechsel. Allerdings ist er etwas kniffliger, da man die Argumentation nicht auf die Mantisse beschränken kann. Wenn ist, dann muss der Teil
tatsächlich auf die neue Basis überführt werden. In der Tat besteht die größte Schwierigkeit darin, in mathematischen Begriffen zu beschreiben, was es für eine Zufallsvariable bedeutet, unter Basiswechsel invariant zu sein. Wir überspringen jedoch die Details.
7. Fazit
Das Benfordsche Gesetz ist faszinierend: Es widersetzt sich der Intuition, man kann selbst damit Tests durchführen und es auch für Unterrichtsaktivitäten eingesetzen. Früher wurde es als Kuriosum behandelt, aber heute zählt es zu den Standardmitteln, um Betrug aufzuedecken. Sicherlich lernen immer mehr Steuerhinterzieher daraus. Aber man sollte vorsichtig sein: Die erste signifikante Ziffer ist nicht das einzige, wovor man sich in Acht nehmen sollte. Das verallgemeinterte Benfordsche Gesetz erlaubt es, auch Regeln für die zweite signifikante Ziffer, die dritte etc. ableiten. Man kann versuchen, es selbst herauszufinden: man muss nur überlegen, in welchen Intervallen bzw. deren Vereinigung die Mantisse von Zahlen erscheinen/sein soll, so dass die zweite signifikante Ziffer ist.