Die Autorin des Originaltextes ist Christiane Rousseau.
Vom Englischen ins Deutsche übersetzt von Katrin Wörler-Veh (Universität Würzburg)
Es erweist sich als sehr riskant, zu viele Zahlen in irgendwelchen Finanzaufstellungen zu ändern, wenn man sich nicht ein bisschen mit Mathematik auskennt. In der Tat folgen Zahlen, die in Finanzaufstellungen erscheinen, sehr häufig irgendeiner seltsamen mathematischen Regel, die auch Benfordsches Gesetz oder Gesetz der ersten signifikanten Ziffer genannt wird. Wenn man vergisst, diese Regel zu befolgen, dann bestehen die Zahlen einige statistische Tests nicht und werden höchstwahrscheinlich mit äußerster Sorgfalt überprüft. Das Benfordsche Gesetz besagt, dass die Zahlen mit der als erster signifikanter Ziffer in zufälligen Zahlenansammlungen mit einer Häufigkeit von rund % erscheinen sollten, wohingegen die Zahlen mit der als erster signifikanten Ziffer nur in % der Fälle auftreten. Dieses Gesetz wurde auch in vielen anderen Zahlenmengen beobachten, z. B. den Quadratzahlen oder den Fibonacci-Zahlen.
Warum?
Mittlerweile gibt es hierfür zufriedenstellende Erklärungen, die im Folgenden dargestellt werden.
Das Benfordsche Gesetz betrifft die Verteilung der ersten signifikanten Ziffern von Zahlen. Die erste signifikante Ziffer einer positiven Zahl ist die von Null verschiedene Ziffer einer Dezimalzahl, die am weite und die von . Alternativ – und für die nachfolgenden Darstellungen hilfreich – kann dieses Phänomen auch definiert werden, indem eine reelle positive Zahl als Produkt einer Zahl mit einer Potenz von geschrieben wird:
Dann ist die erste signifikante Ziffer von der ganzzahlige Teil von , der als geschrieben werden kann. Die Zahl wird Mantisse von genannt. Wir behaupten nun, dass die relative Häufigkeit der ersten signifikanten Ziffer näherungsweise durch beschrieben wird, wenn man Zahlen zufällig sammelt. Man erhält folgende Häufigkeitsverteilung:
Tabelle 1: Häufigkeiten des Benfordschen Gesetzes
Der folgende Abschnitt enthält einige kurze historische Anmerkungen. Das Phänomen wurde als erstes vom Astronomen Simon Newcombe (1835-1909) entdeckt, der bemerkte, dass die ersten Seiten von Logarithmentafeln , die niedrigen ersten signifikanten Ziffern entsprechen, viel abgenutzter aussahen als die darauffolgenden Seiten. Seine Entdeckung wurde jedoch vergessen und erst um 1938 von Frank Benford (1883-1948) wiederentdeckt. Benford sammelte Zehntausende von Zahlen aus vielerlei Quellen, die seinem Gesetz folgten. Die moderne Datenbank von Simon Plouffe, die 215 Millionen mathematische Kostanten beinhaltet, folgt ebenfalls dem Benfordschen Gesetz.
Auch viele Zahlenmengen, die nicht zufällig zusammengesetzt sind, folgen dem Benfordschen Gesetz, so beispielsweise Bevölkerungszahlen und Flächen von Ländern, die Länge von Flüssen usw. Vielleicht möchte man mich an diesem Punkt stoppen und anfangen zu zweifeln … In welchen Einheiten werden diese Längen oder Flächen angegeben? Werden die Längen in Meilen oder Kilometer angegeben? Dies alles ist nicht von Bedeutung … Wenn die Längen von Flüssen in Kilometern angegeben werden, folgen sie dem Benfordschen Gesetz genauso, wie wenn sie in Meilen angegeben werden! Ein Wechsel der Einheit korrespondiert mit dem Wechsel des Maßstabs. Wir werden sehen, dass das Benfordsche Gesetz unter Skalenwechseln invariant gültig bleibt. Es ist außerdem das einzige Wahrscheinlichkeitsgesetzt, das skaleninvariant ist.
Wie in der Einleitung bereits erwähnt, folgen die Fibonacci-Zahlen dem Benfordschen Gesetz. In gewisser Weise ist das Benfordsche Gesetz jedoch subjektiv, da es von der Basis (unseres Stellenwertsystems) abhängt, in der wir unsere Zahlen schreiben. In irgendeiner Basis mit sind die von Null verschiedenen Ziffern Elemente der Menge , und das Benfordsche Gesetz bezüglich einer Basis besagt, dass sich die Häufigkeit der ersten signifikanten Ziffer stets aus ergibt. Sehr schön! Die Fibonacci-Zahlen folgen dem Benfordschen Gesetz also in jeder beliebigen Basis b. Das Benfordsche Gesetz ist somit invariant unter einem Basenwechsel. Und es ist das einzige nicht-triviale Wahrscheinlichkeitsgesetz mit dieser Eigenschaft.
Im Folgenden werden einige Erklärungen gegeben, die es erfordern, dass man sich an Einiges aus der Wahrscheinlichkeitsrechnung erinnert. Bevor man ernsthaftere Mathematik zu lesen beginnt, kann man es jedoch zunächst selbst probieren.
1. Invarianz unter Skalenwechsel
Betrachten wir einen einfachen Skalenwechsel, den man durch Multiplizieren aller Zahlen einer Zahlenmenge mit dem Faktor erhält. Zahlen mit der ersten signifikanten Ziffer 1 werden dadurch zu Zahlen, deren erste signifikante Ziffer entweder oder ist. Man kann leicht nachweisen, dass Folgendes gilt:. Tatsächlich ist
Gleichermaßen kann man nachweisen, dass ergibt , etc.
Aber wie wird es gehandhabt, wenn man von Meilen zu Kilometern wechselt, d. h. die Zahlen der Menge mit dem Faktor multipliziert? Das Benfordsche Gesetz ist, wie bereits erwähnt, zu restriktiv, so dass wir es verallgemeinern müssen. Was bedeutet es, dass die erste signifikante Ziffer einer Zahl gleich ist? Dies besagt, dass die Mantisse im Intervall liegt. Das Benfordsche Gesetz ist also eine Wahrscheinlichkeitsverteilung bzgl. der Mantisse. Das verallgemeinerte Benfordsche Gesetz (welches wir unter Sprachmissbrauch weiterhin Benforsches Gesetz nennen) ist auf der Mantisse durch eine Dichtefunktion auf dem Intervall gegeben. Für eine zufällig ausgewählte Zahl lässt sich ihre Mantisse berechnen. Dadurch ergibt sich eine Zufallsvariable , deren Werte im Intervall liegen. Man sagt, sie folgt dem Benfordschen Gesetz, wenn ihre Dichtefunktion gegeben ist durch
Sei die Wahrscheinlichkeit für den Fall , so erhalten wir folgende Formel:
Es handelt sich also wirklich um eine Verallgemeinerung des Benfordschen Gesetzes, da gilt:
Was bedeutet es, wenn eine Zufallsvariable aus unter einem Skalenwechsel invariant ist? Es bedeutet, dass für eine positive reelle Zahl und eine Zufallsvariable die Matisse der Zufallsvariablen dieselbe Dichtefunktion besitzt wie . Man kann leicht zeigen, dass dies gilt, wenn dem Benfordschen Gesetz folgt, aber man muss abhängig von einige Fälle unterscheiden. Wir werden hier exemplarisch einen Fall behandeln. Die Zahl lässt sich schreiben als mit der Mantisse von . Da die Mantisse von dieselbe ist wie die von , genügt es den Fall zu betrachten.
Mit welchem Hilfsmittel lässt sich dies zeigen? Eventuell kann man sich (aufgrund der zurückliegenden Wahrscheinlichkeitsrechnung) daran erinnern, dass sich für eine stetige Zufallsvariable die (kumulative) Verteilungsfunktion manchmal als hilfreicher erweist als die Dichtefunktion. Die Verteilungsfunktion einer Zufallsvariable ist definiert als
Wenn dem Benfordschen Gesetz folgt, dann wird seine Verteilungsfunktion beschrieben durch
(1)
Wir müssen also zeigen, dass die Verteilungsfunktion von M durch Formel (1) genau dann gegeben ist, wenn dem Benfordschen Gesetz folgt und die Mantisse von für ist.
Dafür müssen wir die Wahrscheinlichkeit für berechnen. ist die Mantisse von , deren Werte innerhalb liegen. So ergibt sich für und für .
Im ersten Fall ist . Die einzige Möglichkeit dafür, dass die Mantisse von im Intervall liegt, ist . Dann ist die Mantisse von gleich .
Daher gilt, wie erwartet,
Die anderen Fälle werden analog berechnet.
Die Umkehrung ist spannender …
2. Das Benfordsche Gesetz ist das einzige Wahrscheinlichkeitsgesetz bzgl. der Mantisse, welches invariant unter einem Skalenwechsel ist
Dies scheint eine beeindruckende Aussage zu sein! Jedoch wird man sehen, dass der Beweis dafür nicht komplizierter ist als der vorige. Es sei eine Zufallsvariable, die die Mantisse repräsentiert und Werte aus dem Intervall besitzt. Wir betrachten ihre Verteilungsfunktion unter der Annahme, dass bei einem Skalenwechsel invariant ist. Wir müssen also Folgendes berechnen:
Daher muss und gelten.
Die größte Schwierigkeit des Beweises besteht in der Deutung der Tatsache, dass bei einem Skalenwechsel invariant ist. Da und die gleichen Zufallsereignisse sind, ergibt sich
(2)
Betrachten wir wie vorhin den Fall einer beliebigen Zahl mit (wobei abhängig von ist). Dann ist der Wert für gleich der Mantisse. Da bei einem Skalenwechsel nach Voraussetzung invariant ist, folgt die Mantisse von derselben Verteilungsfunktion wie . Also gilt
Kombiniert mit Formel (2) erkennt man, dass unter der Vorraussetzung, dass nicht zu groß ist, Folgendes erfüllt:
(3)
Wir müssen also anhand der funktionalen Gleichung (3) bestimmen. Wie funktioniert das?
Sei hierfür , so ergibt sich
was man wegen auch schreiben kann als
Betrachten wir den Grenzwert für . Auf jeder Seite der Gleichung muss man einen Quotienten erkennen, dessen Grenzwert eine Ableitung ist: Auf der linken Seite haben wir was im Grenzfall zu wird, und auf der rechten , was gegen geht. Daher erhält man die Differentialgleichung,
die die Trennung der Variablen erlaubt und deren Lösung durch beschrieben wird. Wegen ergibt sich und aus folgt . Schließlich erhalten wir und sind fertig!
3. Warum folgen Zahlen verschiedenster Quellen dem Benfordschen Gesetz?
Theodore Hill gab darauf im Jahr 1995 eine Antwort, die im Folgenden kurz erläutert wird. Selbstverständlich folgen nicht alle Zahlenmengen dem Benfordschen Gesetz. Wenn man beispielsweise die Körpergröße von Menschen in Metern betrachtet, dann erscheinen – bis auf ein paar Ausnahmen – als erste signifikante Ziffer nur die und , und wenn man die Größe in Fuß umrechnet (ein Fuß beträgt ca. cm), ändert sich das Verteilungsgesetz der ersten signifikanten Ziffer. Also verhält sich diese Menge von Zahlen bei einem Skalenwechsel nicht invariant. Angenommen aber, wir betrachten eine große Menge von Zahlen aus beliebigen Quellen und ändern die Skala, dann haben verschiedene Teilmengen jeweils ihre (eigene) Skala. Da die Zahlenmenge groß ist und die Zahlen von aus beliebigen Quellen stammen, so sind vermutlich alle verschiedenen Skalen vorhanden. Werden nun alle Zahlen der Menge mit einer positiven Konstanten multipliziert, so erzeugt dies (lediglich) eine Permutation der Skalen, die in der neuen Menge enthalten sind. Insgesamt kann man also davon ausgehen, dass die Zahlenmenge sich so verhält, als würde ihr keine spezielle Skala zugrundeliegen. Sie folgt daher dem Benfordschen Gesetz.
Diese Erklärung besitzt Gültigkeit für Zahlenmengen, die sich aus allen möglichen Quellen zusammensetzen. Jedoch gibt sie keine Antwort darauf, warum Länderflächen, Bevölkerungszahlen von Ländern oder Längen von Flüssen dem Benfordschen Gesetz folgen. Für diese Fälle werden hier neueste Erklärungen (2008!) von Gauvrit, Delahaye und Fewster angeführt; Sie gelten auch für große Zahlenmengen beliebiger Herkunft.
4. Zahlenmengen, die sich über mehrer Zehnerpotenzen erstrecken, folgen wahrscheinlich dem Benfordschen Gesetz!
Wir arbeiten im Dezimalsystem, also mit Basis , und konnten feststellen, dass sich positive Zahlen darin als mit und schreiben lassen. Wir könnten als Zehnerpotenz auffassen und behaupten, dass verschiedene Zehnerpotenzen existieren, wenn für unsere Menge von Zahlen verschiedene Werte von n vorhanden sind. (Beachte, dass diese Eigenschaft bei einem Skalenwechsel invariant ist!) Um die Erklärung zu vereinfachen, nehmen wir an, dass die betrachteten Zahlen im Intervall liegen. Dann lässt sich die Menge der Zahlen mit signifikanter Ziffer beschreiben als:
Für die anderen Ziffern ergeben sich änliche Mengen .
Es ist nun von Vorteil, auf den Zehnerlogarithmus dieser Zahlen überzugehen: . Dann ergibt sich (wegen ) . Wir zeigen nun, dass die Zufallsvariable im Intervall einfach gleichverteilt ist, wenn die Zufallsvariable im Intervall dem Benfordschen Gesetz folgt. Es genügt zu zeigen, dass die Verteilungsfunktion von der Verteilungsfunktion einer gleichverteilten Zufallsvariablen auf entspricht, nämlich
Tatsächlich erhält man, wenn ,
Wenn zur Menge gehört, dann gehört zur Menge :
Ähnliches gilt für die anderen Ziffern.
Angenommen, eine beliebige Zahl aus unserer Menge zu nehmen, ist eine Zufallsvariable , deren Werte innerhalb liegen. Dann liegen die Werte von im Intervall . Erinnern wir uns, dass die Wahrscheinlichkeit, dass irgendeine Zufallsvariable zu irgendeiner Menge gehört, gleich ist zur Fläche unter dem Graphen der Dichtefunktion einer Menge. Wenn die Dichtefunktion von über gleichverteilt wäre wie in Abbildung 3 (a), dann wären wir fertig. Viel häufiger verhält es sich aber anders, wie in Abbildung 3 (b) zu sehen ist. Daher ist es so wichtig, dass sich die ursprüngliche Zahlenmenge über mehrere Zehnerpotenzen erstreckt.
Die verschiedenen Teilbereiche, die einer vorgegebenen ersten signifikanten Ziffer entsprechen, überspannen verschiedene Abschnitte, deren Längensumme von der Größenordnung bzgl. der gesammten Breite ist.
Selbst wenn also die Höhe von vom einen zum nächsten Abschnitt nicht gleich bleibt, so kann man dennoch hoffen, dass die durchschnittliche Höhe für die verschiedenen Ziffern von der gleichen Zehnerpotenz ist. Ist dies der Fall, so folgen die Werte dem Benfordschen Gesetz.
5. Wie kann man überprüfen, dass eine Zahlenmenge dem Benfordschen Gesetz folgt?
Wenn man einen Statistikkurs besucht hat, dann kennt man wahrscheinlich auch den -Test als Anpassungstest. Mit dieser Methode kann man überprüfen, ob Daten auf irgendeine Weise stochastisch verteilt sind. Angenommen, man möchte den Test mit einer Menge von n Zahlen durchführen. Dann muss man hierfür nur eine Tabelle aufstellen, in der für die Anzahl der Zahlen der Menge steht, die die erste signifikante Ziffer besitzen.
Selbstverständlich gilt . Ferner sei die Anzahl derjenigen Zahlen, die als erste signifikante Ziffer haben sollten, wenn die genannte Zahlenmenge dem Benfordschen Gesetz folgt, nämlich .
Tabelle 2: Tabelle für den -Anpassungstest.
Man berechnet dann
und schlägt in einer Tabelle zur Chi-Quadrat-Verteilung die Zeile nach, in der die Werte für Freiheitsgrade eingetragen sind. Wenn man den Test mit einem Signifikanzniveau von % durchführt, dann nimmt man an, dass sich die Daten nach dem Benfordschen Gesetz verteilt sind, wenn ist; andernfalls weist man die Annahne zurück. Es handelt sich dabei um ein schnelles Rezept, aber wenn man solch einen Test mit Lernenden durchführt, sollte man sich einige Zeit nehmen, um sie mit den Einzelheiten des Tests und ihrer Bedeutung vertraut zu machen.
6. Invarianz des Benfordschen Gesetzes beim Wechsel der Basis
Diesen Fall kann man in einer ähnlichen Weise behandeln wie die Invarianz beim Skalenwechsel. Allerdings ist er etwas kniffliger, da man die Argumentation nicht auf die Mantisse beschränken kann. Wenn ist, dann muss der Teil tatsächlich auf die neue Basis überführt werden. In der Tat besteht die größte Schwierigkeit darin, in mathematischen Begriffen zu beschreiben, was es für eine Zufallsvariable bedeutet, unter Basiswechsel invariant zu sein. Wir überspringen jedoch die Details.
7. Fazit
Das Benfordsche Gesetz ist faszinierend: Es widersetzt sich der Intuition, man kann selbst damit Tests durchführen und es auch für Unterrichtsaktivitäten eingesetzen. Früher wurde es als Kuriosum behandelt, aber heute zählt es zu den Standardmitteln, um Betrug aufzuedecken. Sicherlich lernen immer mehr Steuerhinterzieher daraus. Aber man sollte vorsichtig sein: Die erste signifikante Ziffer ist nicht das einzige, wovor man sich in Acht nehmen sollte. Das verallgemeinterte Benfordsche Gesetz erlaubt es, auch Regeln für die zweite signifikante Ziffer, die dritte etc. ableiten. Man kann versuchen, es selbst herauszufinden: man muss nur überlegen, in welchen Intervallen bzw. deren Vereinigung die Mantisse von Zahlen erscheinen/sein soll, so dass die zweite signifikante Ziffer ist.