Autor original: Christiane Rousseau.
Cambiar demasiados números en documentos financieros puede resultar arriesgado si uno no conoce ciertas matemáticas. Muy a menudo, los números que aparecen en este tipo de documentos siguen cierta regla matemática, llamada ley de Benford o ley del primer dígito significativo. Si uno se olvida de seguir la regla, entonces los números no pasarán ciertos tests estadísticos y es probable que sean examinados con detenimiento por un hipotético agente fiscal. La ley de Benford afirma que si se toman números aleatoriamente y se calculan las frecuencias de sus primeros dígitos significativos, los números con primer dígito significante representarían el
%, mientras que los números con primer dígito significante
representarían el
%. Esta regla se observa en otros muchos conjuntos de números, como las potencias de
o los números de Fibonacci.
¿Por qué?
A día de hoy se tienen explicaciones satisfactorias para este hecho y vamos a compartirlas con el lector.
La ley de Benford tiene que ver con la distribución de los primeros dígitos significativos de los números. El primer dígito significativo de un número positivo es el dígito no nulo que aparece más a la izquierda en su expresión decimal. Por ejemplo, el primer dígito significativo de es
, el de
es
y el de
es
. Otra manera de definirlo que será útil en nuestra discusión matemática es escribir un número real positivo
como un número
multiplicado por una potencia de
:
Entonces el primer dígito significativo de es la parte entera de
, que se denota por
. El número
se llama mantisa de
. Afirmamos que si tomamos una colección de números aleatorios y calculamos la frecuencia
del primer dígito significativo
, entonces
es aproximadamente
. Esta fórmula proporciona la siguiente tabla de frecuencias:
Tabla 1: Frecuencias en la ley de Benford.
Demos ahora una breve reseña histórica. El fenómeno fue descubierto por primera vez por el astrónomo Simon Newcombe (1835-1909), quien se dio cuenta de que las primeras páginas de las tablas logarítmicas (correspondientes a dígitos significativos pequeños) aparecían mucho más desgastadas que las últimas páginas. Su descubrimiento fue olvidado y esta ley fue redescubierta por Frank Benford (1883-1948) hacia 1938. Frank Benford reunió decenas de miles de números de distintos orígenes que seguían su ley. La moderna base de datos de Simon Plouffe, que contiene millones de constantes matemáticas también sigue la ley de Benford.
Muchos conjuntos de números que no son aleatorios también siguen la ley de Benford. Este es el caso de la población o la superficie de los países, la longitud de los ríos, etc. Quizá el lector quiera interrumpir la enumeración y empezar a ser escéptico… ¿En qué unidades se miden estas longitudes y estas áreas? ¿Las longitues vienen dadas en millas o en kilómetros? Esto no importa… Si las longitudes de los ríos en kilómetros siguen la ley de Benford entonces ¡las longitudes en millas también siguen la ley de Benford! Un cambio de unidades se corresponde con un cambio de escala. Veremos que la ley de Benford es invariante frente a cambios de escala. Más aún, es la única ley de probabilidad invariante frente a cambios de escala.

Figura 2: Algunos datos que siguen aproximadamente la ley de Benford: superficies de países en kilómetros cuadrados, áreas de países en millas cuadradas y poblaciones de países.
En la introdución se ha mencionado que los números de Fibonacci también siguen la ley de Benford. En cierto sentido, la ley de Benford es subjetiva, ya que depende de la base en la que expresamos los números. En una base
con
los dígitos no nulos son los elementos del conjunto
y la ley de Benford en base
dice que la frecuencia del primer dígito significativo
es
. Pues bien: ¡los números de Fibonacci siguen la ley de Benford en cualquier base
! La ley de Benford es invariante frente a cambios de base.
Ya es tiempo de comenzar a dar explicaciones. Para ello se requiere al lector que recuerde sus cursos de probabilidad. O a lo mejor prefiere experimentar por sí mismo antes de leer matemáticas más serias.
1. Invarianza frente a cambios de escala
Consideremos un cambio de escala simple obtenido multiplicando todos los números por . Si consideramos los números con dígito significativo
, todos ellos pasarán a tener como dígito significativo
o
. Es fácil ver que
. De hecho,
De manera similar se puede comprobar que , etc. Pero, ¿cómo arreglárselas al cambiar de kilómetros a millas, es decir, multiplicar números por
? Como se ha dicho anteriomente, la ley de Benford es demasiado restrictiva y necesitamos generalizarla. ¿Qué significa que el primer dígito significativo sea
? Significa que su mantisa
pertenece al intervalo
. Por tanto, la ley de Benford es una distribución de probabilidad parcial sobre la mantisa. La ley de Benford generalizada (que llamaremos ley de Benford haciendo abuso del lenguaje) en la mantisa viene dada por una función de densidad en el intervalo
. Cuando elegimos un número al azar y calculamos su mantisa, obtenemos una variable aleatoria
que toma valores en
. Podemos decir que sigue la ley de Benford si la función de densidad viene dada por
Si es la probabilidad de que
entonces se tiene que tener que
Esto es una generalización de la ley de Benford, ya que
¿Qué significa que una variable aleatoria en
es invariante frente a cambios de escala? Significa que si
es un número real positivo y tomamos la variable aleatoria
entonces la mantisa
de la variable aleatoria
tiene la misma función de densidad que la de
. Esto no es difícil de probar en el caso en que
proviene de la ley de Benford, pero hay que distinguir casos en función del tamaño de
. Lo haremos para uno de los casos y dejaremos el resto al lector. Podemos escribir
, donde
es la mantisa de
. Como la mantisa de
es la misma que la de
, basta considerar el caso
. ¿Cuál es la herramienta necesaria para probar esto? Puede que el lector recuerde de sus cursos de probabilidad que la función de distribución (acumulada) es muchas veces más útil que la función de densidad para variables aleatorias continuas. La función de distribución de una variable aleatoria
se define como
Si sigue la ley de Benford entonces su función de distribución viene dada por
(1)
Por tanto, debemos probar que si sigue la ley de Benford y
es la matisa de
, para
, entonces la función de distribución de
viene dada por (1).
Para ello necesitamos calcular para
.
es la mantisa de
, que toma valores en
. Por tanto
, si
y
si
. El primer caso se da cuando
. La única posibilidad de que la mantisa de
esté en
es que
.Entonces la mantisa de
es igual a
. Por tanto,
como se buscaba. Los otros casos se resuelven de la misma manera.
El recíproco es más interesante…
2. La ley de Benford es la única ley de probabilidad sobre la mantisa invariante frente a cambios de escala
Esta es una afirmación impresionante. Sin embargo, veremos que la demostración no es mucho más complicada que el argumento anterior. Sea la variable aleatoria que representa la mantisa y toma valores en
. Busquemos su función de distribución
bajo la hipótesis de que
es invariante frente a cambios de escala; necesitamos calcular
Por tanto, tenemos que y
. La mayor dificultad de la demostración radica en interpretar qué significa que
es invariante frente a cambios de escala. Como
y
son el mismo suceso, se tiene que
(2)
Como antes, consideramos el caso , por lo que
(
depende de
). Así, para
,
es igual a su mantisa. Como
es invariante frente a cambios de escala, la mantisa de
tiene la misma función de distribución que
. Por tanto,
Combinando con (2) se tiene que verifica
(3)
siempre que no sea demasaido grande. Debemos hallar
en la ecuación funtional (3). Veamos cómo hacer esto. Si
, entonces
que puede ser expresado como
ya que . Si tomamos el límite cuando
, reconocemos en cada lado de la ecuación un cociente cuyo límite es una derivada. En el lado izquierdo es
, cuo límite es
, y en el lado derecho
, que tiende a
. Por tanto, se tiene la siguiente ecuación diferencial en variables separables:
cuya solución es . Como
, tenemos que
, y como
, entonces
. Así,
y con ello hemos terminado.
3. ¿Por qué números de todo tipo de procedencia siguen la ley de Benford?
Theodore Hill dio una respuesta en 1995. Discutamos brevemente su idea. Por supuesto, no todos los conjuntos de números siguen la ley de Benford. Por ejemplo, si se considera la altura en metros de las personas entonces los únicos dígitos significativos que aparecen son, salvo unos pocos casos, y
. Si se convierten estas medidas a pies (un pie equivale aproximadamente a
cm) entonces la ley de distribución de los dígitos significativos varía. Por tanto, este conjunto no es invariante frente a cambios de escala. Supongamos que tenemos un conjunto de números de diversa procedencia y le cambiamos la escala. En este conjunto existen subconjuntos de números con diferente escala. Como este conjunto es grande y los números tienen diferentes orígenes, lo más probable es que diferentes escalas estén presentes. Multiplicar todos los números del conjunto por una constante positiva induce una permutación de las escalas en el nuevo conjunto. Por tanto, podemos esperar que el conjunto se comporte como si no tuviera ninguna escala en particular, luego seguirá la ley de Benford.
Esta explicación es buena para conjuntos de números provenientes de orígenes diversos, pero no explica por qué las superficies de los países o sus poblaciones o las longitudes de los ríos siguen la ley de Benford. Comentaremos explicaciones recientes (2008) para estos casos dadas por Gauvrit, Delahaye y Fewster. Su razonamiento es válido también para conjuntos grendes de números de toda procedencia.
4. Es probable que los conjuntos de números que abarcan diferentes órdenes de magnitud sigan la ley de Benford
Trabajando en base hemos visto que los números positivos pueden ser escritos como
, donde
y
. Podemos considerar
como el orden de magnitud de
. Decimos que hay diferentes órdenes de magnitud en un conjunto si aparecen diferentes valores de
para sus elementos. Notar que esta propiedad es invariante frente a cambios de escala. Para simplificar la explicación, supongamos que los números están en el intervalo
. En este caso, los números con dígito significativo
son los pertenecientes al conjunto
De manera similar definimos los conjuntos para los otros dígitos. Es mejor trabajar con el logaritmo en base
de estos números:
; así,
. Probemos ahora que si una variable aleatoria
en
sigue la ley de Benford entonces la variable aleatoria
es uniforme en
. Para ello, basta ver que la funcion de distribución de
es la de una variable aleatoria uniforme en
, es decir,
De hecho, si ,
Si pertenece al conjunto
, entonces
está en
:
y de manera similar para los demás dígitos. Supongamos que tomar un número aleatorio de nuestro conjunto es una variable aleatoria que toma valores en
. Entonces
toma valores en
. Notar que la probabilidad de que una variable aleatoria pertenezca a determinado conjunto es igual al área bajo la gráfica de la función de densidad sobre el conjunto.Si la función de densidad
de
sobre
fuera uniforme, como en la Figura 3 (a), obtendríamos lo que queríamos probar. Sin embargo, en la mayoría de los casos no es así, como en la Figura 3 (b). Por eso es tan importante que el conjunto original de números abarque diferentes órdenes de magnitud. Las diferentes partes correspondientes a un dígito significativo dado
se extienden horizontalmente a lo largo de varios segmentos, cuya suma de longitudes es del orden de
de la anchura total. Por tanto, incluso si la altura de
no es la misma de un segemento a otro, se puede esperar que la altura media sea del mismo orden de magnitud para diferentes dígitos. Cuando esto sucede, los datos siguen la ley de Benford.

(a) función de densidad f uniforme
(b) función de densidad f no uniforme
Figura 3: Las áreas correspodientes a las frecuencias de los primeros dígitos significativos 1, 2, 3 y 4 para diferentes funciones de densidad de Y. Los valores de las correspondientes áreas están reflejadas en la Figura 4.

(a) función de densidad de f
(b) Áreas bajo la curva para los dígitos significativos de f y para la función uniforme
Figura 4: Las áreas correspondientes a las frecuencias de los primeros dígitos significativos 1, 2, 3 y 4 para la función de densidad de la Figura 3(b). A la derecha se puede ver que estos valores están muy cercanos a los obtenidos mediante la ley de Benford en el caso en que Y tenga una función de densidad uniforme.
5. ¿Cómo comprobar si un conjunto de números sigue la ley de Benford?
Si el lector ha tomado cursos de estadística, probablemente haya estudiado el test de bondad de ajuste chi cuadrado. Este test permite comprobar si ciertos datos siguen cierta distribución de probabilidad. Supongamos que que se quiere hacer este test a un conjunto de números. Necesitaremos construir una tabla, en la que
representa el número de números qdel conjunto que tienen como primer dígito significativo
. Por supuesto,
.
representa el número de números del conjunto que tendrían primer dígito significativo
si el conjunto siguiera la ley de Benford, es decir,
.
Tabla 2: La tabla para el test de bondad de ajuste .
Se calcula
y se busca en la tabla de la la línea que corresponde a
grados de libertad. Si se va a hacer un test con un error del
%, entonces se acepta que los datos se ajustan a la ley de Benford si
y se rechaza en otro caso. Este es un método sencillo, pero si se van a hacer tests con estudiantes es conveniente que se familiaricen con los detalles del test y su significado.
6. Invarianza de la ley de Banford frente a cambios de base
Este caso se modela de manera similar a la invarianza frente a cambios de escala, aunque es un poco más complicado, ya que no podemos limitar el trabajo únicamente a la mantisa. De hecho, si entonces la parte
también debe se convertida a la nueva base. La mayor dificultad radica en expresar en términos matemáticos qué significa que una variable aleatoria sea independiente frente a cambios de base. Omitimos los detalles de este caso.
7. Conclusión
La ley de Benford es fascinante: desafía la intuición, se puede comprobar por uno mismo y también adaptar para una actividad de aula. Lo que solía ser una mera curiosidad es ahora una herramienta estándar para detectar fraudes. Por supuesto, cada vez más evasores de impuestos saben de ella. Pero hay que prestar atención: el primer dígito significativo no es lo único a tener en cuenta. La ley de Benford generalizada nos permite derivar leyes para el segundo dígito significativo, el tercero, etc. El lector uede tratar de encontrarlas por sí mismo: basta pensar en qué uniones de intervalos debe encontrarse la mantisa de un número para que su segundo (tercer, etc.) dígito significativo sea .
Me encanta el modo en que escribes, en serio
Es interesante la ley de Benford y más si se explica a los alumnos de bachillerato.