Autor original: Christiane Rousseau.
Cambiar demasiados números en documentos financieros puede resultar arriesgado si uno no conoce ciertas matemáticas. Muy a menudo, los números que aparecen en este tipo de documentos siguen cierta regla matemática, llamada ley de Benford o ley del primer dígito significativo. Si uno se olvida de seguir la regla, entonces los números no pasarán ciertos tests estadísticos y es probable que sean examinados con detenimiento por un hipotético agente fiscal. La ley de Benford afirma que si se toman números aleatoriamente y se calculan las frecuencias de sus primeros dígitos significativos, los números con primer dígito significante representarían el %, mientras que los números con primer dígito significante representarían el %. Esta regla se observa en otros muchos conjuntos de números, como las potencias de o los números de Fibonacci.
¿Por qué?
A día de hoy se tienen explicaciones satisfactorias para este hecho y vamos a compartirlas con el lector.
La ley de Benford tiene que ver con la distribución de los primeros dígitos significativos de los números. El primer dígito significativo de un número positivo es el dígito no nulo que aparece más a la izquierda en su expresión decimal. Por ejemplo, el primer dígito significativo de es , el de es y el de es . Otra manera de definirlo que será útil en nuestra discusión matemática es escribir un número real positivo como un número multiplicado por una potencia de :
Entonces el primer dígito significativo de es la parte entera de , que se denota por . El número se llama mantisa de . Afirmamos que si tomamos una colección de números aleatorios y calculamos la frecuencia del primer dígito significativo , entonces es aproximadamente . Esta fórmula proporciona la siguiente tabla de frecuencias:
Tabla 1: Frecuencias en la ley de Benford.
Demos ahora una breve reseña histórica. El fenómeno fue descubierto por primera vez por el astrónomo Simon Newcombe (1835-1909), quien se dio cuenta de que las primeras páginas de las tablas logarítmicas (correspondientes a dígitos significativos pequeños) aparecían mucho más desgastadas que las últimas páginas. Su descubrimiento fue olvidado y esta ley fue redescubierta por Frank Benford (1883-1948) hacia 1938. Frank Benford reunió decenas de miles de números de distintos orígenes que seguían su ley. La moderna base de datos de Simon Plouffe, que contiene millones de constantes matemáticas también sigue la ley de Benford.
Muchos conjuntos de números que no son aleatorios también siguen la ley de Benford. Este es el caso de la población o la superficie de los países, la longitud de los ríos, etc. Quizá el lector quiera interrumpir la enumeración y empezar a ser escéptico… ¿En qué unidades se miden estas longitudes y estas áreas? ¿Las longitues vienen dadas en millas o en kilómetros? Esto no importa… Si las longitudes de los ríos en kilómetros siguen la ley de Benford entonces ¡las longitudes en millas también siguen la ley de Benford! Un cambio de unidades se corresponde con un cambio de escala. Veremos que la ley de Benford es invariante frente a cambios de escala. Más aún, es la única ley de probabilidad invariante frente a cambios de escala.
En la introdución se ha mencionado que los números de Fibonacci también siguen la ley de Benford. En cierto sentido, la ley de Benford es subjetiva, ya que depende de la base en la que expresamos los números. En una base con los dígitos no nulos son los elementos del conjunto y la ley de Benford en base dice que la frecuencia del primer dígito significativo es . Pues bien: ¡los números de Fibonacci siguen la ley de Benford en cualquier base ! La ley de Benford es invariante frente a cambios de base.
Ya es tiempo de comenzar a dar explicaciones. Para ello se requiere al lector que recuerde sus cursos de probabilidad. O a lo mejor prefiere experimentar por sí mismo antes de leer matemáticas más serias.
1. Invarianza frente a cambios de escala
Consideremos un cambio de escala simple obtenido multiplicando todos los números por . Si consideramos los números con dígito significativo , todos ellos pasarán a tener como dígito significativo o . Es fácil ver que . De hecho,
De manera similar se puede comprobar que , etc. Pero, ¿cómo arreglárselas al cambiar de kilómetros a millas, es decir, multiplicar números por ? Como se ha dicho anteriomente, la ley de Benford es demasiado restrictiva y necesitamos generalizarla. ¿Qué significa que el primer dígito significativo sea ? Significa que su mantisa pertenece al intervalo . Por tanto, la ley de Benford es una distribución de probabilidad parcial sobre la mantisa. La ley de Benford generalizada (que llamaremos ley de Benford haciendo abuso del lenguaje) en la mantisa viene dada por una función de densidad en el intervalo . Cuando elegimos un número al azar y calculamos su mantisa, obtenemos una variable aleatoria que toma valores en . Podemos decir que sigue la ley de Benford si la función de densidad viene dada por
Si es la probabilidad de que entonces se tiene que tener que
Esto es una generalización de la ley de Benford, ya que
¿Qué significa que una variable aleatoria en es invariante frente a cambios de escala? Significa que si es un número real positivo y tomamos la variable aleatoria entonces la mantisa de la variable aleatoria tiene la misma función de densidad que la de . Esto no es difícil de probar en el caso en que proviene de la ley de Benford, pero hay que distinguir casos en función del tamaño de . Lo haremos para uno de los casos y dejaremos el resto al lector. Podemos escribir , donde es la mantisa de . Como la mantisa de es la misma que la de , basta considerar el caso . ¿Cuál es la herramienta necesaria para probar esto? Puede que el lector recuerde de sus cursos de probabilidad que la función de distribución (acumulada) es muchas veces más útil que la función de densidad para variables aleatorias continuas. La función de distribución de una variable aleatoria se define como
Si sigue la ley de Benford entonces su función de distribución viene dada por
(1)
Por tanto, debemos probar que si sigue la ley de Benford y es la matisa de , para , entonces la función de distribución de viene dada por (1).
Para ello necesitamos calcular para . es la mantisa de , que toma valores en . Por tanto , si y si . El primer caso se da cuando . La única posibilidad de que la mantisa de esté en es que .Entonces la mantisa de es igual a . Por tanto,
como se buscaba. Los otros casos se resuelven de la misma manera.
El recíproco es más interesante…
2. La ley de Benford es la única ley de probabilidad sobre la mantisa invariante frente a cambios de escala
Esta es una afirmación impresionante. Sin embargo, veremos que la demostración no es mucho más complicada que el argumento anterior. Sea la variable aleatoria que representa la mantisa y toma valores en . Busquemos su función de distribución bajo la hipótesis de que es invariante frente a cambios de escala; necesitamos calcular
Por tanto, tenemos que y . La mayor dificultad de la demostración radica en interpretar qué significa que es invariante frente a cambios de escala. Como y son el mismo suceso, se tiene que
(2)
Como antes, consideramos el caso , por lo que ( depende de ). Así, para , es igual a su mantisa. Como es invariante frente a cambios de escala, la mantisa de tiene la misma función de distribución que . Por tanto,
Combinando con (2) se tiene que verifica
(3)
siempre que no sea demasaido grande. Debemos hallar en la ecuación funtional (3). Veamos cómo hacer esto. Si , entonces
que puede ser expresado como
ya que . Si tomamos el límite cuando , reconocemos en cada lado de la ecuación un cociente cuyo límite es una derivada. En el lado izquierdo es , cuo límite es , y en el lado derecho , que tiende a . Por tanto, se tiene la siguiente ecuación diferencial en variables separables:
cuya solución es . Como , tenemos que , y como , entonces . Así, y con ello hemos terminado.
3. ¿Por qué números de todo tipo de procedencia siguen la ley de Benford?
Theodore Hill dio una respuesta en 1995. Discutamos brevemente su idea. Por supuesto, no todos los conjuntos de números siguen la ley de Benford. Por ejemplo, si se considera la altura en metros de las personas entonces los únicos dígitos significativos que aparecen son, salvo unos pocos casos, y . Si se convierten estas medidas a pies (un pie equivale aproximadamente a cm) entonces la ley de distribución de los dígitos significativos varía. Por tanto, este conjunto no es invariante frente a cambios de escala. Supongamos que tenemos un conjunto de números de diversa procedencia y le cambiamos la escala. En este conjunto existen subconjuntos de números con diferente escala. Como este conjunto es grande y los números tienen diferentes orígenes, lo más probable es que diferentes escalas estén presentes. Multiplicar todos los números del conjunto por una constante positiva induce una permutación de las escalas en el nuevo conjunto. Por tanto, podemos esperar que el conjunto se comporte como si no tuviera ninguna escala en particular, luego seguirá la ley de Benford.
Esta explicación es buena para conjuntos de números provenientes de orígenes diversos, pero no explica por qué las superficies de los países o sus poblaciones o las longitudes de los ríos siguen la ley de Benford. Comentaremos explicaciones recientes (2008) para estos casos dadas por Gauvrit, Delahaye y Fewster. Su razonamiento es válido también para conjuntos grendes de números de toda procedencia.
4. Es probable que los conjuntos de números que abarcan diferentes órdenes de magnitud sigan la ley de Benford
Trabajando en base hemos visto que los números positivos pueden ser escritos como
, donde y . Podemos considerar como el orden de magnitud de . Decimos que hay diferentes órdenes de magnitud en un conjunto si aparecen diferentes valores de para sus elementos. Notar que esta propiedad es invariante frente a cambios de escala. Para simplificar la explicación, supongamos que los números están en el intervalo . En este caso, los números con dígito significativo son los pertenecientes al conjunto
De manera similar definimos los conjuntos para los otros dígitos. Es mejor trabajar con el logaritmo en base de estos números: ; así, . Probemos ahora que si una variable aleatoria en sigue la ley de Benford entonces la variable aleatoria es uniforme en . Para ello, basta ver que la funcion de distribución de es la de una variable aleatoria uniforme en , es decir,
De hecho, si ,
Si pertenece al conjunto , entonces está en :
y de manera similar para los demás dígitos. Supongamos que tomar un número aleatorio de nuestro conjunto es una variable aleatoria que toma valores en . Entonces toma valores en . Notar que la probabilidad de que una variable aleatoria pertenezca a determinado conjunto es igual al área bajo la gráfica de la función de densidad sobre el conjunto.Si la función de densidad de sobre fuera uniforme, como en la Figura 3 (a), obtendríamos lo que queríamos probar. Sin embargo, en la mayoría de los casos no es así, como en la Figura 3 (b). Por eso es tan importante que el conjunto original de números abarque diferentes órdenes de magnitud. Las diferentes partes correspondientes a un dígito significativo dado se extienden horizontalmente a lo largo de varios segmentos, cuya suma de longitudes es del orden de de la anchura total. Por tanto, incluso si la altura de no es la misma de un segemento a otro, se puede esperar que la altura media sea del mismo orden de magnitud para diferentes dígitos. Cuando esto sucede, los datos siguen la ley de Benford.
5. ¿Cómo comprobar si un conjunto de números sigue la ley de Benford?
Si el lector ha tomado cursos de estadística, probablemente haya estudiado el test de bondad de ajuste chi cuadrado. Este test permite comprobar si ciertos datos siguen cierta distribución de probabilidad. Supongamos que que se quiere hacer este test a un conjunto de números. Necesitaremos construir una tabla, en la que representa el número de números qdel conjunto que tienen como primer dígito significativo . Por supuesto, . representa el número de números del conjunto que tendrían primer dígito significativo si el conjunto siguiera la ley de Benford, es decir, .
Tabla 2: La tabla para el test de bondad de ajuste .
Se calcula
y se busca en la tabla de la la línea que corresponde a grados de libertad. Si se va a hacer un test con un error del %, entonces se acepta que los datos se ajustan a la ley de Benford si y se rechaza en otro caso. Este es un método sencillo, pero si se van a hacer tests con estudiantes es conveniente que se familiaricen con los detalles del test y su significado.
6. Invarianza de la ley de Banford frente a cambios de base
Este caso se modela de manera similar a la invarianza frente a cambios de escala, aunque es un poco más complicado, ya que no podemos limitar el trabajo únicamente a la mantisa. De hecho, si entonces la parte también debe se convertida a la nueva base. La mayor dificultad radica en expresar en términos matemáticos qué significa que una variable aleatoria sea independiente frente a cambios de base. Omitimos los detalles de este caso.
7. Conclusión
La ley de Benford es fascinante: desafía la intuición, se puede comprobar por uno mismo y también adaptar para una actividad de aula. Lo que solía ser una mera curiosidad es ahora una herramienta estándar para detectar fraudes. Por supuesto, cada vez más evasores de impuestos saben de ella. Pero hay que prestar atención: el primer dígito significativo no es lo único a tener en cuenta. La ley de Benford generalizada nos permite derivar leyes para el segundo dígito significativo, el tercero, etc. El lector uede tratar de encontrarlas por sí mismo: basta pensar en qué uniones de intervalos debe encontrarse la mantisa de un número para que su segundo (tercer, etc.) dígito significativo sea .
Me encanta el modo en que escribes, en serio
Es interesante la ley de Benford y más si se explica a los alumnos de bachillerato.