О том, что такое закон Бенфорда, и почему это круто
1 of 4
Download to read offline
More Related Content
000 закон Бенфорда
1.
Закон Бенфорда
Источник: Алекс Беллос, "Красота в квадрате"
Тенденцию к преобладанию чисел, начинающихся с единицы, впервые заметил
американский астроном канадского происхождения Саймон Ньюком, В 1881 году он опубликовал
в журнале American Journal of Mathematics краткую заметку, в которой объяснил, что выявил
данную особенность благодаря книгам с логарифмическми таблицами. Первые страницы с
таблицами логарифмов для чисел, начинающихся с цифры 1, всегда были более истрепаны, чем
страницы с таблицами для чисел, начинающихся с цифры 9. Подобный феномен уж точно не
объяснишь тем, что исследователи якобы внимательно читали первые страницы книги, а затем
теряли к ней интерес из-за отсутствия захватывающего сюжета. Здесь причина в другом: они чаще
сталкивались в работе с числами, начинающимися с единицы. Ньюком предположил, что
частотность первых цифр чисел, выраженная в процентах, примерно такова.
Частота наличия цифры 1 в начале чисел составляет 30,1 процента, цифры 2 – 17,6 процента,
цифры 3 – 12,5 процента, причем этот показатель стремительно падает по мере увеличения цифры:
шанс встретить цифру 1 в начале чисел в семь раз превышает подобную вероятность по
отношению к цифре 9.
Ньюком рассчитал эти показатели с помощью логарифмов. Он утверждал, что вероятность
появления цифры d в начале числе определяется по формуле: log (d + 1) – log d. Однако он не смог
четко обосновать ее, поэтому привел вместо этого неформальный аргумент, просто представив его
как некую любопытную тенденцию.
Логарифм можно определить следующим образом. Если a = 10b
, то логарифм числа a равен b
и записывается в таком виде:
log a = b
Другими словами, если число a выражено в виде степени 10, то логарифм числа a – это
показатель степени. Вот некоторые простые значения логарифмов:
30.10%
17.60%
12.50%
9.70%
7.90%
6.70% 5.80% 5.10% 4.60%
1 2 3 4 5 6 7 8 9
Первая цифра числа
2. 2
log 10 = 1, поскольку 10 = 10!
log100 = 2, поскольку 100 = 10!
log 1000 = 3, поскольку 1000 = 10!
А вот таблица логарифмов чисел от 1 до 10:
log 1 = 0
log2 = 0,301
log 3 = 0,477
log 4 = 0,602
log 5 = 0,699
log 6 = 0,778
log 7 = 0,845
log 8 = 0,903
log 9 = 0,954
log 10 = 1
Если мы отметим логарифмы чисел от 1 до 10 на числовой оси, разместив их в соответствии
с их значениями, то получис логарифмическую шкалу от 0 до 1. Чем дельше по оси находятся
лоагрифмы, тем плотнее они расположены.
На этой шкале отмечено расстояние между логарифмами. Вы узнаете в них проценты из
закона Бенфорда. Иными словами, если вы случайным образом выберу на этой шкале точку от 0
до 1, вероятность того, что она попадет в интервал от log 1 до log 2, составляет 30,1 процента, в
интервал от log 2 до log 3 – 17,6 процента и т.д.
Точно так же длина первого интервала равна log 2 – log 1, второго log 3 – log 2, а интервала d
– log (d + 1) – log d. Это означает, что эти вероятности можно более точно выразить как log (d + 1)
– log d для каждого значения d.
Более чем полвека спустя, в 1938 году, физик из General Electric Фрэнк Бенфорд заново
открыл феномен первой цифры, тоже обратив внимание на потрепанность страниц в книгах с
таблицами логарифмов (по всей вероятности, он не знал о статье Ньюкома). Однако Бенфорд
проанализировал эту закономерность не только на основании книг с логарифмами. Он изучил
распределение первых цифр исходя из таких данных, как население городов США, адреса первых
нескольких сотен людей из библиографического справочника американских ученых American Men
of Science, атомный вес химических элементов, площадь бассейна рек и статистика бейсбольных
матчей. В большинстве случаев результаты были близки к ожидаемому распределению. Наверное,
было очень интресено наблюдать за тем, как представленные выше проценты (в реальном мире
подобной точности нет). Тем не менее в целом они почти полностью совпадали с
прогнозируемыми значениями, отклонясь от них не более чем на нельсколько десятых процента. В
настоящее время закон Бенфорда нашел свое подтверждение в самых разных областях, в том
числе в естествознании, финансах, экономике и вычислительной технике. Этот закон гласит: в
любом множестве данных о естественных произвольных процессах, включающем в себя величины
нескольких порядков, частота появления цифры 1 в качестве первой значащей цифры составляет
около 30 процентов, цифры 2 – около 18 процентов и т.д. Бенфорд считал, что этот феномен
3. 3
отражает универсальный закон, который он обозначил термином «закон аномальных чисел». Но
термин не прижился, и открытие получило известнотсь под названием «закон Бенфорда».
Цифра 1 встречается чаще цифры 2 не только на первой, но и на второй, третьей, четвертой и
фактически любой позиции в записи числа. На представленном ниже рисунке продемон-
стрирована частотность вторых цифр в процентном выражении (среди которых есть теперь цифра
0). Различия между этими показателями не столь ощутимы, как в случае первых цифр, но их все
же можно использовать в целях диагностики, скажем в процессе анализа финансовых данных и
результатов выборов. По мере продвижения к следующим позициям данные о частоте появления
цифр стремятся к одному значению. Следовательно, закон Бенфорда касается не только первых
цифр.
В суде часто просят обосновать закон Бенфорда. Мы можем сделать то же самое. Вот числа
от 1 до 20:
1, 2, 3, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20.
Больше половины этих чисел начинаются с цифры 1, поскольку от 11 до 19 все числа
начинаются с единицы. Продолжаем считать. Где бы ни остановились, чисел с первой цифрой 1
будет не меньше, чем чисел с первой цифрой 2, поскольку для того, чтобы добраться до второго
десятка, второй сотни или второй тысячи, необходимо назвать все числа первого десятка, первой
сотни и первой тысячи. Точно так же чисел с первой цифрой 2 будет не меньше, чем чисел с
первой цифрой 3 и т.д., вплоть до чисел с первой цифрой 9. Такое обоснование помогает понять
закон Бенфорда на интуитивном уровне, и его вполне достаточно для суда как государственного
органа, а вот для суда математики требуется более строгое доказательство.
Одно из самых поразительных свойств закона Бенфорда – что последовательность цифр не
12.00%
11.40%
10.90%
10.40%
10.00% 9.70%
9.30%
5.10%
4.60%
8.50%
0 1 2 3 4 5 6 7 8 9
Вторая цифра числа
4. 4
зависит от единицы измерения. Когда массив финансовых данных подчиняется закону Бенфорда в
случае, если они выражены в фунтах, он будет подчиняться этому закону и после их конвертации
в доллары. Это свойство, обозначаемое термином «масштабная инвариантность», верно всегда,
поскольку числа, взятые из газет, банковских счетов и атласов пира показывают одно и то же
распределение первых цифр независимо от используемых систем измерения и валюты.
Для перевода расстояния из миль в километры необходимо умножить его на 1,6; для
конвертации денежной суммы из фунтов в доллары ее тоже следует умножить на фиксированное
число, соответствующее текущему обменному курсу. Простейший способ понять масштабную
инвариантность закона Бенфорда сводится к анализу поведения чисел в случае их умножения на
два.
Первая цифра числа n 1 2 3 4 5 6 7 8 9
Первая цифра числа 2n 2
или
3
4
или
5
6
или
7
8
или
9
1 1 1 1 1
Процент чисел в распределении Бенфорда 30,1 17,6 12,5 9,7 7,9 6,7 5,8 5,1 4,6
Предположим, S – это массив данных, подчиняющихся закону Бенфорда. Давайте умножим
на два каждое число, ходящее в массив S, и обозначим новый массив буквой T. Согласно таблице,
числа из массива S, начинающиеся с цифры 5, составляют 7,9 процента от общего количества
чисел в массиве; числа, первая цифра которых 6, – 6,7 процента, 7,8,9 – 5,8; 5,1 и 4,6 процента
соответственно. Следовательно, в массиве S доля чисел, начинающихся с 5, 6, 7, 8 или 9, равна 7,9
+ 6,7 + 5,8 + 5,1 + 4,6 = 30,1 процента. Если числа, первая цифра которых 5, 6, 7, 8 или 9,
умножить на два, произведение всегда будет начинаться с цифры 1, как показано в таблице.
Другими словами, 30,1 процента чисел в массиве T начинается с цифры 1, что соответствует
закону Бенфорда!
Данная закономерность имеет место и в случае других цифр. Умножение на 2 сначала
нарушает, а затем восстанавливает действие закона Бенфорда, но распределение первых цифр при
этом сохраняется. Умножение на 2 является самым простым множителем, но с таким же успехом
можно было взять в качестве множителя 3, или 1,6 или число π, или какое-либо еще – закон
Бенфорда действовал бы, так или иначе, подстраиваясь под любое изменение масштаба рас-
пределения.