为什么报纸上的数字首位数“1”出现频率最高?
报纸上出现的数字可谓五花八门:这些数字有的事关国计民生,有的衡量科技发展,有的体现休闲娱乐。你可能认为,把这些五花八门的数字收集起来,形成的数字大杂烩是没有规律的。可是事实恰恰不是这样。只要留心就不难发现,这些数字中的第一位数并不是平均分布的。其中数字1的出现频率明显高于其他数字。
要弄清这个问题,就要从报纸上数字的分布规律入手。在报纸上我们经常会读到个位数,也经常读到几十、几百、几千、几万等各种大小的多位数。这说明,报纸上每个数字出现的概率并不是相同的(否则,假如报纸上出现的数是从1~10000中随机出现的,那么我们就几乎总是看到几千这样的多位数,而很少能看到个位数了)。其实,和均匀分布即呈算术平均分布相比,指数分布能更好地描摹报纸上数字的这种分布规律。例如,如果x从1~10之间均匀分布的实数中取值,则y=10x就会自然而然地跨越多个数量级。对x任意取值,计算一下y就会发现,尽管x中首位是1~9的概率都只有1/9,而y的首位数字是1的概率则几乎有1/3(注意x是实数)。这种首位数在跨越多个数量级的“随机”数据中出现的概率分布规律叫作本福德定律。一般地,1~9之间的数字d在这样的数据中以首位出现的概率是lg(d+1)-lgd。
对于会编计算机程序的读者来说,写一个简单的程序就可以很精确地验证这个定律。本福德定律有着广泛的应用范围。例如,世界各国的人口、国土面积、国民生产总值等数据都符合本福德定律。甚至物理学上的质量、相互作用等常数也符合本福德定律。本福德定律还能用来判断公司的账目是否造假:除非有意为之,否则人为假造的数据是不满足本福德定律的。本福德定律也可以从另一个角度来理解:对于基本物理常数也好,报纸上的数字大杂烩也罢,这些数字都不应当特殊“喜欢”某一进位制。也就是说,换另一套进制,这些数字的分布规律应该是不变的。而满足这种单位变换下形状不变的分布,则恰好符合本福德定律。
【本文关键词】预测 指数分布