拜登選票不符合本福特定律？如何識別數據造假？

2020美國總統大選 — 拜登（左）（圖：Win McNamee/Getty Images）；川普（右）（圖：Chip Somodevilla/Getty Images）

今年美國總統選舉簡直比電視劇還要精彩。先是特朗普團隊說自己已經贏了，緊跟着拜登翻盤，昨天又爆出某選區6000張投給特朗普的選票錯投給拜登。今天早上，拜登終於拿下超過270張選票，贏得選舉。

可是，貌似特朗普並不承認自己失敗。他發推特指責選舉公正性，並宣布自己贏得了選舉。推特官方在特朗普的發言下標註：本條關於選舉欺詐的聲明是有爭議的。

更有趣的是：有網友對一些選取的投票情況進行分析後發現：拜登的選票數量居然不符合本福特定律。難道選舉真的存在欺詐嗎？本福特定律到底是什麼？

去年11.11之前，我做了一期節目，教大家如何用本福特定律分析數據是否造假，當時的標的是天貓銷售額2684億。今天我們不妨借着美國大選的熱點，再來帶着大家複習一下本福特定律。視頻請見天貓「雙11」2684億銷售額造假了嗎？

1、首位為1的概率有多大？

我們每天都會面對成千上萬的數據，其中有些數據是非人為規定、雜亂無章的。例如世界上所有國家的人口數量、GDP、國土面積，一張報紙上的經濟數據，彩票在各個城市的銷售額……等等。

如果我問：這些數字首位是1（比如1.25億，16，1356萬這樣的數字）的概率有多大?你會如何回答呢？

也許許多人會回答：1/9。因為首位可以是1、2、3、4、5、6、7、8、9，這些數字毫無規律，自然產生，所以首位是1的可能占1/9。或者你還會用一個表格印證自己的想法：在一位數、兩位數、三位數…中，首位是1的數字都只有1/9。

不過，如果你真的拿出一張報紙進行統計，你會發現自己錯了，除掉電話號碼、郵政編碼、日期等特定規律的數字以外，首位是1的數字大約占到30%。

2、本福特定律

十九世紀，在還沒有計算機的時代，科學家們經常要查找對數表進行計算。1881年，天文學家紐康在查找對數表時發現：對數表的前幾頁總是被人翻的比較爛，而後面的頁碼幾乎是全新的。他隱約的感覺到：自然界中的數字好像不是均勻分布的，許多數字都以1開頭，所以對數表的前幾頁才經常被人查閱到。

1938年，物理學家本福特也發現了這個規律，現在被我們稱為本福特定律：

從自然、生活中產生的數據，在十進制中以數字n開頭的概率為：

按照這個公式，不同的首位數概率如下：

首位是1的數據居然比首位是9的數據多出六倍？事實真的是這樣嗎？

3、數據檢驗

我們需要使用一些數據來驗證本福特定律，這些數據必須具有一些特點：

第一：數據產生於生活或者自然中的，而不能是人為規定的，例如新生兒數量、死亡人數就滿足這個條件，而電話號碼、郵政編碼、彩票開獎號碼，都不滿足這個規律。

第二：數據量要足夠大，並且跨越幾個量級。例如不同國家國家的人口從幾百到幾十億，跨越了7個量級，就符合條件。而成人的身高基本都在1米到2米之間，跨度太小，就不滿足這個條件。

好了，現在我們可以進行驗證了。首先，我選擇我的視頻播放量數據來驗證本福特定律。我在某個平台上上傳了266個科普視頻，有些視頻比較受歡迎，播放量比較大，比如視頻《芯片是怎麼回事》有兩百多萬次播放。也有一些播放情況不太好，只有一兩萬次播放。我把所有視頻的播放次數統計了出來，統計出播放次數首數字為1的（無論是播放量1萬多、十幾萬或者一百多萬）、是2、是3…的視頻個數，並且計算了它們各自所占的比例，如下所示：

如果我們把視頻播放量的首位數比例和本福特定律預言的比例放在一起，就會發現：視頻播放量基本符合本福特定律。

我們再來用國家人口驗證一下。我查找了2000年世界上235個國家和地區的人口情況，人口首位數是1的國家有67個，占比28.5%。具體的首位數比例如下：

把實際的頻率和本福特定律的預測放在一起，就得到了下圖，是不是也非常接近？

我們還可以用類似的方法統計世界上所有國家的GDP數據、領土面積等等，也會獲得類似的結果。

如果我們認為：無論是視頻播放量還是國家人口、領土面積、GDP等，都或多或少是因為人的因素造成的，我們是否能找到與人無關的數據呢？我們再舉一例：斐波那契數列。

斐波那契數列也叫做兔子數列，前兩個數字都是1，後面每個數字都等於前兩個數字之和，於是這個數列就是

1、1、2、3、5、8、13、21、34、55、89…

我統計了前154個斐波那契數，它的大小已經從1增長到1031，其中首位數是1的數字有45個，占比29.2%。其餘首位數的比例如下：

是不是非常神奇？除了斐波那契數列，許多物理、化學常數（例如放射性元素的半衰期）也符合本福特定律的預言。

4用本福特定律發現假賬

如果我們掌握了本福特定律，就可以利用這個定律發現財務數據造假，因為造假者人為篡改了數據，就會與本福特定律產生偏差。這裡最典型的例子是安然公司。

2001年，美國最大的能源交易商、年收入破千億美元的安然公司宣布破產，同時傳出公司財務造假的傳聞。於是，有人用本福特定律對安然公司公布的財務報表進行了檢驗。下圖中左側是所有上市公司的財務數據與本福特定律的符合情況——簡直可以用「精準」二字形容；而右圖是安然公司在2000-2001年的財務數據與本福特定律的偏離情況，我們會發現數字1、8、9頻率相比本福特定律明顯偏大，而數字2、3、4、5、7又明顯偏小。這說明：安然公司的確有造假嫌疑。

最終，經過深入細緻的調查，美國司法部認定安然公司財務造假，安然公司CEO傑弗里·斯基林被判刑24年並罰款4500萬美元；財務欺詐策劃者費斯托被判6年徒刑並罰款2380萬美元。有89年歷史並且位列全球五大會計師事務所的安達信因幫助安然公司造假，被判處妨礙司法公正罪後宣告破產，從此全球五大會計師事務所變成「四大」。

現在，本福特定律已經成為會計師們判斷銷售數據、財務報表等數據是否造假的依據之一，甚至還有人使用本福特定律來檢驗選舉中是否存在舞弊現象。例如：本次美國大選中，有網友指出：拜登在包括威斯康星州密爾沃基、伊利諾伊州芝加哥和賓夕法尼亞州阿勒格尼的曲線均不滿足「本福特定律」，而與此同時，特朗普在多個地區的曲線卻又正好滿足或基本滿足該定律。