拜登選票不符合本福特定律?如何識別數據造假?

今年美國總統選舉簡直比電視劇還要精彩。先是特朗普團隊說自己已經贏了,緊跟着拜登翻盤,昨天又爆出某選區6000張投給特朗普的選票錯投給拜登。今天早上,拜登終於拿下超過270張選票,贏得選舉。

美國大選得票情況(11月8日早10點)
美國大選得票情況(11月8日早10點)

可是,貌似特朗普並不承認自己失敗。他發推特指責選舉公正性,並宣布自己贏得了選舉。推特官方在特朗普的發言下標註:本條關於選舉欺詐的聲明是有爭議的。 

特朗普的推特
特朗普的推特

更有趣的是:有網友對一些選取的投票情況進行分析後發現:拜登的選票數量居然不符合本福特定律。難道選舉真的存在欺詐嗎?本福特定律到底是什麼? 

拜登得票曲線(藍色)偏離本福特定律
拜登得票曲線(藍色)偏離本福特定律

去年11.11之前,我做了一期節目,教大家如何用本福特定律分析數據是否造假,當時的標的是天貓銷售額2684億。今天我們不妨借着美國大選的熱點,再來帶着大家複習一下本福特定律。視頻請見天貓「雙11」2684億銷售額造假了嗎? 

1、首位為1的概率有多大? 

我們每天都會面對成千上萬的數據,其中有些數據是非人為規定、雜亂無章的。例如世界上所有國家的人口數量、GDP、國土面積,一張報紙上的經濟數據,彩票在各個城市的銷售額……等等。

如果我問:這些數字首位是1(比如1.25億,16,1356萬這樣的數字)的概率有多大?你會如何回答呢? 

也許許多人會回答:1/9。因為首位可以是1、2、3、4、5、6、7、8、9,這些數字毫無規律,自然產生,所以首位是1的可能占1/9。或者你還會用一個表格印證自己的想法:在一位數、兩位數、三位數…中,首位是1的數字都只有1/9。

微博圖片
微博圖片

不過,如果你真的拿出一張報紙進行統計,你會發現自己錯了,除掉電話號碼、郵政編碼、日期等特定規律的數字以外,首位是1的數字大約占到30%。 

2、本福特定律

十九世紀,在還沒有計算機的時代,科學家們經常要查找對數表進行計算。1881年,天文學家紐康在查找對數表時發現:對數表的前幾頁總是被人翻的比較爛,而後面的頁碼幾乎是全新的。他隱約的感覺到:自然界中的數字好像不是均勻分布的,許多數字都以1開頭,所以對數表的前幾頁才經常被人查閱到。

1938年,物理學家本福特也發現了這個規律,現在被我們稱為本福特定律: 

從自然、生活中產生的數據,在十進制中以數字n開頭的概率為:

公式
公式

按照這個公式,不同的首位數概率如下:

本福特定律預測的首位數概率分布
本福特定律預測的首位數概率分布

首位是1的數據居然比首位是9的數據多出六倍?事實真的是這樣嗎?

3、數據檢驗 

我們需要使用一些數據來驗證本福特定律,這些數據必須具有一些特點: 

第一:數據產生於生活或者自然中的,而不能是人為規定的,例如新生兒數量、死亡人數就滿足這個條件,而電話號碼、郵政編碼、彩票開獎號碼,都不滿足這個規律。 

第二:數據量要足夠大,並且跨越幾個量級。例如不同國家國家的人口從幾百到幾十億,跨越了7個量級,就符合條件。而成人的身高基本都在1米到2米之間,跨度太小,就不滿足這個條件。 

好了,現在我們可以進行驗證了。首先,我選擇我的視頻播放量數據來驗證本福特定律。我在某個平台上上傳了266個科普視頻,有些視頻比較受歡迎,播放量比較大,比如視頻《芯片是怎麼回事》有兩百多萬次播放。也有一些播放情況不太好,只有一兩萬次播放。我把所有視頻的播放次數統計了出來,統計出播放次數首數字為1的(無論是播放量1萬多、十幾萬或者一百多萬)、是2、是3…的視頻個數,並且計算了它們各自所占的比例,如下所示:

某平台視頻播放量首位數比例
某平台視頻播放量首位數比例

如果我們把視頻播放量的首位數比例和本福特定律預言的比例放在一起,就會發現:視頻播放量基本符合本福特定律。

視頻播放量首位數比例與本福特定律對比
視頻播放量首位數比例與本福特定律對比

我們再來用國家人口驗證一下。 我查找了2000年世界上235個國家和地區的人口情況,人口首位數是1的國家有67個,占比28.5%。具體的首位數比例如下:

世界各國人口首位數比例
世界各國人口首位數比例

把實際的頻率和本福特定律的預測放在一起,就得到了下圖,是不是也非常接近?

各國人口首位數比例與本福特定律對比
各國人口首位數比例與本福特定律對比

我們還可以用類似的方法統計世界上所有國家的GDP數據、領土面積等等,也會獲得類似的結果。

各國GDP(美元計)首位數比例
各國GDP(美元計)首位數比例

 

各國領土面積(平方公里計)首位數比例
各國領土面積(平方公里計)首位數比例

如果我們認為:無論是視頻播放量還是國家人口、領土面積、GDP等,都或多或少是因為人的因素造成的,我們是否能找到與人無關的數據呢?我們再舉一例:斐波那契數列。

斐波那契數列的圖形化表示
斐波那契數列的圖形化表示

斐波那契數列也叫做兔子數列,前兩個數字都是1,後面每個數字都等於前兩個數字之和,於是這個數列就是 

1、1、2、3、5、8、13、21、34、55、89… 

我統計了前154個斐波那契數,它的大小已經從1增長到1031,其中首位數是1的數字有45個,占比29.2%。其餘首位數的比例如下:

斐波那契數列首位數比例
斐波那契數列首位數比例

是不是非常神奇?除了斐波那契數列,許多物理、化學常數(例如放射性元素的半衰期)也符合本福特定律的預言。 

4用本福特定律發現假賬 

如果我們掌握了本福特定律,就可以利用這個定律發現財務數據造假,因為造假者人為篡改了數據,就會與本福特定律產生偏差。這裡最典型的例子是安然公司。 

2001年,美國最大的能源交易商、年收入破千億美元的安然公司宣布破產,同時傳出公司財務造假的傳聞。於是,有人用本福特定律對安然公司公布的財務報表進行了檢驗。下圖中左側是所有上市公司的財務數據與本福特定律的符合情況——簡直可以用「精準」二字形容;而右圖是安然公司在2000-2001年的財務數據與本福特定律的偏離情況,我們會發現數字1、8、9頻率相比本福特定律明顯偏大,而數字2、3、4、5、7又明顯偏小。這說明:安然公司的確有造假嫌疑。

全體上市公司和安然公司財務數據與本福特定律對比
全體上市公司和安然公司財務數據與本福特定律對比

最終,經過深入細緻的調查,美國司法部認定安然公司財務造假,安然公司CEO傑弗里·斯基林被判刑24年並罰款4500萬美元;財務欺詐策劃者費斯托被判6年徒刑並罰款2380萬美元。有89年歷史並且位列全球五大會計師事務所的安達信因幫助安然公司造假,被判處妨礙司法公正罪後宣告破產,從此全球五大會計師事務所變成「四大」。

現在,本福特定律已經成為會計師們判斷銷售數據、財務報表等數據是否造假的依據之一,甚至還有人使用本福特定律來檢驗選舉中是否存在舞弊現象。例如:本次美國大選中,有網友指出:拜登在包括威斯康星州密爾沃基、伊利諾伊州芝加哥和賓夕法尼亞州阿勒格尼的曲線均不滿足「本福特定律」,而與此同時,特朗普在多個地區的曲線卻又正好滿足或基本滿足該定律。

威斯康星州密爾沃基
威斯康星州密爾沃基得票曲線

 

伊利諾伊州芝加哥
伊利諾伊州芝加哥得票曲線

 

賓夕法尼亞州阿勒格尼
賓夕法尼亞州阿勒格尼得票曲線

這是否意味着拜登存在選舉舞弊?本着不干涉他國內政的原則,我對此不便於評論(評論也沒啥用),讓子彈飛一會兒,繼續看戲。 

5如何證明本福特定律? 

那麼,自然界中為什麼會有這條神奇的定律呢?我們如何才能證明它?

因為本福特定律並非是嚴格定律,只在特定條件下成立,所以並不存在一般意義上的證明。或許,我們應該說,我們可以研究:究竟什麼樣的數據更加符合本福特定律。 

在生活中,有許多數據滿足這樣的特點:單位時間內的增長量正比於存量。 

比如,我有100元,存到銀行里,年利息3%,明年就會變成103元。如果我有100萬,存到銀行里,明年就會變成103萬,這就是典型的增量正比於存量的情況。再比如,在相似的經濟環境下,人口的自然增長率是比較固定的,所以一個國家的人口越多,每年新增的人口也會越多,這也符合增量正比於存量。 

視頻播放量又如何呢?許多視頻網站都採用數據流推送的方式,一個視頻有越多的人觀看、點讚、評論、轉發,系統就會把這個視頻推送給更多的人,於是新增的觀看次數也會越多。

視頻推薦量和視頻播放量
視頻推薦量和視頻播放量

如果用數學語言來描述,增量ΔN與存量N和時間Δt之間滿足下面的關係:

公式
公式

這表示:在單位時間內,增量與存量之比是一個常數。如果在最初數據為N0,經過時間t,數據量就會變為

公式
公式

這是一個指數型函數,隨着時間的推移,數據會指數長大。而且,指數型函數有一個特點:數據從N1增長到N2的時間與兩個數據的比有關:

公式
公式

比如數據從1增長到10所需要花費的時間,與從10增長到100、從100增長到1000所花費的時間都是相同的。

指數增長函數的特點
指數增長函數的特點

如果數據滿足這個增長率,那麼就有很大可能滿足本福特定律。比如,假設數據是2位數,從10增長到20的過程首位數都是1,這段增長所需要花的時間為: 

公式
公式

同樣,數據從20增長到30的階段首位數是2,時間為:

公式
公式

 …… 

按照這個規律,數據在首位數是n的情況下增長時間為:

公式
公式

在兩位數的情況下,數據從10增長到100,首位數就會遍歷1、2、3、4、5、6、7、8、9,所需要花費的總時間也可以計算,為:

公式
公式

我們已經知道了這個增長數據保持兩位數的時間,還知道在增長過程中,不同首位數的時間。我們會發現,從首位為1增長為首位為2時間最長,因此在進行統計時,這種數據出現的概率最大;而首位數為9的增長時間最短,這種數據出現的概率就小的多。 

我們用首位數為n的增長時間占總增長時間的比例代表了首位數為n的概率,於是就會得到公式:

公式
公式

 這就是本福特定律。

兩位數是這樣,三位數、四位數、五位數也同樣如此。每一個數據首位數的概率情況如此,那麼當大量數據堆積到一起,首位數的頻率情況滿足本福特定律,就不足為奇了。 

有關本福特定律的研究一直在進行中,前幾年我有一個學生叫做李聰喬,他現在在北大物理系讀書。前幾個月,他與老師馬伯強、同學叢明舒合寫了一篇論文《從拉普拉斯變換看首位數定理》,這篇論文對數據進行拉普拉斯變換,通過變換後的數據特點討論哪些數據更滿足本福特定律,有興趣的小夥伴不妨下載來看看哦。

掃描二維碼獲得論文
掃描二維碼獲得論文

(作者為北京大學物理與經濟雙學士,清華大學電子工程碩士研究生;北京市中學物理教師/物理競賽教練。從教十年,培養清華北大學生200餘人,國際奧賽、亞洲奧賽、國家奧賽金牌十餘名,全文轉自微信公眾號李永樂老師

關注時事,訂閱新聞郵件
本訂閱可隨時取消

評論被關閉。