展會信息港展會大全

歐科云鏈研究院:美國大選塵埃落定,拜登選票造假了嗎?
來源:互聯(lián)網(wǎng)   發(fā)布日期:2020-11-19 08:37:21   瀏覽:5041次  

導(dǎo)讀:美國大選幾經(jīng)反轉(zhuǎn),終于塵埃落定,拜登目前以290票擊敗232票的特朗普,將成為下一任美國總統(tǒng)。然而拜登選舉欺詐的傳聞也甚囂塵上,最初拜登選票造假的質(zhì)疑基于本福特定律,后來陸續(xù)有重復(fù)計票等消息傳出。本福特定律是宇宙中許多數(shù)據(jù)都適用的規(guī)律,雖不能作...

美國大選幾經(jīng)反轉(zhuǎn),終于塵埃落定,拜登目前以290票擊敗232票的特朗普,將成為下一任美國總統(tǒng)。然而拜登選舉欺詐的傳聞也甚囂塵上,最初拜登選票造假的質(zhì)疑基于本福特定律,后來陸續(xù)有重復(fù)計票等消息傳出。本福特定律是宇宙中許多數(shù)據(jù)都適用的規(guī)律,雖不能作為直接證據(jù),但常被用于探測數(shù)據(jù)造假。本文介紹了本福特定律,并且應(yīng)用到區(qū)塊鏈行業(yè),找出滿足本福特定律的數(shù)據(jù)指標(biāo),并從本福特定律的視角考察鏈上數(shù)據(jù)的合理性。

一、本福特定律:廣泛存在的數(shù)據(jù)規(guī)律

1. 廣泛存在的自然規(guī)律

就像牛頓因蘋果落地發(fā)現(xiàn)了萬有引力定律,西蒙紐康和弗蘭克本福特因翻對數(shù)表發(fā)現(xiàn)了本福特定律。根據(jù)本福特定律,對于許多數(shù)據(jù)樣本,第一位數(shù)字是1的概率遠(yuǎn)遠(yuǎn)大于其他數(shù)字,并且數(shù)字越大,出現(xiàn)的概率越校具體而言,對于最常用的10進(jìn)制數(shù)字,首位數(shù)字出現(xiàn)的概率如下:

人口、GDP、面積等數(shù)據(jù)被驗證符合本福特定律,甚至斐波那鍥數(shù)組、放射性元素半衰期等絕對自然的數(shù)據(jù)也滿足本福特定律。但本福特定律是一個經(jīng)驗性的自然規(guī)律,沒有嚴(yán)格的證明推導(dǎo)。通常來講,本福特定律的適用條件如下:

(1)樣本數(shù)量和數(shù)量級跨度盡可能大。如跨度小的身高數(shù)據(jù)不適用,但實踐表明,對一些較小樣本數(shù)據(jù)也適用;

(2)數(shù)據(jù)不能有人為操控的痕跡。人為規(guī)定的數(shù)字如電話號碼、郵編等不滿足本福特定律。當(dāng)數(shù)據(jù)被人為篡改后,很可能不符合本福特定律,也正因此,本福特定律可以被用來探測數(shù)據(jù)造假;

(3)對于隨著時間呈指數(shù)型增長的數(shù)據(jù),本福特定律一定契合。這一點是可以從數(shù)學(xué)上嚴(yán)格證明的,在b進(jìn)制中數(shù)字n出現(xiàn)的概率即P=〖log〗_b (n+1)/n。這類數(shù)據(jù)的特點是早期增長遲緩,后來增長得越來越快;數(shù)據(jù)本身有自己的分布規(guī)律則很可能不符合本福特定律。如收益率不滿足本福特定律。

人口、GDP、營業(yè)收入、播放量、交易量等數(shù)據(jù)由于規(guī)模效應(yīng)或者網(wǎng)絡(luò)效應(yīng),早期從1到2很艱難,但發(fā)展到一定規(guī)模后,從8增長到9相對容易,所以在較小數(shù)字停留時間長,在較大數(shù)字停留時間短,最終數(shù)字首位分布呈現(xiàn)出本福特定律。

2. 用于探測數(shù)據(jù)造假

本福特定律常用于探測數(shù)據(jù)造假,尤其是財務(wù)數(shù)據(jù)中。2003年美國華盛頓州詐騙案中,最初是會計師Darrell Dorrell用本福特定律發(fā)現(xiàn)了支票匯款數(shù)據(jù)的不合理性,通過進(jìn)一步調(diào)查發(fā)現(xiàn)了涉案金額高達(dá)1億美元的詐騙。無獨有偶,安然公司2000-2001年的每股盈利也與本福特定律相去甚遠(yuǎn)。事實上,自20世界70年代以來,本福特定律被廣泛用于挖掘會計欺詐性行為。

除了金融財務(wù)領(lǐng)域,本福特定律也被用于其他領(lǐng)域的數(shù)據(jù),如2009年的伊朗大癬希臘政府的宏觀經(jīng)濟(jì)數(shù)據(jù)、公共計劃經(jīng)濟(jì)數(shù)據(jù),比爾克林頓的納稅申報數(shù)據(jù)……

但值得注意的是,本福特定律不能作為呈堂供證,只能作為數(shù)據(jù)造假的推測,需要后續(xù)的取證調(diào)查。即使是在華盛頓州詐騙案這一成功應(yīng)用案例中,會計師Darrell用本福特定律的檢驗只是開始,歷經(jīng)多方努力和3年的搜證才將主犯凱文勞倫斯(Kevin Lawrence)送進(jìn)監(jiān)獄,判處20年徒刑。加之,本福特定律在某些領(lǐng)域的適用性存在爭議,如哈佛大學(xué)一份研究表明本福特定律不適用于選票數(shù)據(jù);谝陨显,網(wǎng)友對拜登選票進(jìn)行本福特定律檢驗,在適用性和說服力上存在問題,不能作為選票造假的直接有力證據(jù)。

二、本福特定律在區(qū)塊鏈領(lǐng)域的應(yīng)用

上文講述了本福特定律的一般性應(yīng)用,下文立足于區(qū)塊鏈行業(yè),挖掘哪些指標(biāo)滿足本福特定律,并結(jié)合區(qū)塊鏈技術(shù)的特性探討鏈上數(shù)據(jù)的合理性。

1. 區(qū)塊鏈行業(yè)中適用本福特定律的數(shù)據(jù)

由前文可知,一些宏觀數(shù)據(jù)如人口、GDP、面積等符合本福特定律。在區(qū)塊鏈行業(yè),區(qū)塊鏈專利數(shù)量、企業(yè)數(shù)量等宏觀數(shù)據(jù)也滿足本福特定律。下圖展示了2020年至今各省市的區(qū)塊鏈專利數(shù)量和Wind全球企業(yè)庫中的區(qū)塊鏈企業(yè)數(shù)量,其首位分布均較符合本福特定律。

除此之外,區(qū)塊鏈行業(yè)中的財務(wù)數(shù)據(jù)也是本福特定律的典型適用場景,下文的數(shù)據(jù)來自區(qū)塊鏈指數(shù)成分股。

2. 從本福特定律視角看鏈上數(shù)據(jù)的合理性

區(qū)塊鏈技術(shù)本身具有分布式和數(shù)據(jù)透明的特點,有利于數(shù)據(jù)的多方監(jiān)督,數(shù)據(jù)的不可篡改性也增加了數(shù)據(jù)造假的成本,欺詐行為會永久留痕,因此區(qū)塊鏈技術(shù)可以有效抑制數(shù)據(jù)造假。目前,區(qū)塊鏈已在金融、公益等多個領(lǐng)域應(yīng)用落地,幫助解決數(shù)據(jù)造假的痛點。

本文先考察了成交額數(shù)據(jù)的一般特性,再對比了相似體量的基于區(qū)塊鏈和不基于區(qū)塊鏈的平臺數(shù)據(jù)。首先,在考察了樣本量為100多,1000多,2000多的交易平臺數(shù)據(jù)后,發(fā)現(xiàn)成交額十分符合本福特定律,并且樣本越大數(shù)據(jù)越接近本福特定律理論值。接下來,從基于區(qū)塊鏈的一個交易平臺獲取成交額數(shù)據(jù),整理114個有效樣本并比較其首位數(shù)字分布和本福特定律理論值,觀察發(fā)現(xiàn)鏈上成交額與本福特定律較吻合,除了數(shù)字8。為了對比,選取了一個不基于區(qū)塊鏈技術(shù)的相似體量的交易平臺,有效樣本數(shù)為195,但其成交額在6和7偏高?紤]到鏈上數(shù)據(jù)樣本量的劣勢和整體情況的吻合,僅從本福特定律出發(fā),基于區(qū)塊鏈的成交額數(shù)據(jù)更為合理。

公益項目水滴籌自稱是基于大數(shù)據(jù)和區(qū)塊鏈的應(yīng)用,下文以官網(wǎng)公布的122名失信籌款人黑名單為例,從本福特定律的視角探究區(qū)塊鏈技術(shù)鏈上數(shù)據(jù)的真實性。根據(jù)前文討論,手機號、身份證號等人為規(guī)定的數(shù)據(jù)不符合本福特定律,于是研究對象定為2017年至今每月失信人數(shù)量,結(jié)果如下。

受制于樣本數(shù)量,失信人員數(shù)量首位分布未完全吻合本福特定律,但大體呈現(xiàn)數(shù)字越大出現(xiàn)概率越低的趨勢。

三、結(jié)語

雖未得到嚴(yán)格證明,但大量實踐檢驗表明本福特定律是廣泛存在的有趣數(shù)據(jù)規(guī)律,被用于挖掘數(shù)據(jù)造假,尤其是財務(wù)數(shù)據(jù)中。此次美國大選中拜登選票不符合本福特定律的問題在數(shù)據(jù)適用性和說服力上存在問題,因此不能作為推翻選舉結(jié)果的有力證據(jù)。正如本文一再強調(diào)的,本福特定律僅僅是發(fā)現(xiàn)可疑性的方法,而非充足證據(jù),只是數(shù)據(jù)打假的起點而非終點。

本福特定律也適用于區(qū)塊鏈行業(yè)的一些數(shù)據(jù),如區(qū)塊鏈企業(yè)數(shù)量、專利數(shù)量、公司財務(wù)數(shù)據(jù)等。此外,區(qū)塊鏈技術(shù)本身數(shù)據(jù)透明、不可篡改的特點有助于維護(hù)數(shù)據(jù)的真實性。并且對比了一組實際數(shù)據(jù)發(fā)現(xiàn),從本福特定律的視角,鏈上數(shù)據(jù)的首位分布是合理的。

(責(zé)任編輯:趙融)


贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機會 | 展會港