Re: [新聞] 麻省理工博士數據分析 6.9萬川普選票被篡 at Gossiping

熱度資訊

由 a5fb15b190 發佈分享連結

關鍵字分析:

※ 引述《BinnigQuate (新手上路 能閃則閃)》之銘言:
: ※ 引述《goldenhill (我的人權時代)》之銘言:
: : 3.完整新聞標題:麻省理工博士數據分析 6.9萬川普選票被篡改
: : 肯特(Kent)的選票數據,呈現出非正常的散點分布,只要共和黨支持率超過20%,軟
: : 體的算法就開始自動減少川普的得票,有明顯的修改痕跡。
: 八卦是這位Shiva要在Twitter上討論這個研究,
: 可是他的Twitter帳號竟然就被封了,
: 一堆左派電視台爭相採訪他,
: 但被他拒絕了,
: 因為他知道記者訪問回去之後會怎麼誣陷他,

我想借題發揮一下之前有被提出來過,但是可能因為較為複雜所以討論的人不多。

進入正題之前,我們先來點數學:

假設我們對 0-19 之間 20 個整數作公平的隨機取樣,那麼第一個數字為 1 機會有多少?

機會大概是 55%。因為有 1 與 10, 11, ..., 19 共 11 個可能。

同理,除了 1 以外的數字,例如 2,機會有 5%。

我們也可以把範圍從 0-19 放大到 0-100,並計算第一個數字為 1-10 之間某一數字的可
能性(排除 0)。因此可以用不包括 0 的百分比作為輸入。

這就是所謂的班福特數列。這常常在會計學上用來抓數字造假的機率。例如,可以把某公
公司在一段時間內的出帳或入帳的金額。當資料愈大時,每一筆金額的特定位數字應該要
愈接近班福特數列。

來實作一下:

     [A]      [B]      [Benford]
1    9.75    12.3      11.9
2   12.3     11.5      11.3
3    9.9     11.3      10.9
4   10.15    10.1      10.4
5    9.3     11.4      10.0
6   12.0      9.8       9.7
7    9.5      7.8       9.3
8    8.4      8.9       9.0
9    8.8      9.0       8.7
10   9.7      8.1       8.45

兩個數列 A, B 這次美國某區兩陣營每次開票時報出的數字中,頭位數字分部的比例。
(四捨五入過所以加起來不是 100。不過這不影響計算)

第三個數列是班福特序列。理論上 A B 都要接近 Benford。所以我們可以計算兩組數字
與 Benford 的標準差。

   stddev
A: 1.202
B: 0.699

A 與 Benford 的標準差快是 B 的兩倍。

當然,這只是一區的資料,並不能因此說 A 陣營必然有作帳。這個只能說在這區,B 陣營
的數據比 A 陣營更接近自然產生的隨機數。

不過,我們可以這個方法應用到多個區。比較看這兩個陣營在多個區中,拿到較高 stddev
的機會是不是一樣。

結果,嗯,其實跟媒體上傳出有計票誤差發生時,結果都非常剛好的有利於某特定陣營的
現像一致。

一場球賽中,發生多次裁判誤判,結果都非常剛好有利於某隊。不啓人疑竇?

我等下會給出完整証明。我先去收個 UPS..



--
→ k_______n:我推的平權政策 都不著重種族之間的平等,改強調種族之間的差別待遇
→ k_______n:年輕人都很歡迎 但就是太過激進 另外再特別給非裔專屬特權
推 w_____2:XDDD
→ D_____N:沒有種族平等還能叫做平權???
→ k_______n:這兩個配起來非常棒 最好是加點街頭暴力
推 j_________n:那就不算是種族平等了吧..

--

網友評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 148.168.216.5 (美國) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1605218022.A.F3E.html
parsons12342: 推 不然別人以為我看不懂 11/13 05:55
laroserose: 11/13 05:57
linad: 推,讓事實證據說話... 11/13 05:58
NgJovi: 恩 11/13 05:58
ECZEMA: 快發推特啊~ 想看封號 11/13 06:02
prettychiu: 你在說benfords law想看續集 11/13 06:14
unicorn999: https://youtu.be/etx0k1nLn78 11/13 06:23
ZO20: 有沒有質數版本? 11/13 06:26
我也想知道。不過沒辦法証明質數有總量上線
homer00: 不少順豐來敲門嗎? 11/13 06:31
homer00: 這個不少自媒體提過了 11/13 06:31
大部的自媒體都只有算一半。光是看 Benford 是沒用的。 跟 Benford 比只能說特定群隨機性比較低。但不能說他一定有作票。樓下某個五毛說的沒 用應該是指這個。
newwu: 要有總數才能分析p值吧 這應該做goodness-of-fit 用卡方去 11/13 06:34
newwu: 檢測 11/13 06:34
對耶。是同行?
dash007: 好專業 11/13 06:34
serenatw: 下篇ae什麼的五毛會挖你底細以證你寫的是廢言^^ 11/13 06:40
newwu: 你有多少個開票結果 11/13 06:40
ryanworld: 一堆看不懂也在推 11/13 06:46
diawboris: 班佛仔又出現了 查一下幾天前的文好嗎 事實查核根本 11/13 06:50
diawboris: 沒用 造謠仔都不看的然後一直重複PO 11/13 06:50
bakedgrass: 事實查核真的沒用阿,我已經認清了,樓上也放棄吧 11/13 06:51
數列本身是沒用沒錯啊。後面隨之而來的計算才有用。 不過我知道你看到「沒用」兩個字後。後面的描述就不會再看了。 然後基本上共產黨開的事實查核中心只有共產黨員會相信。跟毛語錄一樣大概。
newwu: 不算同行 在唸沒人要的物理系,所以準備轉DS 11/13 07:05
不要轉 DS 啦。若沒有 PhD 的話只能當低階碼農。物理好玩多了。
Asato163: 有趣推 11/13 07:06
Sniqow: 班佛定律似乎是現象 無法證明? 11/13 07:09
有証明啦。 好像 2006 年有論文。晚一點找找。 質數的 Benford 還沒辦法証明。我對這個很有興趣。不過前提是要知道質數是否有上限。 這個大概這一輩子是看不到了。
newwu: 沒辦法啊 學術路難走 物理工作大部分又不收外國人 11/13 07:13
會嗎?物理所外國人不少啊。除非你唸的是敏感題目? 轉的話轉 CS 輔 DS。機會大一些。加個特定專長例如 bioinformatics,就業機會大。
lk820: 這好像可以寫成一篇論文 11/13 07:13
應該是可以。我們團隊正在弄。 不過我再申明一次這方法沒辦法証明作票。只能說特定陣營票數的隨機性有可疑的空間。 作票與否那是法律問題,不是科學問題。
yaohwei: 是 我們可以計算兩組數字與 Benford 的差異的標準差嗎? 11/13 07:14
我們是計算 標準差的大小。用 euclidean distance 意思一樣。
newwu: 我已經快畢業了啦 是想找DS工作 學校會收外國人,我是說 11/13 07:21
newwu: 業界 太多物理業界的工作都和國防相關了 11/13 07:22
newwu: 理論物理PhD畢業離開學校只能跑去找別的工作 11/13 07:23
理論物理確實路比較窄。轉 CS/DS 有空間。不過別放棄啊。有真愛才走得久。 我花很多空閒時間去計算 Black Hole Math。無耐不是本科料。算得很辛苦。
meRscliche: push 11/13 07:26
※ 編輯: cybergenie (148.168.216.5 美國), 11/13/2020 07:31:25
newwu: 想到這個就不爽 假如唸化學或生物資訊 都搶手多了 11/13 07:28
chordate: 額,Benford's Law的分佈是頭位數字d的機率是 11/13 07:28
newwu: 啊 用到另一個帳號了… 11/13 07:29
幫改。
chordate: Log[(d+1)/d] 你是不是把推導搞混了.... 11/13 07:29
wayne1120: 推 11/13 07:30
chordate: Benford's Law是在那群數取對數的尾數是均勻分佈下成立 11/13 07:30
chordate: 我是沒有看到學術文章說可以用在選舉上啦... 11/13 07:31
嚴格來說任何隨機數都可以拿來用啦。只是現實生活中產生的數字可能不那麼俱有隨機性 就是了。
chordate: https://tinyurl.com/y6zrbwfb 只有看到報紙文章用在伊 11/13 07:31
chordate: 朗選舉上,但是我認為隨便用很危險的 11/13 07:32
是不行沒錯。所以沒打算搭這順風車。並且我也沒說是什麼陣營隨機性比較低。 其實看新聞可以看到開票出包結果都是很剛好的有利於某營。這不用數學來算,誰都看得 出來XD
chordate: 除非拿很多次選舉結果都證明符合,否則不能據此說 11/13 07:33
chordate: 有造假可能 11/13 07:33
Benford 只能証明某營開票隨機性比較低而己。那沒辦法証明造假。很多自媒體都過度解 讀這東西。選舉造假是政治司法問題。不是數學問題。
chordate: 不是任何隨機數都可以,上面有說了是取對數以後尾數 11/13 07:41
chordate: 平均分佈才可以。 11/13 07:42
chordate: 而且Benford's Law首位數字是1的機率約是0.301 11/13 07:43
newwu: 感謝啦 我本來就也喜歡cs啦 寫code很有趣 11/13 07:43
chordate: 你用的分佈我上面就說了,可能是和推導搞混了 11/13 07:44
有道理。來算算看。 ※ 編輯: cybergenie (148.168.216.5 美國), 11/13/2020 07:47:42
zenon6414: 用歸謬法可以簡單證明質數總量沒有上限 11/13 07:47
chordate: https://tinyurl.com/y6rroty6 11/13 07:47
chordate: 去看Benford的原始論文吧,556頁 11/13 07:48
VVizZ: 球是猿的 11/13 07:49
chordate: 表格有列出來。 11/13 07:49
ccufcc: 無可疑啦,哪次有可疑 11/13 08:04
wbt77hsy: 就是解釋隨機性的嘛 11/13 08:33
GYda: 恩,跟我想的差不多(?) 11/13 08:34
jonestem: 喔喔喔喔,漲姿勢了 11/13 08:40
prettychiu: 文組的大大可以看Netflix的connected裡面有一集在討 11/13 08:49
prettychiu: 論班佛!好看! 11/13 08:49
neo5277: 推唷 11/13 09:00
cerberi: 推 11/13 09:18
apple00: 就經典德國坦克問題 用繳獲的德國坦克編號推算出德國坦克 11/13 09:18
apple00: 總數量 11/13 09:18
apple00: 誤差只有1% 一個數學家推算出來比派出上千個間諜偷出來的 11/13 09:19
apple00: 情報還準 11/13 09:19
LordOfCS: 推 11/13 09:21
giraffe1021: 七樓po的影片其實就說的蠻清楚了 選舉中不一定成立 11/13 10:04
giraffe1021: 這篇論文也直接表明Benford’s law在選舉中問題很多 11/13 10:04
giraffe1021: 無法拿來判斷一場選舉是否做票 11/13 10:04
giraffe1021: https://doi.org/10.1093/pan/mpr014 11/13 10:04
nonedude: 那如果是把原始b的數轉給a那這樣不就兩邊的班佛數都異常 11/13 10:21
nonedude: ?! 11/13 10:21
chiuvv520: 數據會說話 數據問題提出懷疑不是就科學假設 還是大部 11/13 10:47
chiuvv520: 分人都只看結果 11/13 10:47
BANDITCS: 在美國敏感領域真的大部分只能在學界...業界身分要求很 11/13 11:02
BANDITCS: 多...不過也不是不可能,需要一點運氣 11/13 11:03
nalthax: 推,但是這麼細膩的立論與檢證,在台灣的話應該不會被當 11/13 11:36
nalthax: 成可採納的事實或證據 11/13 11:36