Group 45Created with Sketch.Financial Research 

知識加值 研究報告

比爾蓋茲的書單之一:建商這麼愛做「兩臥室」,其實是統計學搞的鬼?

比爾蓋茲的書單之一:建商這麼愛做「兩臥室」,其實是統計學搞的鬼?

政府機關每年都會公布許多平均資料,但看見這數字卻讓人感到困惑,因為自己與身邊的親朋好友都和這個數字有些差距,於是開始質疑數據的真實性。但政府真的可能公然造假嗎?統計學家德瑞爾.赫夫(Darrell Huff)在這本比爾.蓋茲推薦、投資大師肯恩.費雪背書的《統計操控的真相與謊言》就指出,問題其實出在「計算方法」。

親愛的讀者,我相信你絕不是個勢利鬼,而我當然也不在房地產業工作。但姑且讓我們假設你是個勢利鬼,我也在房地產業工作;而你正在我家住的那一條路上找房子。幫你評估後,我煞費苦心的告訴你,此一區域的年平均收入是 1 萬英鎊;或許這一點提高了你住在這裡的意願。總而言之,你買下了這裡的房子,心中牢牢記得我說的那串絕佳數字。我們已經假設你是個有點勢利的人了,所以你很有可能會在告訴朋友自己住哪的時候,毫不猶豫的把這裡的平均年收入告訴他們。

大約一年後,我們再次見面了。我做為某個納稅人委員會的成員,正在分發一張請願單,要求政府維持低稅率、低稅額以及低公車票價。我的請願內容指出,我們負擔不起稅金與公車票價的增加:畢竟這個居住地區的年平均收入只有 2,000 英鎊而已。或許你會支持我和這個委員會推動的請願—你不只是個勢利鬼,而且還很吝嗇──不過,你仍舊在聽到微不足道的 2,000 英鎊時大吃一驚。到底我是在今年請願時說謊?還是去年賣房時說謊?

選「最有利平均」巧立名目

其實在這兩個時間點,你都不能說我在說謊,這就是用統計數據操控的美妙之處。這兩個數據都是我以正當方式得出的真實平均值。它們代表的是相同的數據資料、相同的人和相同的收入。但是很明顯的,其中至少有一個數據具有很高的誤導性,簡直就是公然說謊了。我的小技巧,是在這兩個時間點使用不同的平均值。要知道,「平均值」這個詞的意義其實非常廣泛。這是一種常用的技巧,有時使用者是無心的,不過通常都是刻意的,這些使用者希望能藉此影響輿論或售出廣告版面。當你聽到某個數字是平均值時,其實你並不知道這是什麼數字,除非你能釐清它是哪種常見的平均值──算數平均數、中位數或眾數。

當我想要獲得較大的平均值時,使用的是 1 萬英鎊,也就是這個住宅區所有家庭收入的「算數平均數」。計算這個算數平均數的方法,是把所有收入加起來再除以家庭數量。而當我想要獲得較小的平均值時,我會計算「中位數」,它代表的是在這個區域有一半家庭的年收入超過2,000 英鎊,而另一半家庭則少於這個數字。我也可以使用「眾數」,意思是在樣本中最頻繁出現的數字。如果在這個區域裡,年收入 3,000 英鎊的家庭是最多的,那麼這裡的年收入眾數就是 3,000 英鎊。

在這個例子裡,儘管所有的收入金額都是真的,但這種沒有具體說明意涵的「平均值」,其實毫無意義。增加混淆的另一個因素,是在某些特定的情況下,這三種平均值的數字都會十分相近,使得在一般使用上來說,其實不會特別區分這三個數字。

因為,當你處理的數據是與人類特徵相關的數據時,數據通常會呈現「常態分布」,此時不同的平均值就會十分相近。如果你畫一條線來表示常態分布的話,將會得到一條鐘形曲線,而該數據的算數平均數、中位數和眾數都會落在同一點。因此,任一平均值都和其他兩種平均值一樣能夠描述一群人的身高。

但在描述一群人的錢包深度時,這些平均值的意義就不一樣了。若你將某個城市中所有家庭的年收入都列出來的話,可能會發現數字落在「沒多少錢」與「 2 萬英鎊」之間,而且你可能會注意到有些數字特別大。大約有 95%的收入會低於 5,000 英鎊,畫成曲線時,這些人非常靠近曲線的左方。因此,這條曲線看起來並不對稱而像是偏斜的鐘。它的形狀有點像是兒童溜滑梯,左側為樓梯急遽上升到高峰,接著到右側滑梯處慢慢傾斜向下。此數據的算數平均數和中位數將會相距甚遠。你可以清楚注意到,在這種數據中,其中一種「年平均值」( 算數平均值)和另一種「年平均值」( 中位數)之間的比較會有「效度」(validity)上的差別。

現實運用太簡化的「平均」

此外,還有另一種不存在的小數字,它的缺席也同樣會使研究結果出現大問題。這個數字告訴我們研究中的平均值來自多大的範圍,或者有哪些偏差值。一般來說,無論一個研究是否明確指出平均值種類是算數平均數還是中位數,平均值都是一種過於簡化的數字,而過於簡化比毫無價值更加糟糕。「完全不了解」遠好過於「錯誤認知」,一知半解是一件很危險的事。

舉例來說,美國近來有太多住宅在規劃時,都按照統計學上的家庭平均人數 3.6 人來進行設計。把這個數字放進真實世界中,代表的就是一個家庭由三或四人組成,也就是住宅需要兩間臥室。儘管三至四人的家庭是「平均值」,但在實際上卻只占所有家庭的少數。建商指出這是「我們為平均的家庭建造平均的房屋」,但他們直接忽略了大多數家庭的人數其實是比平均來得多或少的。這使得建商在美國某些區域建造了過多的兩臥住宅,而相對較大與較小的住宅則明顯不足。

這就是一個具有誤導性的不完整統計數據所造成的高昂代價。在 3.6 這個具有權威性又精確到令人信服的數字面前,常識一敗塗地。

(本文摘自統計操控的真相與謊言:別再讓數字騙了你!一眼看穿投資詐局、不實廣告與虛假民調,打造最強的自我保護力與決策判斷力)

 

文/德瑞爾.赫夫

出處 Cheers

https://www.cheers.com.tw/article/article.action?id=5102952

·相關標籤

Share:

回到頂端