處在資訊爆炸的年代,我們每一日都會接觸到滿滿的數據,但有圖不一定有真相,數字不一定會說話。統計、圖表、懶人包,常是理性裝扮的鬼扯,點贊、分享、演算法,助長了類事實瘋傳成禍。在深度偽造時代,如何偵測科學鬼扯?又該如何識破數據資料不合邏輯的破綻?
《數據的假象》兩位作者在華盛頓大學開設同名課程,受到極高的討論和迴響。他們以生動幽默的方式,帶你檢視我們的生活多麼容易受到各類數據假象的影響。只要善用本書的思考方式,人人都能拆穿假象。
文章節錄
《數據的假象:數據識讀是深度偽造時代最重要的思辨素養,聰明決策不被操弄》
●前言:面對虛假數據的求生指南
當今世上,鬼扯氾濫,世人皆溺。
什麼是事實?政治人物沒在怕;什麼是科學?且看媒體怎麼報。在矽谷新創公司的手中,鬼扯的藝術已然昇華;在大專院校的眼裡,鬼扯比分析式思考更值得獎賞。行政管理做的事情,似乎大部分只是一種把鬼扯拿來拼湊重組的高級作業。廣告公司心懷鬼胎地眨眨眼,邀大家一起來揭穿鬼扯的真面目。我們接了招,卻反而因此放鬆戒心,對他們大把塞過來的二階鬼扯信以為真。藉著誤導世人對特定議題的認識,鬼扯得以汙染這個世界,也讓人對於所謂的資訊難以委信,因此這本書儘管力量綿薄,但它代表了我們嘗試予以反擊。
哲學家哈利.法蘭克福(Harry Frankfurt)發現,無所不在的鬼扯已成為我們這一代的關鍵特徵。他撰寫的經典文章「論屁話」(On Bullshit,譯註:此文大受矚目,後來出版為書籍,中文版為《放屁!名利雙收的詭話》,時報出版)是這麼開場的:
我們的文化有個特別顯著的特色,就是鬼扯太多。對於這一點人人都曉得,會變成這樣也是人人都有份。我們卻都習以為常。然而大家又不太清楚什麼是鬼扯、為何氾濫至此、作用何在。我們也沒有用心去體會鬼扯之於我們是何意義。換言之,關於鬼扯,理論付之闕如。
要根除鬼扯的存在,需得知道究竟何為鬼扯,但這就是事情棘手的地方了。
首先,「鬼扯」既是名詞,也有動詞用法。我不僅可以說「我聽煩了你的鬼扯」,也可以反過來對你鬼扯一番。夠直白了吧!大致說來,鬼扯這動詞指的是從事產生鬼扯的動作。
不過,名詞「鬼扯」又是何物?一如那些想用日常言語說明哲學概念的種種嘗試,若要給它一個最完善又最貼切的定義,恐怕只是徒勞。與其如此,我們打算先舉幾個例子,然後試著描述出一些符合鬼扯資格的事物。
◎與時俱進的假象
許多人認為自己很擅長看出哪些是鬼扯。當我們遇到以修辭技巧或華麗詞藻取勝的鬼扯時,或許真是如此,稱之為「老派鬼扯」。且看以下例子:
• 我們的共同任務是發揮雙邊解決方案的功能,使未獲充分利用之人力資源的機會得到運用(換句話說,我們是一家人力派遣公司)。
• 我們因傳輸(transmission)而存在。開啟神秘之道,便是要與之合而為一(這或許可稱之為新世紀老派鬼扯)。
• 如同先賢列祖,我們望向那廣袤無邊的偉大國土,帶著堅定心智與滿腔熱血,要重燃吾民那同舟一命卻暫熄的火花(饒了我們吧?說說你到底打算如何讓就業機會重回這一區?)
雖然還不到老派鬼扯退出江湖的時候,但遇上我們稱之為「新派鬼扯」的後起之秀,可要把它給比下去了。新派鬼扯所用的語言是數學、科學與統計,藉此予人嚴謹精確的印象。那些不太站得住腳的說法,透過數字、圖表、統計數據、資料圖的妝點,就披上了一層合理的外衣。新派鬼扯可能看起來像這樣:
• 經匯率調整後,敝公司績效最佳的全球型基金在過去九年中有七年優於大盤(收益表現的調整方法究竟是什麼?這家公司有幾檔基金表現不如大盤?差多少?而且,九年中有七年表現優於大盤的是同一檔基金嗎?或者好幾檔不同基金在那七年中各有一年獲得優於大盤的表現呢?)。
•儘管在統計上未達顯著(p=0.13),本研究結果凸顯此標靶質子治療具臨床重要之效果量(五年相對存活機率 = 1.3),挑戰了現行的治療典範作法(一個具臨床重要性卻未達統計顯著的研究結果,代表什麼?就此癌症而言,五年存活率這個衡量標準是否適切,抑或大多數的患者皆於三年內死亡?真有理由設想此結果有任何地方「挑戰了現行的治療典範作法」嗎?)。
•本團隊使用卷積神經網路演算法,從包含人類代謝體、轉錄體及蛋白質體之多樣網絡,擷取其基本控制邏輯(何謂多樣網絡?這些「XX體」的關聯為何重要,衡量方法是什麼?該作者寫的「控制邏輯」所指為何?我們如何知道這些系統是由一個基本控制邏輯將其連結起來的呢?而若真有這麼一個基本控制邏輯,我們又怎麼知道真能用這個方法擷取得之?)。
•經由我們系統性篩選顯示,有搗亂行為問題的二年級生當中,34%承認過去一年內曾吸聞麥克筆至少一次(此事為何重要?若真的重要,吸聞麥克筆是學生搗亂行為的原因或結果?沒有搗亂行為問題的學生中,承認曾吸聞麥克筆的比例是多少?說不定更高!)。
新派鬼扯可以很有說服力,因為大多數人看到以數字呈現的資訊,都覺得自己不夠資格去質疑,新派鬼扯人士正是仰賴這一點。若要予以反擊,就必須學會在何時、用何種方法對這類說法提出質疑。
◎誰在製造假象?
我們兩位作者雙雙致力於教導學生在面對數據資料時,如何以邏輯與數量來思考。本書出自我們在華盛頓大學(University of Washington)開設的一門同名課程,盼能以此讓各位看到,你不必非得是專業統計學家、計量經濟學者、數據科學家才能對量化論點採取批判性思考,也不需要用上龐大的資料集與好幾個星期的功夫才能看透鬼扯真相。往往只要用基本的邏輯推論去看待問題就已足夠,若有必要,再輔以搜尋引擎就能找到的資訊便可。
我倆之所以想要幫助人們識破鬼扯、反駁鬼扯,是為了公民之益。這跟左翼右翼等意識形態無關,無論那些人的傾向是左派或右派,皆已證明自己擅長創造與散播錯誤的資訊。應該這麼說(或許會聽來冠冕堂皇),我們認為,充分偵測鬼扯是維繫自由民主政體的必要作為。民主永遠需要能批判思考的選民,但這一點在這個假新聞充斥、他國勢力透過社群媒體散布外宣來干預選舉過程的時代,更是空前重要。
馬克.蓋列歐提(Mark Galeotti)在2016年《紐約時報》的評論專版曾扼要地指出,對抗這一類資訊戰的最佳防禦是什麼。
面對洩密情況,與其來一個打一個,美國政府應該做的是,教導民眾能辨別自己正受到資訊操弄。美國人應該要能從學校、非政府組織、公共服務推廣活動等管道,學會成為一個明智媒體消費者所須具備的基本技能,包括新聞報導的事實查證,以及有圖不一定有真相等。
身為數十年來在公立大學教授資料科學、統計等相關學科的學術人士,我倆知道這類思維方法該怎麼教,也相信這是可以在沒有政治選邊站的情況下做到的。聯邦政府的最適規模、政府涉入人民私生活的可接受程度、一國於國際舞台上應展現之作為(對於這些方面, 各位也許與我們意見相左),但我們不介意,只想幫助各種政治觀點的人抵禦鬼扯的侵襲,因為我們覺得,當投票的選民能認清來自四面八方鬼扯的真相,這樣的民主才是最健全的。
我們要打造的,並非一個只要不合我意就說它鬼扯的平台,因此本書舉的例子大都不是我們所知例子中最糟糕的,更非那些最令我們氣不過的,我們反而選錄那些能發揮教學作用的例子,藉以引出特殊的陷阱,並凸顯適當的因應策略。對於本書,我們希望你閱讀、思考,就能自己看出是誰在鬼扯。
距今約一個世紀以前,哲學家約翰.亞歷山大.史密斯(John Alexander Smith)曾對牛津大學的新生演講道:
各位將來在求學過程中學到的,沒有一樣對你將來有用,只除了:若你勤勉認真,在智識上你將能發現誰在亂說話,我個人認為,這就算不是教育的唯一目的,也算得上是最主要的。
儘管理工科(科學、技術、工程、醫學,合稱STEM)高等教育很成功,我們仍覺得在這方面沒能做好。運作層面的東西通常都教的不錯:學生懂得怎麼操控矩陣、做細胞轉染、進行基因掃描、執行機器學習演算法等,但是像這樣把事實與技能當作重點之際,卻犧牲了「批判性思考」這門藝術的培訓與演練。
人文學與社會科學教導學生讓相互衝突的想法彼此衝撞,遇到不同調的情況就努力解決,而理工科的教學很少會給學生需要去解決的悖論,他們也很少遇到證據形式相牴觸而需加以調和的情況,或是需要批判的錯誤主張。因此,大學畢業生往往能在面對口舌之爭時做足準備提出質疑,在看到邏輯謬誤時有所識別,但當某個說法用量化來呈現時,他們卻意外地沉默。
當然,中學教育也有如此情況。倘若能將人文學科現已廣為採用的詰問式教學納入理工教育中,學校便能塑造出一代學生,能從容識破政治、倫理、藝術、哲學等領域的一派胡言,輕鬆揪出統計說法與人工智慧分析的鬼扯。
基於種種原因,本書接下來的章節大量使用科學與醫學研究來當例子。我們都喜愛科學,也以此為專門領域。而我們在本書要處理的那類量化主張,亦為科學所依。放眼諸般人類制度,科學看起來似乎應該是與鬼扯絕緣,其實不然。我們認為,若要選民不盲目,須先建立大眾對科學的了解,而我們希望能找出有礙這份了解的眾多絆腳石。
但我們想特別強調,科學是藉以認識實體世界的一種制度化且有效的方法,無論我們說什麼都破壞不了這一點。儘管我們抱怨了這麼多,揪出如此多偏誤之處,儘管世上有這麼多問題、這麼多偷渡進來的鬼扯,到頭來,科學還是有用的。
有了科學做倚靠,人們得以駕乘飛機飛行、用視訊通話、移植器官、根除傳染病,理解從宇宙大爆炸後的初始狀態到生命的分子基礎等種種現象。
新型態的資訊科技出現,從科學與社會層面皆改變了人類的溝通方式。資訊取得更方便,資訊超載的問題則隨之惡化。我們希望本書能協助各位讀者面對這場惡戰、辨明虛實。