雜談《大數據》(Big Data)

2016-03-13 00:00

前言:

 

  這本書雖然二〇一二年就出版了,隔了將近四年我才偶然在圖書館遇到,進而得以拜讀,然而書裡的觀念,對這時的我而言,還是非常新穎。它的觀點、構想新得讓我誤以為是科幻小說的世界,但這不是科幻,這是活生生的現實。原來,這就是我們所處的時空,我們就是這樣不知不覺遭到數以萬計的數據包圍,說「萬」還太少了,應該至少有上億、數兆之多。這就是巨量資料滲透進眾人生活的經過,每個人即使不願意,也被迫牽扯其中。這不是新聞了,因為早在數年前就已經存在,四年前,也許更早之前,就有人為大數據寫書。

 

  一切要拜科技發展一日千里所賜。從前的電腦笨重、跑得慢、儲存的資料少,如今的電腦輕盈、跑得快、儲存空間大幅增加。以前用重得快要拿不動的大手機,現在智慧型手機人手一台。過去健保卡蓋滿六個章就要換一張,今日健保IC卡有專門讀卡機即可讀取個人資料,免除經常換卡的麻煩。底片沖洗相片的年代,每張照片拍得戰戰兢兢,如今手機也可照相,網路上每秒上傳的相片數量不勝枚舉。實在太多例子了,只要稍微觀察,就會發現一個人一天就能產出成千上萬的資料,想逃也逃不掉。刷公車卡搭公車、用會員卡或信用卡購物、走在路上即踏入監視器的錄影範圍……只要想得到,這些資料、數據都能拿來分析研究。在如此紛亂、難保百分之百隱私的時代,該以什麼樣的態度面對,正是本書趣味之所在。

 

正題:

 

  打開本書,目錄標題即指出,巨量資料有三大特徵:更多資料、雜亂、相關性。這三點彼此交雜,帶來顛覆傳統的思維。

 

  如同上上一段提到,由於科技進步,有越來越多的資料產生。資料的增加只會越來越多,不會越來越少。資料蒐集相對容易許多,而且許多看似沒什麼用途的資料,也可能經由分析,得出意想不到的結果。這部分姑且讓我轉述書中的內容:以前受限於資料取得不易,故多以「抽樣」的方式隨機調查某部份的群體,由於抽樣不代表全部,所以要求數據精確。到了近年來,資料的蒐集、儲存、分析等等技術層面的突破,幾乎可以得到「樣本=母體」的原始資料。但是這也導出了「雜亂」,這麼多的資料勢必會有不完美之處,可能數據不是那麼漂亮,或是有一些錯誤的數據混進來。然而這無傷大雅,因為樣本非常非常多,就算其中有錯誤的,也只是一小部分,只要對分析結果不會有太大影響,都在可接受範圍內。

 

  (有關分析大數據的精采例子,書中舉了很多!就不需要我重述了。)

 

  分析大量數據,得到的結果,往往都是「相關性」,也就是可能性、若干機率、某種關聯性。與之相對的,就是「因果關係」。比方說,A和B相關,但有可能A和B完全沒有因果關係,也不知是A為B的因,還是B為A的因。這可是和一般人的常識相違背的!舉我的親身例子吧,有朋友感冒了,大家想要關心他,就會問是不是穿太少了?怎麼會感冒呢?這就是直覺想要找原因。或是考試考壞了……為什麼只考這樣?是不是因為準備時間不夠?下意識想找原因。然而,因果關係豈是如此容易便能證明?我們自以為找原因,從因推導到果,是很理性的思考方式。大數據卻告訴我們,不要凡事都想找原因,也不要倒果為因。(事實上,在這紛亂的世間要證明因果關係是非常困難的。)

 

  書中舉的其中一個例子,著實令我吃了一驚。巴斯德,著名的化學家,發明狂犬病疫苗,救了被咬傷的小男孩一命。有關這件事,我看過後人拍的紀錄片,所以特別有印象。當時只覺得有些崇拜巴斯德。但書上提出反駁:

 

  真是如此嗎?事實證明,遭到患有狂犬病的狗咬傷,平均只有七分之一的人會真的染病。就算假設巴斯德的實驗確實有效,他真的「救人一命」的機率也只有七分之一。大約有85%的可能性,這個男孩本來就會活下來。

 

  咦?跟我的認知不一樣。光是這段就讓我不禁要重新檢視過去的思考,是不是太容易就接受一般說法,落入世俗的框框。

 

  大數據的分析結果,常常出乎意料,看似八竿子打不著的東西,卻有高度相關性。也許只是碰巧,偶然不帶有必然,亦不帶有絕對的因果關係。所以,在這樣的時代,不用每件事都問「為什麼」,知道「正是如此」就可以了。打破砂鍋問到底,已經過時了嗎?

 

  以前老師都會鼓勵學生多問問題,問問「為什麼」,但看來這在大數據的浪潮下,似乎不適用。「為什麼不錄取我?」「那是沒有原因的。」再說,凡事都要追根究柢,恐怕顧此失彼,無法掌握大局。「滑世代」的人,整天滑手機看平板,接收龐雜資訊,是不是也比較不會計較因果關係呢?一切轉瞬即逝,如過眼雲煙。或許連思考都麻木了吧。

 

  會思考因果關係的人比較聰明,抑或是不去思考因果關係的人更為聰明?因果的符號最常出現在數學證明題裡,也許純科學,為了推導某個定理,還有因果存在的必要,但現實生活中,實在太渾沌、太雜亂了,就像這篇雜談一樣,不如轉而投向相關性的懷抱。

 

  僅是「相關性」與「因果關係」就能討論這樣的篇幅,也許改天可嘗試寫一篇專門探討這兩者的文章。由此衍生的是「快思」與「慢想」。白話解釋,快思就是腦海中第一浮現的想法,慢想則是對某一主題有深入了解後,經消化吸收得出的較深入的思考。這又讓我想拿「滑世代」來作文章。在社群網站或軟體,瀏覽好友動態或聊天,那些即時性的言論究竟是快思還是慢想?通常都是快思吧。心情不好,就發一則文(還是發推?發噗?)立刻得到回應,那些回應具有建設性又有幾何?

 

  最近有些人喜歡「實況」,這可說是把即時互動發揮得淋漓盡致,玩遊戲實況就算了,吃飯實況,睡覺也實況。我知道這也產生了不少數據,善加利用,說不定能開闢新的市場,從中獲利。看到這我又忍不住想追究它的「因」了,為什麼那麼多人要實況?背後代表了什麼?不過我學到了,知道正是如此就行了,無須追究。可是不探討原因,我要怎麼評論這樣的行為啊?所以不用評論,知道有這個現象就好。

 

  那麼「因」是什麼?「果」又是什麼?好像沒有標準答案,再問下去恐怕變成哲學問題了。「大數據」是好還是壞?發展人工智慧,例如最近AlphaGo打敗世界頂尖棋手,該樂見其成還是悲觀看待?這些疑問的解答就像走鋼索吧,不能偏向任一邊,盡其所能保持中立吧。水能載舟,亦能覆舟。永遠保持在正中間,但那可是很難做到的。

 

--沒有結論--

 

補充:還有一本書看過我也很推薦——《當我們變成一堆數字》(The Numerati),我個人覺得這本寫得較有一致、連貫的感覺。《大數據》給我的感覺如其書名,是本包羅萬象的書。