資料多到不能量計,只好用一個實體化的「大」來形容,BIG DATA 成了近幾年最熱的名詞,很多人說我們已經進入「大資料時代」。
全球的資料多到、或大到時麼程度,沒有人說得準,我們每天從工作到生活,無時無刻不製造新資料,各行業、各機構每天也不停的收集、傳遞、儲存龐大的資料,再加上天文地理的科學研究資料,地球上的資料量每兩年增加一倍。
資料是什麼?說起來什麼都不是,就是資料,再多的資料還是資料。英國牛津大學 Viktor Mayer-Schönberger 教授、與經濟學人雜誌編輯 Kenneth Cukier,合寫了一本 BIG DATA 的書(註一),說資料僅是真相的幻影,更多的資料並不能引導我們發掘更多的真相,只會導引出更多的資料、以及更多的問題,但可以藉以增加我們的洞察能力,雖然讓我們知其然,卻未必知所以然。也就是可以從大量資料中可以找到「是什麼」,卻找不一定能找出「為什麼」。
兩位資料專家解釋這一似乎矛盾的現象,是因為過量的資料,抵銷了我們對資料品質的要求。以為有了這麼多資料,總會從中找到所需要的內容,但事實上並非如此,資料量不等於資料質。這主要在資料來源的零散、沒有結構、沒有規劃、沒有固定目的,資料再多,用在特定的目標上,也難免產生品質不足的問題。
即使如此,資料經過整理、分析、關連,仍可作為預測的根據,有相當的效用。亞馬遜用來推薦你可能喜歡的書,谷歌用搜尋的結果出售廣告,英雄兼叛徒史諾登 (Edward Snowden) 說的從社群網路搜尋恐怖份子的「棱鏡」(Prism),都是大量資料的關連結果。一位前美國情治高層為棱鏡辯護,說了一句耐人尋味的邏輯,「要從一堆稻草裡找一根針,你得先有一堆稻草」。
大量資料急速的擴增,改變了我們的工作、生活、與思維,兩位專家認為是自印刷術以來最大的革命。隨著技術的進展,原來僅限於情治機構與大型企業的資料關連技術,會越來越普及,應用在商業、政府、科學、醫療各個領域,使得關連的資料成為最寶貴的資產,因為大家都寄望能從資料預測到真相,也就看資料來辦事。
保險公司預測風險,美國城市的警力在犯罪區加強巡邏,歐巴馬製造政治機器催促選票贏得大選,紐約市檢查製造油污餐廳解決下水道堵塞。這些都是從大量資料的分析關連,有效運用到生活的實例。這些技術,無疑的會參與解決全球重大問題,像是氣候暖化、杜絕疾病、經濟發展。
但看資料辦事的負面效應,正是許多資料學者所憂慮的,所依據的資料,儘管經過分析、關連、統計、運算,畢竟不代表真相,因為資料裡缺少了最寶貴的「人性」。
美國電腦科學作家 Jaron Lanier 在他「誰擁有未來?」的書裡(註二),說科學的資料與對人的資料,有很大的區別。天文、氣象、傳染病的研究資料,是經過科學家精心收集實驗所得,是寶貴的資料;但對人的資料,正如同我們所瞭解的人性,是多變的、反駁的,而且通常都不太可靠。
華爾街證券市場,是經過複雜數學邏輯設計出來的交易策略,這一策略卻在 2008 年交易加速之下讓市場崩盤。回塑半世紀以前的越戰,原任福特汽車執行長的國防部長麥納馬拉 (Robert McNamara),精於計量運算,結果在數人頭、算面積的勝算之下敗了下來,後人評論說他的公式裡沒有「鬥志」數據。
2002 年好萊塢科幻大片「關鍵報告」(Minority Report),故事是未來警局以「罪前」的罪名逮捕罪犯,也就是在即將犯罪、但還沒有犯罪之前,先把人抓來,至於怎麼知道誰要犯罪,則由三名個躺在水池裡有的特異功能的人決定。在大資料的時代,要搜尋「罪前」犯,輕而易舉,只不過要不要逮捕而已。
資料再多仍有極限,BIG DATA 兩位作者說,資料可以量化我們的世界,讓我們對世界有更深入的瞭解,但也要小心不要變成「資料暴君」的獵物。
註一:
Big Data: A Revolution That Will Transform How We Live, Work, and Think(中文簡體版大數據時代)
註二:
Who Onws the Future?