HOME

 

 

那福忠,知名電子出版專家、網路作家。
   
  大數據能讓我們贏
  那福忠 June 23, 2014
  請把你的想法寫信給我: frank.na@gmail.com
   

   上週 6 月 17 日經濟日報一篇社論「大數據發展的機會與挑戰」,論及「大數據」(Big Data) 一書的作者、牛津大學麥爾荀伯格 (Viktor Mayer-Schonberger) 教授應邀來台做專題演講,引發大家對大數據這個全球競爭的關鍵,瞭解與重視。社論最後引用馬總統接見麥爾荀伯格的話,說台灣科技產業轉型尚未完成,在大數據的投資力道仍嫌不足。也許我錯譯了這句話,但覺得馬總統的意思是要等到科技產業轉型完成,才開始投資大數據。其實二者不必有先後順序,投資大數據更可以加速轉型,何況大數據的投資與使用並不限於科技產業。


(圖片取自網路)

   科技界常愛用戲劇化的名稱,「大數據」就很戲劇化,數據、也就是我們常說的「資料」,資料只有量的多少、沒有尺寸的大小,所以有人又稱為海量資料。用「大」來形容資料,表示超出了量的範圍,讓資料有更大的垂直效用。至於「數據」,我們直覺想到的是數目、不是文字,中國大陸很早就把電腦處理的資料統稱為數據,像是「數據庫」(資料庫),看起來兩個名詞已經通用。本文為了便於解說,仍維持大家習慣的「資料」兩個字。

   英國 Francis Bacon 爵士十七世紀的銘言「知識即權利」, 延伸到今天的解譯可以說是「知識即利益」,但取得可以獲利的知識並不容易,尤其是網路破壞了傳統的環境,「過去的經驗不等於未來的趨勢」,許多人都能朗朗上口,但怎麼辦呢?大數據就是答案,至少是答案之一。

   大數據是大量的資料,資料不加處理還是資料,沒有什麼用處,但如果運用統計、資料開鑿、機器學習等先進技術,在龐大的資料群裡深入挖掘,找到運作的規律,就成了「知識」,有了知識,就能制訂更準確的決策,運用在例行作業更能順暢。這種作法與現在的作法有什麼區別?區別在資料的數量。一個機構用自己經驗所累積的資料作為營運方針,與用千萬倍資料開鑿分析的結果作為營運方針,差別自不待言。

   如果說的學術一點,可以用「大數據預測分析解答」(Big Data Predictive Analytics Solutions) 這個名詞表示,知名研究機構 Forrester 為此下了定義:這是一個軟體或軟體加硬體的解答方案,讓一個機構發掘、評估、執行從分析大數據所演繹出來的預測模型,運用這個模型,可以增進機構的表現,或檢少風險。當然這個定義過於生硬難解,有個概念就好了。

   要運用龐 大的資料群,不妨先從資料的本質說起。什麼叫資料?電腦裡的資料檔,儲存在硬碟的資料庫,電子郵件,白皮書,手冊,報告,臉書 Po 文,乃至圖片、語音、影視,莫不是資料,地球上每天創造了多少新資料,又有多少資料在網路傳遞,只能用數量大得難以計數來形容。資料有結構與非結構兩大類,資料庫、標記語言、表格,有明確的結構;電子郵件有格式的結構,內容卻沒有結構,其他像文章、手機簡訊、社群網路貼文,都沒有結構。據統計,全球的資料至少有 80% 沒有固定的結構。

   大數據可以說是一個流程,讓龐大的資料動起來,流程的第一步就是取得資料。結構化的資料較為容易處理,非結構性資料就需要複雜的清理,像是文字要除去多餘的字句,增加運算邏輯的註解, 或者是與別的資料資源結合,因為沒清理過的資料不能用作進一步的運算。

   有了清理過的資料,就可以與用統計、學習、測試等多種方法相對運轉,發展出來一個模型 (Model),也就從這些資料的共通性與關連性,發展出一個對我們有利的規律,把這個規律寫成電腦程式,就可以輸入實際參數,取得結果,做為未來的趨勢、決策的方針、或例行運做的準則。

   上面的兩段話自然不足以解釋大數據流程於萬一,大數據的流程不但高度複雜,而且機動不能固定,網路環境的隨時改變,迫使這一流程需要不斷循環,隨時隨時評估、改善、更新。另外大數據的結果畢竟仍是機率的組合,未必涵蓋足夠的人文因素,政經社會環境的變遷,仍須大數據的分析師在運算上做適當調解。

   大數據對我們今後發展的影響,經濟日報社論已經說的很清楚。「愛拼就會贏」讓我們贏了幾十年,那個時代早已過去,今後凡事以大數據為基礎的資料左證,才有贏的機會。三家大數據的領頭玩家:SASIBMSAP,建議讀者參考。






上一篇   下一篇  索引