網路給大家「選擇閱讀」的機會,結果大家多選擇與自己想法相近的意見,少選擇、或不選擇與自己相左的意見,於是各種意見社團相繼而生,對生活、知識、趣味各領域形成活躍的交往平台,是一件很好的事。但對一些較嚴肅的政治、經濟、醫藥各領域,就難免會產生不同傾向認知,這也是常說的網路的空間雖然浩大,網民的胸襟反而變得狹窄。
Perspectives 軟體正是扮演一個意見平衡的角色,遇到有爭議的議題,可以搜尋到正反雙方的資訊,給固持己見的人看看另一些人的想法,跳脫同質意見的圈圈。Musat 博士認為網路可以把人的胸襟擴大,如果在同一網頁標明正面與反面的意見,據他實驗的結果,有一半的人嘗試去瞭解與自己不同的意見,所以只要有適當的工具,網路還是可以開闊我們的思維。
針對一個爭議性的議題,要電腦判斷文稿的內容是正面還是反面,是難度頗高的人工智慧,所涉及的不單是文字處理,還要解讀文稿的語意,定義什麼叫正面、什麼叫反面,Musat 說基本上是用帶有感情的語詞如「好」與「壞」,「最好」與「最糟」來衡量文稿的偏向,因為這些語詞本身含有極限的意義。
Perspectives 軟體的做法,是用有爭議性的語詞與正反面的語詞比對,先擷取一篇文稿的含意,然後分析文句的結構與語意,一旦發現爭議性的語詞,就用正反面的語詞評比,計算正面與反面語詞的出現次數,決定這篇文稿的偏向。這一做法包括資料開鑿、語意分析等關鍵技術,Musat 說可以達到 80-90% 的準確度。
客觀與平衡是最重要的考量,對文稿的來源應有不同的加權,同一個議題,紐約時報的評論與一個僅有少數人的社群團體,雙方的意見自然不能站在同高度而論,但目前還沒有做到,仍然把最正面與最反面的文稿放在搜尋結果的前面,事實上極端的正面與反面的意見可靠通常較低。Musat 說驗證文稿來源,調整加權,是他們下一步的工作。
Perspectives 平台的焦點放在大家有爭議的事上,太複雜如以阿爭端意見過於紛歧,又像天氣預報是既有的事實隨處可以取得,都不在考慮之列,這一平台的目的是立即提供相反的意見,克服讀者「選擇閱讀」的習慣,可以在任何時間看到相反的意見。讀者會嗎?經過實驗,至少在英語與法語的經濟與健康的議題上,讀者有相當意願閱讀向反的意見。
Musat 目前正與一些主要新聞媒體洽談,這項技術對新聞的平衡報導有相當的潛力,因為可以測量新聞機構對特定議題偏向的程度,也可以用作讀者檢驗新聞從業人員的偏向程度,特別是對政治人物的偏頗報導。另外也可以長期檢驗新聞機構、從業人員,對一特定議題偏向程度的轉變。
對企業來說,Perspectives 更有相當的潛力,因為可以用來瞭解企業的公眾形象。企業經常花耗時間與巨大資源來分析資料,瞭解客戶的看法,雖然可以取得大量資料,分析卻不容易。如果可以從媒體、社群網路找到上萬則評語,並做出正反偏向的分析,Musat 問:這是「好」還是「壞」?
接到一位熱心讀者的來信,問我是否可以寫一點大數據在新聞業上的應用。大數據最吸引人的地方,在從龐大的資料堆裡挖掘出想像不到的寶藏,「自然語文處理」(Nature Language Processing) 為其基礎技術,用到任何領域都不容易,或許 Perspectives 算是大數據用在新聞報導的起步。