我們都熟悉結構化的資料,像是資料庫,把資料組織成特定的式樣儲存,為的是便利以後的取得。結構化新聞 (Structured Journalism) 是最近幾年出現的名詞,目前還在發展,也沒有完整的定義,但在概念上與結構化資料相同,至少是相似,就是把新聞用特定的方式組織,增加使用的靈活度,以及不同新聞的關連度。組織的方法是把新聞切割成小的單元,每一單元取一個名稱,也就俗稱的標記 (Tag),然後用資訊技術依標記擷取內容,結合成
一篇報導。
依不同的標記可以編輯成不同的文稿,適應不同讀者的需要,尤其是數位閱讀,更需要適應不同閱讀設備的需要,例如手機上幾行摘要加一段影視,效果勝於長篇文字。傳統的新聞報導,無論印刷與數位,多缺乏連貫性,有時報導的內容對個事件說的很詳細,但這個事件是怎麼起頭的,在文字間卻找不到,編輯可能認為前幾天已經報導過了,今天不再贅述,卻沒有考慮對事件不了解的新讀者。
一則新聞有人認為報導的太多太繁瑣,也有人覺得報導的太少不夠詳盡,可以說是不容易解決的正常現象。華盛頓郵報用一個叫 Knowledge Map 的軟體實驗,希望為這個問題找答案。這個軟體能把一篇報導的背景資訊,在文稿適當的位置用簡單的圖片提示,讀者若對報導內容的人、物、事、地、機構有不了解,可以點選相關的提示進一步閱讀。華盛頓郵報第一篇實驗文稿,是一則伊斯蘭國的報導,讀者可能對伊斯蘭國還不熟悉,所以提示之一就是「什麼是伊斯蘭國?」。
這篇文稿的展現方式,就是結構化新聞的運用,把一個主題的相關資訊分別組成單元,以提示方式,安插在主題文稿,讓讀者依個人的需要閱讀,解決了上述的連貫問題。但最大的好處,是以後遇到同一主題的文稿,同樣把相關提示安插在文稿之內,給不熟悉報導內容的讀者參閱,熟悉內容的讀者當然就不必理會這些提示。
結構化新聞已經存在十幾年了,或許當時不叫結構化新聞,但切割新聞的概念不但有多方面的研究,也發展多種標記語言 (Markup Language、簡稱ML),在中文領域,如台灣的聯合報標記語言undML,中國大陸的中文新聞信息技術標準CNML。標記語言僅是結構框架,需要把輸入的資料加註標記,才能做後續的運算,文稿的標記可由電腦軟體自動加註,或由人力加註,但電腦軟體加註不能完整,人力加註又過於耗時,成為兩難局面。
紐約時報研究發展實驗室日前推出 EDITOR,是一個電腦與人力合作的加註系統,當記者輸入文稿的同時,這個系統辨識文稿內的人物、地點、機構、概念,並自動加註標記,另外有一個清單,讓記者自己加註標題、文稿作者、文稿內容的重點、以及擷取一段內容作為引述 (Quotes)。文稿輸入系統自動加註之後,再與內部或外部的資料庫連接,製作出記者可以隨時使用的資訊,稱為「微型服務」(Micro Services),也就是微型的資料庫。
下圖是 EDITOR 的畫面,左邊是文稿輸入區,右邊是中間有四個微型服務,分別是人、地、機構、概念。文稿加註標記之後,綠色是人物,黃色是機構,紫色是地點,粉紅色是重點(概念)。請讀者點擊下圖,連結到紐約時報另一網頁,觀看一分鐘的實作的影視,也許看不仔細,至少對運作流程有些許的概念,同時也可以瀏覽紐約時報對 EDITOR 的簡單介紹。
試驗室的資科學者稱這些標記為語意標記 (Semantic Tags),因為可藉人工智慧讓機器學習,在一段文字中找到有意義的連接與關係,用來製作各種微型服務,來服務記者。例如「引述微型服務」可以驗證一個人以前說的話,「機構關係微型服務」可以尋找人與機構的關係,「政治獻金微型服務」可以找出捐款最多的人。這些費時工作,在標記化的智慧運作之下,記者彈指之間就可完成。
有人用原子化新聞 (Atomized Journalism) 來解釋結構化新聞,意指把新聞分割成更小的單元,因為標記都是以全球標準XML(eXtensible Markup Language)為基礎架構,如網頁背後的 HTML,Word(.docx) 背後的 OOXML,大幅度增加文件機制,又強化文件之間的聯繫。新聞本身結構複雜,分割文稿在實作不容易,近年人工智慧的進展,電腦軟體有了自己學習的能力,EDITOR 及類似的軟體,才會在加註標記上發揮實際功效。
原子是物質的最小單位,不同原子、或多個相同原子結合在一起,組合成千萬種不同的物品。一則新聞分割的單元越細,可變性越多,所產生的功效也越大,我們可以說「小就是大」。
|