2015 08 10 結構化新聞

那福忠，知名電子出版專家、網路作家。

	結構化新聞
	那福忠 August 10, 2015
	請把你的想法寫信給我： frank.na@gmail.com

我們都熟悉結構化的資料，像是資料庫，把資料組織成特定的式樣儲存，為的是便利以後的取得。結構化新聞 (Structured Journalism) 是最近幾年出現的名詞，目前還在發展，也沒有完整的定義，但在概念上與結構化資料相同，至少是相似，就是把新聞用特定的方式組織，增加使用的靈活度，以及不同新聞的關連度。組織的方法是把新聞切割成小的單元，每一單元取一個名稱，也就俗稱的標記 (Tag)，然後用資訊技術依標記擷取內容，結合成一篇報導。

依不同的標記可以編輯成不同的文稿，適應不同讀者的需要，尤其是數位閱讀，更需要適應不同閱讀設備的需要，例如手機上幾行摘要加一段影視，效果勝於長篇文字。傳統的新聞報導，無論印刷與數位，多缺乏連貫性，有時報導的內容對個事件說的很詳細，但這個事件是怎麼起頭的，在文字間卻找不到，編輯可能認為前幾天已經報導過了，今天不再贅述，卻沒有考慮對事件不了解的新讀者。

一則新聞有人認為報導的太多太繁瑣，也有人覺得報導的太少不夠詳盡，可以說是不容易解決的正常現象。華盛頓郵報用一個叫 Knowledge Map 的軟體實驗，希望為這個問題找答案。這個軟體能把一篇報導的背景資訊，在文稿適當的位置用簡單的圖片提示，讀者若對報導內容的人、物、事、地、機構有不了解，可以點選相關的提示進一步閱讀。華盛頓郵報第一篇實驗文稿，是一則伊斯蘭國的報導，讀者可能對伊斯蘭國還不熟悉，所以提示之一就是「什麼是伊斯蘭國？」。

這篇文稿的展現方式，就是結構化新聞的運用，把一個主題的相關資訊分別組成單元，以提示方式，安插在主題文稿，讓讀者依個人的需要閱讀，解決了上述的連貫問題。但最大的好處，是以後遇到同一主題的文稿，同樣把相關提示安插在文稿之內，給不熟悉報導內容的讀者參閱，熟悉內容的讀者當然就不必理會這些提示。

結構化新聞已經存在十幾年了，或許當時不叫結構化新聞，但切割新聞的概念不但有多方面的研究，也發展多種標記語言 (Markup Language、簡稱ML)，在中文領域，如台灣的聯合報標記語言undML，中國大陸的中文新聞信息技術標準CNML。標記語言僅是結構框架，需要把輸入的資料加註標記，才能做後續的運算，文稿的標記可由電腦軟體自動加註，或由人力加註，但電腦軟體加註不能完整，人力加註又過於耗時，成為兩難局面。

紐約時報研究發展實驗室日前推出 EDITOR，是一個電腦與人力合作的加註系統，當記者輸入文稿的同時，這個系統辨識文稿內的人物、地點、機構、概念，並自動加註標記，另外有一個清單，讓記者自己加註標題、文稿作者、文稿內容的重點、以及擷取一段內容作為引述 (Quotes)。文稿輸入系統自動加註之後，再與內部或外部的資料庫連接，製作出記者可以隨時使用的資訊，稱為「微型服務」(Micro Services)，也就是微型的資料庫。

下圖是 EDITOR 的畫面，左邊是文稿輸入區，右邊是中間有四個微型服務，分別是人、地、機構、概念。文稿加註標記之後，綠色是人物，黃色是機構，紫色是地點，粉紅色是重點（概念）。請讀者點擊下圖，連結到紐約時報另一網頁，觀看一分鐘的實作的影視，也許看不仔細，至少對運作流程有些許的概念，同時也可以瀏覽紐約時報對 EDITOR 的簡單介紹。

試驗室的資科學者稱這些標記為語意標記 (Semantic Tags)，因為可藉人工智慧讓機器學習，在一段文字中找到有意義的連接與關係，用來製作各種微型服務，來服務記者。例如「引述微型服務」可以驗證一個人以前說的話，「機構關係微型服務」可以尋找人與機構的關係，「政治獻金微型服務」可以找出捐款最多的人。這些費時工作，在標記化的智慧運作之下，記者彈指之間就可完成。

有人用原子化新聞 (Atomized Journalism) 來解釋結構化新聞，意指把新聞分割成更小的單元，因為標記都是以全球標準XML(eXtensible Markup Language)為基礎架構，如網頁背後的 HTML，Word(.docx) 背後的 OOXML，大幅度增加文件機制，又強化文件之間的聯繫。新聞本身結構複雜，分割文稿在實作不容易，近年人工智慧的進展，電腦軟體有了自己學習的能力，EDITOR 及類似的軟體，才會在加註標記上發揮實際功效。

原子是物質的最小單位，不同原子、或多個相同原子結合在一起，組合成千萬種不同的物品。一則新聞分割的單元越細，可變性越多，所產生的功效也越大，我們可以說「小就是大」。

│

索引