機器寫稿,最近在華文社區熱烈討論,用機器、也就是電腦軟體寫文章,在國外已經有幾年的歷史,這個專欄也介紹幾次,但都是外文。這次是出自中國大陸的中文媒體,先是去年 9 月的騰訊財經,11 月新華社正式加入行列,宣佈由機器人撰寫體育與財經新聞,不免受全球華文媒體的重視。記者可能顧慮工作會消失,各種數據都證明機器的確比人快很多,但樂觀的人認為機器寫來的必然是千篇一律的八股,有深度的文章還是要人去寫。
(機器人寫作示意圖。取自 sawae.com)
最早引起注意的機器人寫稿,是洛杉磯時報的地震報導,電腦軟體與地震通報中心連線,一旦地震發生,通報中心就會將資料傳到洛杉磯時報電腦,電腦就會根據資料寫一份簡單的報導。2013 年 3 月 28 日清晨 6:27,洛杉磯市區附近發生 4.4 級地震,電腦程式人員感覺到搖動,趕快起來打開電腦,一篇完整的地震簡報已經寫好,程式人員檢驗無誤,立即按鈕在網站上發佈,時間是清晨 6:30,沒有任何新聞媒體發佈的更快。
洛杉磯是大城市,每年兇殺案件超過 1000 起,洛杉磯時報是當地大報,自當盡責報導。由於印刷版資源有限,僅能報導十分之一,缺乏代表性,所以在數位版用一個網誌,簡單報導每一案件,但因資料來源缺乏,記者又無力採訪每一個案,就停滯下來。2010 年他們寫了一個電腦程式,與洛杉磯驗屍官的資料連線,取得每一案件的基本資料如日期、時間、地點、年齡、種族、以及社區兇殺案的歷史,所以網誌就自動報導每一件兇殺案。不但節省了記者很多時間,讓記者更有餘力深入採訪獨特個案的背景。
同樣的自動化做法,洛杉磯時報與洛杉磯警局資料連線,用社區的現狀,包括人口,以及犯罪的種類與地點,學校的位置與地點,讓讀者與相鄰的社區相比。如果那一社區在一周內犯罪次數過高,就對那一社區發出警訊,當然警力會增加巡邏。下圖是洛杉磯郡劃分成 16 大區,每一大區又分許多社區,一共有 272 個社區,每一社區的地圖可展示人口數量,犯罪的地點與種類,以及其各級學校的地點。建議讀者進入 Mapping LA 體驗。
(取自洛杉磯時報 Mapping L A)
機器寫稿,美聯社用來撰寫各公司財報,是一個成功的例子,他們採用外界技術,使用 Automated Insights 公司的 Wordsmith 軟體,從 Zacks 投資研究機構取得各個公司的財務數據,寫成簡單明確財務報告。2015 年 1 月每一季可以撰寫 3000 家公司財報,以前靠記者與編輯僅能撰寫 300 家公司的財報,預估 2015 年底,可達 4700 家,下一步要包括加拿大、歐盟各公司的財報。對讀者來說,可以獲得更多公司的資訊,美聯社的員工更是皆大歡喜,因為沒有人願意做這些枯燥又重複的工作。
而富比士雜誌,早就在 2012 年「雇用」Narraive Science 的 Quill 軟體,撰寫類似美聯社的公司財務評論,供給讀者更多的資訊,同時解除記者枯燥勞力,把省下來的精力做更有意義的分配。
現在全球發展機器自動編寫文稿的軟體,越來越多,有的是媒內部應自身需要發展的專用系統,有的是自然語言處理公司,作廣面的發展,像前面提到的 Automated Insights 與 Naritive Science。目前全球的使用,除了騰訊與新華社,有路透社、美聯社、彭博社、富比士、網路新聞 ProPublica、紐約時報、洛杉磯時報、Yahoo 等多家媒體。
機器寫稿的強勢,在製作例行重複性議題的報導,所採用的結構化的資料,如大批文字資料、或數目資料,可以自動撰寫成簡潔、準確的報告,適合新聞報導。結構化的資料日益增多,機器自動報導可以解省人力,同時增加報導數量,是驅動使用機器寫稿的主要誘因。
機器寫稿有相當大的潛力,除了快速、大量製作,錯誤比人少,還可以用同一資料來源做多種語言的報導,也可以從不同角度報導,更有潛力發展成按需報導,需要的時候才製作,像是依讀者的問題回答。
機器自動寫稿的成敗,關鍵在所依賴的資料與假設,但資料與假設都可能有偏差或錯誤,所以機器寫出的報導可能產生意外,甚至錯誤報導。所以目前的機器寫稿受相當的限制,例如不會用作問問題,不會用作解釋現象,也不會用來建立因果關係,所以沒有立場。機器寫稿的文筆低於人類,目前的確如此,但隨自然語言處理技術的發展,大有改善的餘地。
回到最初的兩個議題,一是記者這個行業是否就此終結,二是機器寫的八股文,永遠趕不上人的文筆,所以不用擔心。這種說法都對,也都不對,因為現在的資訊環境是動態的,不能用靜態的思維考量,如果有一位記者的工作正是例行的財經與體育的報導,那就危險了,因為機器做的一定比你更快、更準、更多,你沒有辦法勝過機器。
至於說機器寫出來無非是制式的文稿,有如八股,目前也確實如此,而且所報導的內容,也不在文筆的修飾,只要把事情說清楚就行了。但假設機器寫作的能力僅此而已,則是低估了資訊技術的發展能量,目前的機器可以從一份原始資料寫出不同角文稿,但新的技術正在增加詞彙,也就是文筆可能不再那麼八股。測試的結果,自己城市的報紙報導自己城市球隊輸球,機器會用婉轉的字眼,不會直接說輸了,機器記者也有歸屬感。
歐洲學界做了一個實驗,請很多人閱讀兩篇相同文稿,一篇屬名電、另一篇屬名一個人名,然後評論兩篇的差別。結果大多數人都說兩篇相同,唯有新聞系學生說屬名人名那篇寫的較好。當然這個實驗用了一點技巧,兩篇都是電腦寫的,而且是同一篇,只能證明新聞系學生的先入為主概念。
自然語言處理的技術,正快速發展,機器取代多少人力的撰寫,無可限量,學界已經討論機器寫稿發生錯誤的責任歸屬,特別是報導爭議性議題、或私人新聞,負責任的是電腦軟體的設計人、使用機器寫稿的記者、還是報紙的發行人?所以更進一步,機器寫稿的運算邏輯是否應該公開?
那現在的記者對於機器對手要怎麼看待?哥倫比亞大學數位新聞研究員、也是德國慕尼黑馬丁路德大學媒體研究員
Andreas Graefe 博士,提出一個標新立異的想法,他要記者與機器記者產生「聯姻」關係,也就是結婚關係,因為只有婚姻關係才能維持長久,雙方取長補短,相互扶持,同時提高警覺,每當機器進一步,「另一半」要善加運用,提升編輯的功效,進而為自己創造新的工作概念。標新立異?聽起來不無道理。
|