HOME

 

 

Steve Outing 為 Poynter Institute for Media Studies 資深編輯,
同時為Editor & Publisher Interactive 等多種專業刊物撰寫專欄
   
steve outing pic
  數位化最古老典藏資料的 生意經
The Business Case of Digitizing Oldest Archives
  By Steve Outing November 10, 1999
  請把你的想法寫信給我: steve@Poynter.org
eandpletter 本專欄獲 Mr. Steve Outing Editor&Publisher Dot-Com 授權翻譯轉載
擁有版權 每月刊出一次

  總有一天,消費大眾及學者們,能透過網路來查詢以前的新聞,甚至追溯到十八世紀。出版業試圖把最古老的典藏資料數位化,例如能立即找出一篇十九世紀的新聞報導。也許現在仍在發展初期,但隨著技術的進步,這一天愈來愈近了。

多年來,把幾十年、甚至上百年的古老資料,存入一個單一的、索引的、電子的典藏庫,是許多刊物發行人與圖書館員的夢想。但即使技術可行,把數十年典藏的微縮影片數位化,使能查詢、閱讀,問題仍然存在:這是個有利可圖的生意嗎?

這不便宜

芝加哥論壇報就採高檔的製作,花了幾百萬美元,要把從1847以後的全部新聞報導數位化。把以前的剪報與縮影片轉換成電子位元,是與馬利蘭州Bethesda城的progressive Technology Federal Systems公司聯合進行的。

論壇報正進行將1900年至1984年的剪報數位化的工作(1985年後就有電子資料庫了),至於往前推到1849年,則把報紙的第一頁數位化,並且從第一版文稿中擷取文字,重新輸入來建立電子索引。另外打字輸入的,有死訊訃聞,不在第一版的重要文稿,以及從第一版延續到以後各版的報導。

據論壇報主任圖書館員John Jansson說,這項計畫需三年完成,完成後這些電子資料將成為可觀的收入,很快的彌補數位化的花費,因為這是第一個能獨立查詢、完整的新聞典藏,包含一個半世紀的資料,必然是各圖書館訂閱的對象,也被一般大眾、學者、歷史學者、學生、老師、宗譜熱衷者所喜愛。

(其他報紙也有類似但小規模的做法,像巴提摩爾太陽報,就將自己記者採訪的76萬則新聞報導數位化,但現在因為成本過高而暫停。論壇報此舉,是到目前為止最大的製作。目標是把一千五百萬則新聞數位化。)

比較便宜的做法

在喬治亞州Morris傳播旗下的Augusta記事報,就採取較論壇報便宜的作法,現在正試作,如果成功,就會用到Morris旗下的全部報紙。那時(可能是年底),就會有網上報紙往回追溯到1786年,也就是這家報紙創刊的第二年。
(第一年有幾次水災與火災,報紙沒能存起來。)

記事報圖書館主任Rhonda Holman說,他們無意對老的資料花上幾百萬美元去處理,僅用20萬元的預算就把工作完成,但與論壇報不同的是,這些古老的報紙不會像數位化的那麼清晰(他不會花那麼多的時間與金錢)。

記事報不止是數位化老舊的報紙,而且用了不少新技術,像使用ExcaliburHobson’s Technologies的技術,來掃描微縮底片,轉成數位化。報紙的微縮底片送到馬利蘭州的Hobson公司後,作數位掃描,然後再以OCR技術轉成文字,再用這些文字作成索引。

整個流程OCR(光學字母辨識)最為麻煩,雖然技術不停進展,但辨識錯誤率仍高,特別是老舊的報紙本身的清晰度不夠好,錯誤更多。Excalibur可將普通的拼字錯誤自動更正,像出現兩個字母r,這個軟體檢查上下文,認為兩個r在一起沒有意義,可能是一個h,所以就自動把兩個r改成h

雖然OCR及檢查更正軟體不能找出全部錯誤,但仍能製作出可信的索引。(更使其完全正確需要人力輸入,這就是花費最多的地方。)所以,讀者查詢這個不十分完美的索引,輸入Civil War,就應該得到許多篇含Civil War的文稿,但會因為OCR失誤而漏掉幾篇。

記事報讀者實際看到的,是自1855年起報紙的原樣,可能呈PDFGIF格式(尚未決定)。在畫面顯示的,是數位化的報紙原樣複製品,利用OCR轉成文字,僅供製作索引用。

Hollman解釋,這個系統也能處理連頁文稿。例如讀者在第一版讀到文稿「續第八版」的時候,點一下畫面左欄「第八版」的指標,就會跳到第八版去。

成本即將下降

這種低成本數位化老舊的典藏資料,對小型出版機構應該可行。到現在為止,這仍是大型出版社的遊戲,只有像芝加哥論壇報那樣的大型報社,才有能力如此花耗。

Bell & Howell Information and Learning有個大型計畫,將大量的微縮影片出版物數位化,雖然現在未將報紙納入,但以後應該會納入。這個計畫是去年宣佈的,預備用幾年的時間,把55億頁的老舊出版物數位化。Bell & Howell發言人說,把報紙納入其計畫,仍在研議中。即使他們開始處理報紙,大型報紙恐怕已經自己先數位化完成了,但中小型報紙則尚未著手進行,或根本不會去做。數位化老舊資料,將成為Bell & Howell的服務,會與資料擁有人分享數位化以後的可能收入,所以報紙恐怕不可能把數位化的資料放到自己的網站。

所以,已經有足夠的理由,來自己把最老的典藏資料數位化,然後自己直接掌控其營運。

新技術要來了

許多公司,都在發展更合乎成本效益的技術,來把以前的資料數位化,其中之一,即是PaperOfRecord.com,它是一家加拿大渥太華叫Cold North Wind的公司的專案。

這家公司的創辦人Bob Huggins,原是加拿大Globe and Mail報的發行主任,說他的公司開始把北美四十萬報紙的庫藏資料,數位化成PDF格式,資料量可能大到2030TBTerra Bytes1TB等於10Bytes)。

Huggin說,他的公司把這件事視為長遠投資,在數位化成PDF的同時,立即可掃尋文稿的內容,不需要用OCR辨識製作出不完整的索引。這堶悸漣犍屆AHuggin說是直接在掃描後的PDF中查詢文字製作索引,就能避免製作不完整的索引了。當然這是個高目標,但Adobe發展PDF,有甚多的合作伙伴,也許在未來幾年堹鉆F到這技術水平。數位化紙張文件,是個大生意,有不少人做這件事,也有意願與報紙或期刊合作。

老資料值錢嗎?

我在以前的專欄堙A談過報紙的典藏資料應該免費還是要付錢,這也是報界自己正在辯論的題目,對以前的舊資枓是供免費查詢、還是每下載一篇收一次費(或別的收費辦法)。大家都同意的是,這些資料對消費大眾有很大價值,像學生、學者、宗譜收集者、歷史學家、常坐圖書館的人,都會有興趣。(這些資料對圖書館收取的訂閱費,就很可觀。)

Hollman說,記事報還沒有決定對這些古老資料採用什麼樣的營業模式,但不出以下兩種。

1. 收取使用資料庫的訂閱費(如24小時內任意使用收5美元)。以文稿為單位計費行不通,因為一篇文稿可能在好幾版跳來跳去,製造收費問題。

2. 對報紙訂戶免費,非訂戶收費。這樣可吸引新的報紙訂戶、留住老的訂戶。

Huggins同意第2種模式,正如同推廣其他付費服務一樣,可以吸收新顧客,也可以抓住老顧客。

舊資料不會使人一夜致富,但應該是一個好的利潤中心。多數報紙的數位資料,僅追溯到幾年,所以多被工商業及研究人員所用,也就是現在從資料營收的來源。但如果往前追溯幾十年,用的人必然眾多。

Hollman說,他們這家美國南方最早的報紙,接到不少讀者詢問,想知道南北戰爭時代的資料。這個完整的資料庫,回溯到1780年代,會讓歷史愛好者、宗譜探索者找到資料而名聲大振。
Morris傳播線上服務主任Michael Romaner也說,他們有很好的理由來數位化其歷史資料。Morris旗下的報紙多是中小型,並沒有太多有價值的典藏資料,所以也沒有從中獲利。而記事報已經將最近幾年的新聞報導上網,免費供讀者查詢。Romaner預期其歷史資料數位化。一旦完成,就可能開始收費,或者爭取訂戶免費,非訂戶收費的模式。

Romaner對他們「深入歷史」的付出說:「我喜歡做特定的工作來支援印刷版報紙,因為印刷版的營運,支援了網上營運。」

上一篇   下一篇 索 引