英國牛津大學的 Bodleian 圖書館,有 400 年歷史,藏書 1000 萬冊,存有不少中古世紀的手稿,為世界著名圖書館。電腦化之後,學生走進圖書館,先填寫電腦借書單,管理員從系統上看到之後,查出藏書的位置,然後走到書架、極可能要登梯爬高,才把書取來放到籃子裡,然後用輸送帶送到閱覽室給學生。學生拿到書之後,休想帶回家或帶回宿舍閱讀,因為圖書館定位為「不出借合法典藏」,英國與愛爾蘭出版的每一本書,都會給這個圖書館一本,但不允許離開圖書館一步,所以學生拿到書也只能在圖書館裡閱讀。這一作業流程沒有什麼不妥,只是有人嫌慢了一點,從寫借書單到拿到書,可從 30 分鐘到幾小時。
數位化自然是答案,不必把書拿走就能閱覽,事實上牛津大學另外的圖書館,已經把一些古老的書數位化了,讀者可透過網路,一覽手抄本的影像。問題是讀者必須事先知道要什麼,才找得到,因為手抄本或古書的字體,掃瞄系統不容易辨識,所以要另外把內文打字輸入,耗時費力。牛津大學成立了三人小組,與美國密西根大學圖書館、以及另外七十家圖書館合作,把早期英語文學的著作數位化,除了內文的影像掃瞄進入系統,文字也重新鍵入,所以可以搜尋。這件事做的很慢,每月才能完成 200 本書,依照這個速度,要做完一百萬本書,需時 400 年。
自 1990 初期,歐美各國即構思圖書館數位化,唯進行的非常緩慢,費資也不少,所獲資源更是不足。即使是印刷字體的書,掃瞄系統可以辨識,但每本書仍需加註資料,如書名、作者、日期、出版、編號、分類、內容摘要,以前圖書卡上有的資料,都要數位化,否則數位化以後就形同垃圾,沒人能找得到。數位圖書卡到現在還沒有制訂國際標準,為了搜尋方便,大家更要加入額外的資料,所以估計每一本書數位化的成本約 30 美元。
去年十二月,「救星」來了,說你們各自斷斷續續小兒科的作法,要做到何年何月?不如大家把書交給我大批數位化,把牛津、哈佛、史坦福、密西根幾個大學圖書館的藏書,外加紐約市公共圖書館的藏書,一共有六千萬本,只要幾年的工夫,就能完全數位化。這位救星,就是股票剛上市、大把鈔票進帳的 Google。Google 說他們的傳統是「大」,不做則已,要做就做「大」事,六千萬本書確實夠大了,有六千萬本藏書的這五家圖書館,已經與 Google 簽約,至於怎麼樣進行,僅說還在研議,並未透露細節。
Google 說,這項工作不僅是把書本掃瞄進系統就算了事,掃瞄後要做檔案的整理、歸類、儲存、壓縮,然後字型識別、轉為數位資料,製作索引,再與 Google 其餘大量資料結合應用。這是一個生產作業流程,以機器人照相機掃瞄,完全自動處理。這種方式,可把每本書 30 美元的成本,下降到每本 10 美元。Google 把數位化的書檔,一份給原來的圖書館,一分自己留著,作為 Google Print 的內容。
Google Print 不是新的獨立功能,僅是 Google 搜尋的一部份,但可從此看出 Google 的「雄心大志」。Google 現在能搜尋的,是全球的網上資料,Google Print 是要把全球的印刷資料,也變成可搜尋的資料,納入其搜尋範圍。印刷資料最多的是書,所以把書本數位化就成了基礎工作。Google 現在已經儲存了 80 億頁的印刷資料,與搜尋系統共用,所以你下一次搜尋結果之中,就可能是一本書裡的一頁,如果是的話,那一頁書就會原樣顯示,同時告訴你還有哪幾頁內含你搜尋的關鍵詞,每一頁也都可以連結進去看,然後告訴你可到哪裡可以去買這本書。
Google 去年的宣布,震驚了全球圖書館界,對 Google 是愛憎交加,大家對 Google 數位化的能力莫不肯定,沒有 Google 出面,藏書的數位化就做不成;但反過來說,圖書館的功能在免費提供大眾知識,Google 已經是一家上市公司,把書的數位版本交給這麼龐大的營利機構,如何來運用,會不會違反圖書館免費供應知識的初衷。Google 固然不致於出售數位版本的書籍,但會利用其 AdSense 功能,在搜尋結果的網頁上刊登付費的文字小廣告,這些小廣告的內容與搜尋的關鍵詞呼應,所以有相當的效果,也是 Google 營收的主要來源。不過到目前為止,大家仍假設 Google 是個「乖孩子」,AdSense 小廣告影響不大,有的圖書館說,即使 Google 以後收費,他們的圖書館仍會維持免費的初衷。
其實大家想的是 Google 不可能止於 Google Print 的搜尋、與 AdSense 小廣告,Google 有了龐大的數位書庫之後,就不難自成一個網上圖書館,可稱做「書網」(Book Web),不但包括藏書,與數位圖書卡(每本書的基本資料),還包括書與書之間的聯繫、與相互指引,這本書裡引用了多少別的書、第幾頁、連結網址,對做學問的人再方便不過了。有人說,這樣的圖書網,可以把事情串連起來,對歷史的研究是天大的福音。Google 對這類的技術非常在行,搜尋引擎搜尋結果的排序,就是依別人連結這一網頁次數的多寡來排列的。
即使 Google 有先進的技術,製作一個書網還是相當的費時,有人估算以一台掃瞄機來數位化圖書館藏書的話,要數位化美國國會圖書館的全部藏書(2900 萬本)需時 1636 年,紐約公共圖書館的藏書(1900 萬本)需時 1131 年,哈佛大學(1500 萬本)需時 838 年,英國牛津大學(1000 萬本)需時 570 年,史坦福與密西根大學各有 800 萬本,各需時 427 年。當然掃瞄機增加時間可以縮短,Google 說幾年之內可以掃瞄數位化 6000 萬本書的豪語,其複雜程度實在超出所能理解,我們只能拭目以待了。
讀者如果對 Google Print 不熟悉,可以進入print.google.com 網站進一步了解。
|