從 Google Print 到全球圖書網

那福忠，知名電子出版專家、網路作家。

	從 Google Print 到全球圖書網
	那福忠 April 10, 2005
	請把你的想法寫信給我： Frank.Na@Gmail.com

英國牛津大學的 Bodleian 圖書館，有 400 年歷史，藏書 1000 萬冊，存有不少中古世紀的手稿，為世界著名圖書館。電腦化之後，學生走進圖書館，先填寫電腦借書單，管理員從系統上看到之後，查出藏書的位置，然後走到書架、極可能要登梯爬高，才把書取來放到籃子裡，然後用輸送帶送到閱覽室給學生。學生拿到書之後，休想帶回家或帶回宿舍閱讀，因為圖書館定位為「不出借合法典藏」，英國與愛爾蘭出版的每一本書，都會給這個圖書館一本，但不允許離開圖書館一步，所以學生拿到書也只能在圖書館裡閱讀。這一作業流程沒有什麼不妥，只是有人嫌慢了一點，從寫借書單到拿到書，可從 30 分鐘到幾小時。

數位化自然是答案，不必把書拿走就能閱覽，事實上牛津大學另外的圖書館，已經把一些古老的書數位化了，讀者可透過網路，一覽手抄本的影像。問題是讀者必須事先知道要什麼，才找得到，因為手抄本或古書的字體，掃瞄系統不容易辨識，所以要另外把內文打字輸入，耗時費力。牛津大學成立了三人小組，與美國密西根大學圖書館、以及另外七十家圖書館合作，把早期英語文學的著作數位化，除了內文的影像掃瞄進入系統，文字也重新鍵入，所以可以搜尋。這件事做的很慢，每月才能完成 200 本書，依照這個速度，要做完一百萬本書，需時 400 年。

自 1990 初期，歐美各國即構思圖書館數位化，唯進行的非常緩慢，費資也不少，所獲資源更是不足。即使是印刷字體的書，掃瞄系統可以辨識，但每本書仍需加註資料，如書名、作者、日期、出版、編號、分類、內容摘要，以前圖書卡上有的資料，都要數位化，否則數位化以後就形同垃圾，沒人能找得到。數位圖書卡到現在還沒有制訂國際標準，為了搜尋方便，大家更要加入額外的資料，所以估計每一本書數位化的成本約 30 美元。

去年十二月，「救星」來了，說你們各自斷斷續續小兒科的作法，要做到何年何月？不如大家把書交給我大批數位化，把牛津、哈佛、史坦福、密西根幾個大學圖書館的藏書，外加紐約市公共圖書館的藏書，一共有六千萬本，只要幾年的工夫，就能完全數位化。這位救星，就是股票剛上市、大把鈔票進帳的 Google。Google 說他們的傳統是「大」，不做則已，要做就做「大」事，六千萬本書確實夠大了，有六千萬本藏書的這五家圖書館，已經與 Google 簽約，至於怎麼樣進行，僅說還在研議，並未透露細節。

Google 說，這項工作不僅是把書本掃瞄進系統就算了事，掃瞄後要做檔案的整理、歸類、儲存、壓縮，然後字型識別、轉為數位資料，製作索引，再與 Google 其餘大量資料結合應用。這是一個生產作業流程，以機器人照相機掃瞄，完全自動處理。這種方式，可把每本書 30 美元的成本，下降到每本 10 美元。Google 把數位化的書檔，一份給原來的圖書館，一分自己留著，作為 Google Print 的內容。

Google Print 不是新的獨立功能，僅是 Google 搜尋的一部份，但可從此看出 Google 的「雄心大志」。Google 現在能搜尋的，是全球的網上資料，Google Print 是要把全球的印刷資料，也變成可搜尋的資料，納入其搜尋範圍。印刷資料最多的是書，所以把書本數位化就成了基礎工作。Google 現在已經儲存了 80 億頁的印刷資料，與搜尋系統共用，所以你下一次搜尋結果之中，就可能是一本書裡的一頁，如果是的話，那一頁書就會原樣顯示，同時告訴你還有哪幾頁內含你搜尋的關鍵詞，每一頁也都可以連結進去看，然後告訴你可到哪裡可以去買這本書。

Google 去年的宣布，震驚了全球圖書館界，對 Google 是愛憎交加，大家對 Google 數位化的能力莫不肯定，沒有 Google 出面，藏書的數位化就做不成；但反過來說，圖書館的功能在免費提供大眾知識，Google 已經是一家上市公司，把書的數位版本交給這麼龐大的營利機構，如何來運用，會不會違反圖書館免費供應知識的初衷。Google 固然不致於出售數位版本的書籍，但會利用其 AdSense 功能，在搜尋結果的網頁上刊登付費的文字小廣告，這些小廣告的內容與搜尋的關鍵詞呼應，所以有相當的效果，也是 Google 營收的主要來源。不過到目前為止，大家仍假設 Google 是個「乖孩子」，AdSense 小廣告影響不大，有的圖書館說，即使 Google 以後收費，他們的圖書館仍會維持免費的初衷。

其實大家想的是 Google 不可能止於 Google Print 的搜尋、與 AdSense 小廣告，Google 有了龐大的數位書庫之後，就不難自成一個網上圖書館，可稱做「書網」(Book Web)，不但包括藏書，與數位圖書卡（每本書的基本資料），還包括書與書之間的聯繫、與相互指引，這本書裡引用了多少別的書、第幾頁、連結網址，對做學問的人再方便不過了。有人說，這樣的圖書網，可以把事情串連起來，對歷史的研究是天大的福音。Google 對這類的技術非常在行，搜尋引擎搜尋結果的排序，就是依別人連結這一網頁次數的多寡來排列的。

即使 Google 有先進的技術，製作一個書網還是相當的費時，有人估算以一台掃瞄機來數位化圖書館藏書的話，要數位化美國國會圖書館的全部藏書（2900 萬本）需時 1636 年，紐約公共圖書館的藏書（1900 萬本）需時 1131 年，哈佛大學（1500 萬本）需時 838 年，英國牛津大學（1000 萬本）需時 570 年，史坦福與密西根大學各有 800 萬本，各需時 427 年。當然掃瞄機增加時間可以縮短，Google 說幾年之內可以掃瞄數位化 6000 萬本書的豪語，其複雜程度實在超出所能理解，我們只能拭目以待了。

讀者如果對 Google Print 不熟悉，可以進入print.google.com 網站進一步了解。

│

索引