本週在舊金山舉行的 Seybold 研討展示會,網路出版無疑是熱門話題,儘管這是前瞻性的構思,目前看上去阻礙重重、路途遙遠,但技術與是市場的走勢,似都朝這方向紮根。寬帶網路的進展雖然慢下來,但方向未變,總有完成的一天;無線網路的興起,許多手持電器立即成了接受資訊的工具,成為出版的潛在用戶;而網路泡沫化的逐漸復甦,也改變了出版的定義。這些變遷,業界莫不嚴陣以待。
什麼是網路出版?也許沒有嚴謹的定義,但一般的認同是:在任何時間、任何地點、使用任何展示媒介、把視覺豐富的資訊內容、個人化的、快速可靠的、傳送給需要的人。這個概念,在三年前就提出,當時稱為異動內容 Transactive Content,現在正式成為出版的一種型態了。
網路出版的首要建設,是能從單一的內容儲存庫,提製出不同的展示型態;依此前推,就要整合企業的資訊內容,建構整合資訊的系統。如果再往前推,就涉及資料的基礎建設,即 MetaData 的建立,也是這次 Seybold 研討會的重要結論之一。研討會裡幾個不同的領域,從印刷出版、網上出版、跨媒體出版、出版技術、出版設計、到經營策略,最後都指向 MetaData,這在歷年 Seybold 的研討會裡,頗為罕見。
MetaData 是解識別的資料的資料,在出版的領域,是解釋出版內容的資料,解釋方式則以「標記」(Tag) 為主,現在當然以 XML 為工具。「標記」可以說是幕後的語言,通常並不顯示在出版品的內容上,一篇文稿的標題、作者、日期、摘要、圖片說明、乃至章節段落,對讀者至為明顯,不需在標題旁再加註說這是「標題」、或作者旁再加一行小字說這是「作者」,但在這篇文稿的內在儲存格式裡,這些標記就成了資料活動的泉源,無論查詢、重組、供給別人使用,都因為標記,使之方便靈活。
資料通常可分為結構化與非結構化,結構化是固定的格式,關連式資料庫頗適合處理這類資料。但企業隨業務的需要,產生更多、卻同樣重要的非結構化資料,關連式資料庫就不易處理,這時候,XML 不受欄位限制的非固定特性,正好適用到這類資料的表達。久而久之,這些非結構化的資料,有逐漸超過結構化資料的趨勢。資料庫系統廠商如 Oracle、IBM、Microsoft,也都了解這種情況,都在構思如何同時處理在關連資料庫的結構化資料、與用 XML 標記表達的非結構化資料,這一趨勢,至為明顯,預估三年以後,將有 25% 的資料以 XML 格式進出資料庫系統。
事實上,以是否儲存於資料庫研判資料是否為結構化,並不完全正確,因為不儲存於資料庫的許多資料,仍有相當的結構性,只不過維護的工具並不完整,致應用上欠缺結構感。XML 有表達資料結構的優勢,原來認為結構性不強的資料,使用 XML 之後,反而加強結構性,不過與傳統關連式資料庫的結構,有不同的意義。
MetaData 的標記,用意是把長篇資料作細膩的切割,但細膩到什麼程度,則不易拿捏。把資料切割的太粗,會造成以後使用不便,切割的太細,則耗費系統資源。Really Strategies 公司的知名分析師 Lisa Bos 認為,從資料內容的製作、與資料輸出後的應用,兩頭同時分析,是較好的方式,可從中找出平衡點。而資料的結構,需以使用目的為基礎,不是以資料的自然組織為藍圖。至於切割資料的建構,目前有從現有應用系統自動轉換(如 Word 轉 XML),製作人直接使用 XML 標記(如 XML Editor),以及用網頁瀏覽器填寫各標記欄位、自動轉成 XML 等方式,都有現成軟體可用,但各有優缺點。
網路出版的成敗,不在系統平台,不在網路連接,也不在周邊展式資料的各種工具,而在靈魂的基礎建設:把資料切割成 MetaData 的結構!
|