在資訊時代,資料太少固然活動不起來,資料太多也同樣是一大困擾。據業界估計,各大企業與機構,每天來往的電子資料,至少有 80% 是未經結構的零散資料,每人工作時間的 25% 是花耗在「找」資料上,而不是在用資料上。這也許不算是浪費,因為資料本性就是如此,問題是如何在需要的那一刻、找到所需要那一丁點的資料?
要資料有結構,並不在格式、而在內容結構:屬於那類資料、用那些關鍵詞查詢、說的是什麼事、裏面有那些人名地名、與那些別的資料關連,如果都能說楚,就能在需要的時候,立刻找到。但說歸說,要實際做到,除了極少數的專業資料製作機構外,一般人寫一封電子郵件,有誰列出這封郵件有那些關鍵詞、或其中提到幾個人名字?
既然資料的製作不能加入結構的元素,唯一的希望,恐怕就是自動由有智慧的軟體來做的這件事,而第一個步驟,就是資料的分類 (Taxonomy) 。分類對資料的儲存,可以知道存放在那裏以及用什麼標題,好像圖書館把一本書上架,知道放在那裏。分類對日後的使用,也同樣的知道到那裏去找。全文檢索固然是很好的工具,但僅限於狹窄的資料範圍,對相關但不含檢索詞句的資料則排除在外。分類,是一更自然的方式,而且也可以適應資料量的不斷成長。
資料的自動分類,正由多家軟體公司激烈競爭發展,把焦點放在文字資料的語意處理 (Semantic Processing)、把資料分門別類,希望能把資料自動存放在適當的位置,而不影響正常營運,也不需增加人力。分類軟體如能與內容管理 (CM) 軟體結合,無疑的成為 CM 的重要部份,而目前也正由 CM 公司與這些分類公司洽商合作。
以位於美國矽谷 Sunnyvale 的 Inxight 為例,就號稱可以自動處理自然語言,用事情的主題把資料分類,能處理幾千種資料類別與上百萬份文件,並能辨識 12 種語文。Inxight 系統也能自動把組織好的資料,自動傳送給的智慧庫與個人,對靠資訊營生的企業有節省成本的立即效應。
Inxight 的 MeatText 伺服機,是把沒有結構的資料加上結構,從文件中擷取文件的標題、摘要、人名、地名、東西、事務名稱、與別的資料相似處,然後連接到企業的知識管理、企業入口系統、CRM 系統,使企業資訊能量與能力增大。這些事也許人力也能做,但系統千百倍於人力,而且較人力更準確,對跨國機構來說,更能處理多國語言。MetaText 伺服機提供一個 XML 格式的 API、傳遞文件的結構資料。可處理文件的檔類別則有 Word、Power Point、PDF、XML、HTML、純文字。
Inxight 另一伺服機 VizServer,是較特別的產品,把資料作特別的視覺 (Visualization) 展現,讓人直覺性的吸資訊。這個作法,是根據 Xerox PARC 多年研究結果。第一個叫 Star Tree,用圖畫把資料的結構清楚展現,好像到圖書館先看書架位置圖,要找那類的書就走到那一區去找(讀者可到展示區 Porsche 寶時捷汔車網頁一試)。第二個叫 Table Lens,是個交叉的參照表,可以看出不同類別、時間、其他變數裏的型態、趨勢、變化與關連(例:美國 1990 與 2000 年普查)。VizServer 與 MetaText Server 未必有直接關係,但 MetaText 的結果仍能以 VizServer 展現,把 80% 的結構不良的資料,變的有條理、很容易找到。
Inxight 僅是目前眾多類似軟體公司中的一個,專家預估,這類資料整理的軟體,勢將成為軟體主流之一,而電子出版業也成為首期的顧客。電腦剛發明的時候,就用「資料」這個名詞,以後演變成「資訊」、「知識」。姑且不論定義怎麼寫,如不能處理得為我們所用,都是垃圾。
|