HOME

 

 

那福忠,知名電子出版專家、網路作家。
   
  從文字裡挖寶
 

那福忠 September 30, 2004

  請把你的想法寫信給我: Frank.Na@Gmail.com
   

   電腦用的越多,產生的資料越龐大,除了費力製成的資料庫以外,都是雜亂無章的存放(不信檢查一下你的電腦),時髦的話稱為「非結構化」(Unstructured) 資料,寫的信函、製作的文件、收到的電子郵件、網上取下的網頁,累積越來越多,也許用過就丟,留下來的也是隨便放個地方,以後一旦要用,要找回那一篇文稿、郵件、網頁,就倍感困難,許多人感嘆電子處理沒有紙張方便。

   這些非結構化的資料,如果有方法將之統計、分析、關連,找出可用的資訊,甚至有意想不到的發現,不但是「廢物利用」,而且是「化腐朽為神奇」,那該有多好?現在雖有許多軟體可以用來協助,像全文檢索、資料分類、搜尋引擎,唯僅能幫忙找到所需要的文件,但文件的內容還要人來解讀,因為系統並沒有文件間在內容上的橫向連繫。但別忙,一種稱之為資料開礦 (Data Mining),特別是其中的「文字開礦」(Text Mining) 技術,確能對非結構性的資料分析內容,藉交叉對照、語意分類,從文字內容尋找相關文件,然後整理出答案。這是層次頗高的資訊技術,現在也僅是開始,但不難從下面的簡介,看出端倪。

從草堆塈鉹@根針

   法國的Temis(取 Text Mining System 的簡稱)系統,可從龐大的文件堆堙A挑選出來所要的資料,系統一共分成四部份:從文件堆媬翵資料、依事先訂定的規則分類、依需要臨時組合資料內容、分析資料內容製摘要。當然,要系統運作順暢並不容易,事先要架設環境,為了使用簡易,Temis 預製了技術卡(僅是軟體、並非真卡),每種卡針對一種行業,其中用詞與規則都是與行業相關的,減少使用人安裝系統的負荷。

   Temis 用在那些地方?實例之一是歐洲一家大銀行,用在人力資源上,因為來申請工作的人太多,Temis 可以協助把申請人的覆歷內容儲存、以供以後查詢。另一個是一家大藥廠,使用 Temis 的用途是從競爭對手公開的文件、網頁裡,追蹤他們的進展情況。另外歐洲一家大雜誌出版社,採用 Temis,來把文章依內容歸類,為的是以後查找容易。

回覆郵件、監視對手

   德國的 XtraMind 做的事與 Temis 類似,但從辦公室系統著眼,先自動回覆電子郵件。鑑於企業回覆電子郵件的人力激增,自動化確有必要,這個系統先把進來的郵件依事先訂定的規則分類,然後製作標準回函,再用人力來少許修正後寄出,對企業的例行回函減化了不少。

   XtraMind 另外可用網路機器人(與搜尋引擎用的類似),爬行企業競爭對手的網站,從網上取回資料,經過分析,以郵件寄給特定的人,而且每人僅收到與他業務相關的資訊。

   這個軟體用語言分析與統計兩種工具,製成許多程式模組,每一模組做固定的事情,包括把文件整合、摘要製作、依不同設定擷取資料(如日期、名稱、地域、公司)、企業經營法則、與機器自己學習,其中含混邏輯等人工智慧也用的不少。這都說明了文字開礦是資訊技術深層的運用。

把內容連在一起

   把相關文件連在一起不難,但把相關文件的內容連在一起,又能製作出有用的答案,就不是單純的事了。化工廠埵陶\多專家學者,如要找出有哪些人對一種特定的釀造技術了解最多,通常僅能查人事資料的專長項目,人事資料不更新就查不到。但有一個更好的辦法,就是從每人的郵件中尋找,如果有人在郵件中時常提起釀造技術,這個人即使不是專家,起碼也知道一些這方面的知識。德國的 Ontoprise 正做這件事。

   Ontoprise 用的是 Ontology(存在學)的人工智慧理念,聽起來有些抽象,但頗為靈活。例如你是一篇文章的作者,那麼你對文章的內容,也應該是專家(假如文章不是抄的),這種就是「存在」的關連,Ontoprise 把它用到郵件與 Office 文件的關連上。

   使用這種內容關連的例子,有一家德國旅遊網站,上網的遊客很多,但僅有 1% 的人在網上訂位,所以用 Ontoprise 的關連技術,加強網站內容,讓網站不用真人回答,遊客也能獲得滿意的答案而訂位。另一家 Ontoprise 用戶,是一家汽車零件製造廠,在把零件目錄的印刷版轉換成可查詢的電子版本的時候,遇到困難,所以用 Ontoprise 來找出零件之間的關連,用這些關連資訊做為電子版的基礎。

文字計量

   前面幾種軟體,都用到了複雜的文字語意處理邏輯,功能雖強,但系統建構複雜,使用需要學習,所以就出現了另一種簡便的方式,純以文字出現的統計次數,作為處理的基礎,Autonomy 就是這樣的軟體。系統安裝之後,使用人先訓練軟體 Agent 來搜尋特定種類的文件,成熟之後再多加幾種別類的文件。

   Autonomy 的使用範圍有人力資源、搜尋履歷表,也可以用在客戶關係管理上、搜尋客戶來函,製藥公司更用它來搜尋眾多藥品發展的文獻與研究報告。這個軟體固然有使用簡單的優勢,但沒法關連文件的內容,在許多領域上這成為缺點。

   從上面幾個實例,可以看到我們每天丟棄大批資料的同時,也丟棄了蘊藏在裡面的寶藏,藉著資訊技術的發展,逐漸的會把寶藏保存下來。上面的實例,也展示了歐洲資訊技術基礎的踏實,資料雖儲存在電腦,原本是給人看的,這些軟體卻深入探索資料的語意 (Semantics) ,讓電腦了解資料的含意,替代了部分人力的解譯,可以說是真的「高」科技。


上一篇   下一篇 索 引