以圖查圖

那福忠，知名電子出版專家、網路作家。

	以圖查圖
	那福忠 February 20, 2002
	請把你的想法寫信給我： Frank.Na@Gmail.com

網上的運作，有很多矛盾現象，其中之一就是用文字來搜尋圖片。一張圖片勝過千言萬語，圖片用眼睛輸入，一目了然、不必多言，與用文字敘述的資料，先瞭解文句的結構才能詮釋語意，是兩種不同的知識型態。但圖片的儲存，卻要用文字幫忙來解釋圖片的內容，為的是以後便於用文字來搜尋。這種不搭調的情況，以後會因為搜尋技術的進展，有很大的改善。

用文字來敘述圖片，自然有其功用，像圖片的製作資料、圖片裡的人地時，都必須用文字記載。但另一方面，圖片的結構、線條、色彩、是什麼東西（物件），眼睛一看就知道的事，用文字反而沒法說得清楚。近年發展的視覺搜尋(Visual Search)技術，正是把文字說不清楚的地方，做為圖片搜尋的條件。視覺搜尋的方式很簡單，是先從搜尋引擎的索引取出（或自己提供）一個圖片樣本，然後告訴搜尋引擎：找出與樣本圖的色彩、結構、線條、或物件相同的圖片。這種以圖找圖的結果，比用文字敘述找圖準確得多。讀者不妨用這張魚的照片做樣本，做色彩與形狀的搜尋，所找到照片也都有同樣或類似的色彩與形狀。

網上圖片的儲存越來越豐富，相對的查詢也越來越困難。用文字搜尋圖片，首在製作圖片說明的人、與以後搜尋圖片的人，用詞與思維要一致，否則有如雞同鴨講，大家玩猜謎遊戲。進一步到專業領域，問題就更加嚴重，例如涉及到機械零件、醫療狀態、服飾美容，就僅有極少數人才能恰當用詞。除此以外，準確一點的搜尋要用到 Boolean 邏輯，對某些人仍是障礙。

另外，網上大部分資料是以英語記載，文字資料可以關鍵詞比對查詢，但查找圖片，英語就必得到流利的程度才行，對不諳英語的人形成重大障礙。即使英語流利，每張圖片所鍵入的關鍵詞通常也僅能有十數個，但我們凝視一張圖片，可以聯想到幾十、甚至幾百個相關字眼，所以用關鍵詞描述圖片，意義可能有限。

用圖找圖的視覺查詢，在技術上相當複雜，它集合了統計形體識別、影像處理、電腦看圖、高難度計算、與人機互動。視覺搜尋引擎分析圖片的每一點，用 L*a*b 色彩空間，找出色彩、明暗、陰影、與形狀，然後再用平均色彩區域來決定線條，最後再把這些條件相同的部分集合在一起，成為「物件」，一旦形成物件，搜尋引擎就可以作為樣本來搜尋相同或類似的物件，而不受大小、位置、方向的影響。這種用物件比對搜尋，遠比用文字的非物件比對搜尋準確得多。

視覺搜尋的技術，早在 90 年代初期即開始發展，像是 IBM 的QBIC ，在當時雖是突破性的進展，但高運算成本與技術限制，應用不廣。當時以整張圖片的色彩分析，作為搜尋的比對，日落、火焰、與秋天的紅葉，可能出現於同一搜尋結果。以後技術進展到把圖片分區，在區域之內作色彩分析，作為比對基礎，這固然比第一代的全圖比對來得準確，但容易受比例、位置、方向變動的影響，現在第三代的物件導向比對，彌補了這一缺陷。

物件導向的視覺搜尋系統，目前有 eVision、LTU Technologies、 Pixlogic 三家，共同點都是以圖內的物件做比對，並且不論圖庫大小搜尋時效都很快，都能搜尋靜態圖片與影視檔，也都能對搜尋的結果自動加添 Metadata。eVision 目前暫時領先，另外兩家也都極力追趕，而且已有多家公司，宣布將視覺搜尋放入數位資產管理系統。

人類是視覺動物，多年的進化，我們的腦子可以毫不費力的分辨影像，使目前的電腦望塵莫及。雖然如此，物件分析的技術，使電腦對圖片作基礎的辨認，在資訊科技上是一大進展。容易找到正確的圖片，也產生了無限商機，像是商標圖案的保護、出售圖片機溝的營運、電子商務線上購物、乃至生化科技基因的紀錄，都可看圖識字，順暢運作。

│

索引