網上的運作,有很多矛盾現象,其中之一就是用文字來搜尋圖片。一張圖片勝過千言萬語,圖片用眼睛輸入,一目了然、不必多言,與用文字敘述的資料,先瞭解文句的結構才能詮釋語意,是兩種不同的知識型態。但圖片的儲存,卻要用文字幫忙來解釋圖片的內容,為的是以後便於用文字來搜尋。這種不搭調的情況,以後會因為搜尋技術的進展,有很大的改善。
用文字來敘述圖片,自然有其功用,像圖片的製作資料、圖片裡的人地時,都必須用文字記載。但另一方面,圖片的結構、線條、色彩、是什麼東西(物件),眼睛一看就知道的事,用文字反而沒法說得清楚。近年發展的視覺搜尋(Visual Search)技術,正是把文字說不清楚的地方,做為圖片搜尋的條件。視覺搜尋的方式很簡單,是先從搜尋引擎的索引取出(或自己提供)一個圖片樣本,然後告訴搜尋引擎:找出與樣本圖的色彩、結構、線條、或物件相同的圖片。這種以圖找圖的結果,比用文字敘述找圖準確得多。讀者不妨用這張魚的照片做樣本,做色彩與形狀的搜尋,所找到照片也都有同樣或類似的色彩與形狀。
網上圖片的儲存越來越豐富,相對的查詢也越來越困難。用文字搜尋圖片,首在製作圖片說明的人、與以後搜尋圖片的人,用詞與思維要一致,否則有如雞同鴨講,大家玩猜謎遊戲。進一步到專業領域,問題就更加嚴重,例如涉及到機械零件、醫療狀態、服飾美容,就僅有極少數人才能恰當用詞。除此以外,準確一點的搜尋要用到 Boolean 邏輯,對某些人仍是障礙。
另外,網上大部分資料是以英語記載,文字資料可以關鍵詞比對查詢,但查找圖片,英語就必得到流利的程度才行,對不諳英語的人形成重大障礙。即使英語流利,每張圖片所鍵入的關鍵詞通常也僅能有十數個,但我們凝視一張圖片,可以聯想到幾十、甚至幾百個相關字眼,所以用關鍵詞描述圖片,意義可能有限。
用圖找圖的視覺查詢,在技術上相當複雜,它集合了統計形體識別、影像處理、電腦看圖、高難度計算、與人機互動。視覺搜尋引擎分析圖片的每一點,用 L*a*b 色彩空間,找出色彩、明暗、陰影、與形狀,然後再用平均色彩區域來決定線條,最後再把這些條件相同的部分集合在一起,成為「物件」,一旦形成物件,搜尋引擎就可以作為樣本來搜尋相同或類似的物件,而不受大小、位置、方向的影響。這種用物件比對搜尋,遠比用文字的非物件比對搜尋準確得多。
視覺搜尋的技術,早在 90 年代初期即開始發展,像是 IBM 的QBIC ,在當時雖是突破性的進展,但高運算成本與技術限制,應用不廣。當時以整張圖片的色彩分析,作為搜尋的比對,日落、火焰、與秋天的紅葉,可能出現於同一搜尋結果。以後技術進展到把圖片分區,在區域之內作色彩分析,作為比對基礎,這固然比第一代的全圖比對來得準確,但容易受比例、位置、方向變動的影響,現在第三代的物件導向比對,彌補了這一缺陷。
物件導向的視覺搜尋系統,目前有 eVision、LTU Technologies、 Pixlogic 三家,共同點都是以圖內的物件做比對,並且不論圖庫大小搜尋時效都很快,都能搜尋靜態圖片與影視檔,也都能對搜尋的結果自動加添 Metadata。eVision 目前暫時領先,另外兩家也都極力追趕,而且已有多家公司,宣布將視覺搜尋放入數位資產管理系統。
人類是視覺動物,多年的進化,我們的腦子可以毫不費力的分辨影像,使目前的電腦望塵莫及。雖然如此,物件分析的技術,使電腦對圖片作基礎的辨認,在資訊科技上是一大進展。容易找到正確的圖片,也產生了無限商機,像是商標圖案的保護、出售圖片機溝的營運、電子商務線上購物、乃至生化科技基因的紀錄,都可看圖識字,順暢運作。
|