HOME

 

 

那福忠,知名電子出版專家、網路作家。
   
  看圖說事
  那福忠 December 08, 2014
  請把你的想法寫信給我: frank.na@gmail.com
   

   下圖 12 張照片,共有 4 直(豎)行、每行有 3 張,每張照片下面有文字描述,每行上端的彩色小格子解釋這一行照片的共同點。第一行綠色:文字描述沒有錯誤。第二行橘色:文字描述有小錯誤。第三行黃色:文字描述與照片有些相關,第四行紅色:文字描述與照片不相干。看到了照片為什麼不能用文字描述的準確一些,為什麼還有錯誤、甚至不相干的描述?因為看圖描述的不是人,是電腦軟體,是 Google 最近研發宣布的「自動描述圖片內容」、稱為 NIC (Neural Image Caption) 的人工智慧軟體,對圖片的描述雖然還不算完美,但已經較類似軟體的精確度高出一倍。(「直行」為台灣習慣用法,中國大陸與美國用法相反,「行」與 Row 為橫向。)


(Google 軟體自動「看圖描述」。取自 qz.com 網站、可點選放大)

   第一行三的張照片描述得非常清楚,一個在土路上騎機車的人,一群年輕人擲玩飛碟遊戲,一群象走過一片乾枯草原。如果細讀這幾個描述,不但有主題,還有與物件的關連(人與機車)、動作(騎、玩、走)、以及環境(土路、乾草原),遠超過一般的靜態圖片辨識。即使有錯或不完全的的描述,也與照片的內容多處吻合,最後一張照片把黃色的轎車描述成黃色的校車巴士(美國的校車巴士是黃色),至少都是黃色的車。

   數位照相的普及與網路的傳遞,全球的照片有多少沒有人算得出來,至少有千億之譜。以 Flickr 為例,10 年來吸引了 9200 萬用戶,每天以 100 萬張圖片上傳與交換,自從去年 5 月宣佈每人可有 1TB 免費容量,上傳的圖片暴增了 170%。照片越來越多,無論從公共圖片庫或是從個人的儲存媒體,搜尋一張圖片都不容易,NIC 等於給圖片做了索引,更有人想到用在監視器,自動用文字告訴你現場發生的事。

   人工智慧 (Artificial Intelligence),是資訊科技的重要領域,意思是電腦會做人做的工作,甚至做的比人更好,也就是電腦的「腦」要發揮功能,所以就用電腦軟體模仿人腦的生理組織,稱為「神經網路」(Neural Network),有「細胞」、有「神經」,彼此以網狀相連,所以能同時在不同地方處理資訊。這個結構可以重複運算,直到找到答案解決問題,所以說有「學習」能力,最好的例子就是手寫字體的辨識,一個字同樣的寫法多次重複,電腦就被「訓練」的從不認識到認識了。

   神經網路的另一個重要應用領域是語文翻譯,把單字、片語、一句話、甚至一段話,從一種語文翻譯成另一種語文,像每天有兩億人使用的 Google Translate 就是最好的例子。事實上 NIC 把影像內容翻譯成文字的概念,正是借用 Google Translate 的概念。Google Translate 與類似軟體的區別,在使用「語文空間」的概念,不是先把單字個別翻譯,再把翻譯後的單字排列成句。

   語文空間,是把語文中的單字分別存放在一個虛擬空間,然後以直線連接常用在上下句、或相關的單字,成為一個龐大的網絡,使得語意成為單字的直線連接,自然語文的處理近年已發展到數學化,像「國王」減去「男人」等於「女皇」(king - man = queen)。Google 的研發人員用這一技術製作語文空間,同時假設每一種語文的結構都類似,所以在翻譯的時候只要把兩種語文的語文空間對應,就可以簡單的從中解出答案,這當然對非歐系的語文翻譯就也許不太流利了。


(NIC 從圖片內容轉換文字描述的技術流程。取自網路)

   在 Google 發表的文獻裡,用了一張圖片(上圖)說明 NIC 的流程,先用「卷積神經網路」(Convolution Neural Network, CNN) 解開圖像,再用「遞歸神經網路」(Recurrent Neural Network, RNN) 轉換成文字,流程中除了照片與最後的文字之外,都是電腦的內在編碼多次轉換的運算結果。有興趣的讀者可瀏覽學術報告 Show and Tell: A Neural Image Caption Generator,做技術層面的瞭解。

   任何新的技術,都不會只有一個人研發,明年夏天的「電腦視覺與形體識別」會議上,估計會有六份類似研究報告發表,除了 Google 的 NIC,還有微軟、加州大學洛杉磯分校、加州大學柏克萊分校、多倫多大學、以及中國的百度。大家對圖片的自動文字化的熱絡,主要是目前的搜尋技術不足以應付圖片的成長,現在的圖片搜尋多靠檔名、搜尋用語來協助,自動化以後就可以準確的附加標記 (Tag),大幅度提升尋引擎的效率。對個人來說,尤其對亂放照片的人來說,只能說功德無量。

   微軟展示了下面兩張照片,每張有兩組描述,一組是人寫的、一組是電腦製作的。猜猜哪個是人寫的哪個是電腦製作的!(答案在圖下面)

左圖 1. An ornate kitchen designed with rustic wooden parts
(純樸木質的華麗廚房)
左圖 2. A kitchen with wooden cabinets and a sink
(一個木製櫥櫃與水槽的廚房)

右圖 1. A cat sitting on top of a bed
(一隻貓坐在床上)
右圖 2. A person sitting on bed behind an open laptop computer and a cat sitting beside and looking at the laptop screen area
(在床上一個人坐在一個打開的筆記本電腦後面,一隻貓坐在旁邊看著電腦的屏幕)


(微軟自動化圖片轉換文字描述實驗樣本。取自網路)



電腦製作的描述:左圖 2、右圖 1。






上一篇   下一篇  索引