HOME

 

 

那福忠,網路作者。
   
  西海岸數位隨筆
美國西海岸 吸取太平洋與陽光精華 隨時有精彩故事發生
  March 14, 2021  通用人工智慧會出現嗎?
  請把你的想法寫信給我: frank.na@gmail.com
   


用電腦辨認物件與影像,能像我們人一樣精準嗎?
photo by Pixabay

   我們用電腦搜尋已經成為生活的一部份,輸入幾個字就能出現很多圖畫讓我們瀏覽選擇,輸入「騎馬」,就會出現各種姿勢騎馬的圖片,輸入「騎驢看唱本」,則會出現各樣古裝繪畫,有的還會把歇後語「走著瞧」寫出來。如果反過來,把一張騎馬的照片掃描給電腦,電腦也許會用文字回答是「騎馬」,假設電腦有識別照片物件的能力。但假如把一幅沒有文字說明的「騎驢看唱本」繪畫輸入電腦,不妨想想看,電腦會怎麼回答?

   這就進入了 AGI (Artificial General Intellience) 通用人工智慧的領域,也就是普通人的言行舉止,既不是圍棋高手,也不是頂尖科學家。對人類來說,這也許僅算常識,但對電腦正好相反,下棋、自動開車反較容易,人類的常識才是高難度的智慧。研發 AGI 的 OpenAI,近年發表的 GTP-3 最引人注目,出一個題目,給一點提示,就會自動寫出一篇文章。OpenAI 日前又推出「對比式語言影像訓練」 (Contrastive Language–Image Pre-training, CLIP) 的軟體,可以閱讀文字並將影像歸類。

   CLIP 的研發人員在自行測試的時候,發現閱讀文字與解譯影像的能力既是強項也是弱點,把一個蘋果給 CLIP 看,答案是蘋果,在蘋果上貼一張紙條寫著 iPod,答案卻是 iPod,不是蘋果。給 CLIP 看一隻貴賓狗的照片,答案是貴賓狗,把照片上畫幾個簡單的小 $$$,答案卻成了是儲蓄銅板的小豬豬 (Piggy Bank)。研發人員說這像是駭客的「文字攻擊」,把結構複雜的 AI 神經網路,僅用紙跟筆就攻破了,讓 CLIP 看不見字條後面的蘋果,僅看見照片上細小的 $ 卻看不見照片裡一隻大狗。

   研發人員自然不能一笑置之,除了認為對文字解讀能力過強,還認為對影像的抽象描述,過於含蓄而複雜,而簡化到概括。如同許多深層網路,模型的最高層受制於高層的抽象描述,CLIP 的多重關連神經元 (Multimodal Neuron),運作於文字與標示之間,有如劍的兩面刃。且不管這些 AI 的解釋,所得到的就是前面的結果,研發人員覺得可笑之餘,也發現了訓練資料產生的問題。

   CLIP 的模型(Model、AI 用語、用資料訓練過的演算法),是經過大批影像與文字的關連資料訓練而成的,但關連的原始製作,難免有錯誤與偏差,有些關連可能對個人或族群有所貶抑性的傷害。像「中東」這個神經元(指電腦程式)與恐怖主義關連,「移民」與拉丁美洲關連,同時也發現一個神經元會同時觸動深色皮膚與大猩猩兩個程式。這些關連在 CLIP 都列為不能接受的偏差,在大型的影像應用系統,成為一大挑戰。

   OpenAI 為此發表論文,告訴研發同儕潛在的問題,系統中的偏頗關連一時難以消除,顯性或隱性的效應會在運轉中呈現,但這些偏差很難預知,使得驗證與更正益加困難。CLIP 的發表供研究使用,也同時提供工具,希望幫助研發同儕預先找出這些關連,避免問題發生。OpenAI 承認自己也在瞭解 CLIP 的運作行為,現在僅在表皮還未深入,所以邀請同儕一起參加研究,來增進對 CLIP 及類似模型的瞭解。

   AGI 所以有通用性,是因為沒有領域的限制 ,CLIP 辨識影像並歸類,並不指定影像的類別,可以是水果、動物、儲蓄,甚至新的影像概念。為了更接近通用性,研發人員從網路挑選 4 億筆「影像--文字」的關連組合,如前所述,訓練成 CLIP 模型。訓練之後,可以用自然語言來連接已知的影像,以及用來描述新的影像,這樣就能零次 (Zero-shot) 的將模型轉換成下游的工作,經 30 種電腦視覺資料集的驗證效果良好,這就是 CLIP 的精華所在。

   AGI 是 AI 的理想境界,也就是電腦有了人類的智慧,有了自主的意識與繼續學習能力,AI 也就到達了頂點 (Singularity),人類進入另一個進化時期。月前近千名專家預測 AGI 一定會來臨,因為人的智慧是固定的,只有藉助機器才能提升,而 AGI 需要的運算與記憶能量,都在繼續增加之中,AGI 需要的演算法,人類也不斷的優質提供,讓機器的運算與記憶能量充分發揮。專家預估 AGI 到達的時間,是 2060 年。

   學者們反駁 AGI 的有三個主要理由。一、智慧是多面導向的,許多動物的智慧對人類也有益。二、光靠智慧不能解決所有問題,許多問題需要累積的實驗去解決。三、電腦不可能模擬真的人腦,所以 AGI 不可能成立。

   且不論 AGI 能否來臨,我們真想看到一個影像識別的 AI,對「騎驢看唱本」這幅繪畫怎麼回應,當然最希望看到的回應是「走著瞧」三個字。

上一篇  下一篇  索引