HOME

 

 

那福忠,網路作者。
   
  西海岸數位隨筆
美國西海岸 吸取太平洋與陽光精華 隨時有精彩故事發生
  December 14, 2017  從 Emoji 調查到「差別隱私」
  請把你的想法寫信給我: frank.na@gmail.com
   

   網上文字聊天、互通信息,都喜歡用表情圖像、也就是俗稱的 Emoji,來表達一下當時的情緒,也算是一點幽默。蘋果公司特別調查了用戶愛用那些表情圖像,結果第一名是大家熟知的「喜極而泣笑臉」,占 25%,第二名是「愛的紅心」,占 5%,其餘大家愛用的各「臉譜」如下圖。


(蘋果用戶Emoji 調查,喜極而泣笑臉最受歡迎。取自網路)

   調查之後,蘋果又設計了幾百種新的 Emoji,不用傳統的呆板臉部表情,改用繪製精美的繪圖,用來代表文字,讓大家見圖識字,隨 iOS11.1 附送。這些新設計包括表情豐富的笑臉,中性的角色,服飾,食物,動物,神話人物等,或許能讓文字通信增加少許點綴。


(蘋果的新「繪圖文字」 Emoji。取自網路)

   表情圖畫自然是在 iPhone 與 iPad 上使用,那蘋果是怎麼調查的、怎麼知道喜極而泣笑臉是大家最喜愛的,又是怎麼排名的?最直接的方法,可能是用戶每次使用圖像就紀錄一次,但這涉及隱私,一旦資訊洩漏會產生問題。所以蘋果用了機器學習的方法,取得答案,但絲毫不涉及個人隱私,即使資訊洩漏,也不會知道用戶個別的行為。

   這個方法稱為「差別隱私」(Differential Privacy),從用戶取資料的時候加一層干擾噪音,資料就可能不完全正確,最後把每一用戶加過噪音的資料結合,仍可以了解大方向的走勢,但不涉及任何個人隱私,因為加過噪音干擾的個人資料,無從判斷是否正確。

   蘋果在他們的機器學習期刊舉了一個例子,比如說選前民調,民調服務員打電話問一位選民,投票給 A 候選人,還是投票給 B 候選人,然後紀錄結果。不論服務員問了選民多少個人資訊,如果調查紀錄洩漏或被盜,甚至公開,後果不堪設想。

   如果服務員換一種方式,請選民先擲一枚銅板,如果是正面,就說實話,會投給 A 或投 給 B,如果是反面,那就隨意說 A 或 B,也就是 A 與 B 各有 50%。所以民調人員所聽到的答案,無法斷定是不是實話,但總和起來,可以說答案的 75% 是實話、25% 是謊話(擲銅板正反面的機會各有 50%)。這個方法因為了解噪音的運作,所以仍可宏觀的預測結果,但排除個人隱私的問題。

   差別隱私用在解決特定類別的問題上,不針對個人、針對群體,像是某一族群感染某種疾病的機會,特別有效,在對個人實際情況不確知之下,可以得出對群體在統計上的特質。蘋果的 Emoji 調查就是這麼來的,從願意分享資訊 (Share iPhone Analytics ON) 的用戶取得資料,加上干擾噪音,再隨機取樣加密,送到蘋果伺服器,但不包括硬體識別號碼與收取的時間,所以沒有隱私問題。

   資料加干擾噪音,並沒有一定的規則,上面說的擲銅板只是一個簡單的例子,但關鍵在隨機性,也就是把取得的資料用隨機分布調整,只要在差別上能滿足隱私的預期結果,都是可用方法。不同的結果需用不同的噪音,越是精密設計,越能展現差別隱私的功效。

   別看這些好玩的 Emoji 排名,背後的機制還相當的聰明。

上一篇  下一篇  索引