利用鏡頭「讀臉」的心情辨識，在便利和隱私之間能找到雙贏的方法嗎？

攝像鏡頭早已與人們的生活密不可分，AI相關的技術也是赫赫有名。但如果有人告訴你，開發者們能使用用電腦或手機上的鏡頭辨識你的臉部情緒，你是會為更多人/機器瞭解你而感到刺激和開心，還是油然而生一種抗拒和不安全感？

反正我是後者。畢竟網路公司或者駭客利用攝影鏡頭獲取使用者隱私的事故，多的足夠寫好多本「科技恐怖故事會」，連起來繞地球幾圈了。

不過，使用者們對被攝影鏡頭「讀臉」這件事如臨大敵，卻並沒有影響科技公司攻克心情辨識技術的一片「初心」。

使用者與攝影鏡頭的對決

最近，影片播放器 Bitmovin 上線了觀眾感知功能。在播放影片的時候，它會打開Webcam，觀察正在看影片的觀眾。透過臉部表情來分析、衡量使用者對廣告內容的情緒反應，如果使用者對產品佈局表現出積極的臉部反應時，就顯示廣告；如果使用者正沉浸在痛苦或不適中，就不顯示特定的廣告。看起來似乎還挺人性化的。

不過，心情辨識技術早就不是什麼新鮮事了。之前 The Sync Project 、emo 就用這種方式來推薦音樂，可口可樂也曾用檢測表情的辦法做過行銷活動。

除了商業用途，還有不少有意思的應用場景。例如卡內基‧梅隆大學的研究人員，就用 IntraFace來進行分心狀態檢測。一旦駕駛員在開車時去哄孩子、接電話等，就會遭到軟體的警告。

那麼，這個神奇的「讀臉」技能究竟是怎麼實現的呢？

簡單來說，就是使用攝影鏡頭，即時監測畫面中人物的臉部位置，蒐集眉、眼、鼻、嘴和臉部輪廓的變化資料，然後透過機器學習訓練出實時更新的算法模型，進而判斷出他們的情緒狀態。

在 Bitmovin的影片感知功能中，系統在完成判斷之後，還會驅動各個功能模組進行動作，例如播放調整、控制廣告等等。

儘管心情辨識技術看起來是如此有用，但似乎很少有人會認為，情緒感知是一個未滿足的需求。

透過很多其他的解決方案或者技術路徑，似乎都可以做到差不多的預測使用者喜好的水準。但因為這樣而迎來一個連表情都被即時監控的世界，實在有點得不償失了。

尤其是商業組織進行「讀臉」，會更強烈地引起不適。

問題的關鍵在於，企業透過攝影鏡頭對使用者的表情進行收集和分析，本質上是一種單向消耗。

只有企業自身從這一個行為上獲得了大量收益，像是推薦更多更精準的廣告，引誘使用者進行消費。

對於使用者而言，網上衝浪的體驗並沒有因此變得更好，甚至可能更糟，又憑什麼要求大家用「臉」買單呢？

攝影鏡頭心理戰，有沒有「雙贏」的解法？

也許這種說法對科技公司來說也有點過於刻薄了。畢竟很多負責任的公司都為此做出了不少的妥協和努力。例如允許使用者選擇在使用應用程式時才能存取相機鏡頭，或者在狀態欄顯示攝影鏡頭活動狀態，在拍照或攝像時發出提示音，有的手機在攝影錄影時鏡頭還會自動升起來……儘管效果看起來都不盡如人意吧，但至少這些公司努力了啊！

要從根源上解決使用者與企業圍繞攝影鏡頭展開的拉鋸戰，讓「讀臉」這件事顯得不那麼冒犯，還是要在消耗使用者和服務使用者之間，找到一個「雙贏」的最優解。

幸好，心情辨識技術的應用範圍非常多，絕不是只有網路世界才可以討論。所以我們不妨思考這樣一個可能性，如果讓現實世界裡的攝影鏡頭具備感知能力，能不能激發更大的想像。答案顯然是值得樂觀的。

最近特別熱門的無人零售，就需要生物辨識來幫助AI系統瞭解消費者。像有些無人超市，就曾推出過情緒行銷，貨架上的攝影鏡頭能夠及時捕捉使用者的表情，並根據情緒幅度，快速計算對商品的偏好程度，進而給予不同的優惠折扣。

在另一類商業場景中，也非常需要能夠看懂表情的攝影鏡頭，那就是線下娛樂。娛樂消費的盈利模式，就是依靠受眾的情緒進行內容變現。透過攝影鏡頭感知使用者的情緒變化，進而調整商品或服務，埋藏著不少讓人驚喜的「彩蛋」。

簡單舉幾個例子，像是鬼屋/密室逃脫等娛樂項目。為了保證玩家在封閉體驗區的安全，攝影鏡頭本來就是標準配備，而透過感知玩家的情緒變化，可以即時回饋來更新遊戲體驗。一些自以為很恐怖，結果大家內心毫無波動還有點想笑的項目，就別拿出來丟人了。

還有，就是電影試映會或分級制，可以透過小規模的觀影活動，借助攝影鏡頭來即時收集真實的觀眾回饋，減少「人情分」「看完忘了」「被網軍洗文章」之類的無效操作。哪些作品比較受大眾喜歡，哪些鏡頭會引起兒童不適，都可以透過情緒辨識進行量化分析，告別無網的決策。

還有就是一些文藝娛樂演出場所，例如國劇、相聲、音樂會、話劇等等，這些劇目最需要觀眾的臨場反應來調整和更新演出內容。但傳統的「人肉統計」顯然有點落後了，攝影鏡頭完全可以代勞。

可以看出，情緒辨識技術的應用場景是多種多樣的，橫亙在豐滿理想和殘酷現實之間的，說到底還是企業與使用者的利益之爭。

要改變「讀臉」人人喊打的現狀，一是讓使用者也能在技術融合中真實受益；二是企業通過應用告知、合理授權、數據脫敏等方式，贏得公眾的信任。

讓攝影鏡頭讀懂喜怒哀樂，或許並不宏大

看到這裡，想必大家已經發現了一個問題——既然鏡頭感知在現實中有諸多用處，為什麼還沒有普及呢？

簡單的說，「讀心術」只是攝影鏡頭進化的第一步，想要大規模應用，情況就複雜地多了，只能先從小地方開始。

1.有限的終端算力。

目前常見的智慧型鏡頭大多還應用在監控、安防之類的基礎工種。要對複雜場景進行多目標的即時辨識和分析，終端算力還無法支持。當然，也可以將影片送到雲端去處理，這樣又會帶來高延遲和資料安全性的問題。因此，心情辨識技術想要大規模應用，還為時過早。

2.跨地域的隱私授權

如今各個地區都在加強隱私建設，以「史上最嚴」的歐盟隱私法案（GDPR）為例，要收集必要的使用者資料之前，必須徵得畫面裡所有使用者的同意，否則將被禁止處理該數據。試想一下，在人流量密集、流動性強的區域去完成這樣的授權工作，幾乎很難被執行。

當然，這些問題正在不斷地被技術和企業們解決。例如集合了雲端運算、邊緣運算、端側運算的一體化部署方案，能解決攝影鏡頭算力不足的難題。而對隱私敏感的使用者指責，則可以通透主動限制釋放「讀臉」技能來規避。例如前面提到的，只在小型場景、知情的情況下進行情緒讀取。

只要面臨「用還是不用」的道德糾結，直接選擇不用，總是更加穩妥。亞馬遜的無人超市Amazon Go，就沒有中國境內人便利店子常見的拍臉環節，使用者只需掃碼就能進入。而店內的100多個攝影鏡頭也只是捕捉身體動作的視覺線索，判斷分區和動線是否合理。

總而言之，攝影鏡頭的心情感知能力，固然可以化「自私」為「雙贏」，但大規模應用還是很遙遠的事情。而且在新的規則完善之前，還是得把它關在籠子裡。

愛，即是克制——這或許是讓人類與攝影鏡頭之間建立信任最快的捷徑。

本文授權轉載自腦極體