攝像鏡頭早已與人們的生活密不可分,AI相關的技術也是赫赫有名。但如果有人告訴你,開發者們能使用用電腦或手機上的鏡頭辨識你的臉部情緒,你是會為更多人/機器瞭解你而感到刺激和開心,還是油然而生一種抗拒和不安全感?
反正我是後者。畢竟網路公司或者駭客利用攝影鏡頭獲取使用者隱私的事故,多的足夠寫好多本「科技恐怖故事會」,連起來繞地球幾圈了。
不過,使用者們對被攝影鏡頭「讀臉」這件事如臨大敵,卻並沒有影響科技公司攻克心情辨識技術的一片「初心」。
使用者與攝影鏡頭的對決
最近,影片播放器 Bitmovin 上線了觀眾感知功能。在播放影片的時候,它會打開Webcam,觀察正在看影片的觀眾。透過臉部表情來分析、衡量使用者對廣告內容的情緒反應,如果使用者對產品佈局表現出積極的臉部反應時,就顯示廣告;如果使用者正沉浸在痛苦或不適中,就不顯示特定的廣告。看起來似乎還挺人性化的。
不過,心情辨識技術早就不是什麼新鮮事了。之前 The Sync Project 、emo 就用這種方式來推薦音樂,可口可樂也曾用檢測表情的辦法做過行銷活動。
除了商業用途,還有不少有意思的應用場景。例如卡內基‧梅隆大學的研究人員,就用 IntraFace來進行分心狀態檢測。一旦駕駛員在開車時去哄孩子、接電話等,就會遭到軟體的警告。
那麼,這個神奇的「讀臉」技能究竟是怎麼實現的呢?
簡單來說,就是使用攝影鏡頭,即時監測畫面中人物的臉部位置,蒐集眉、眼、鼻、嘴和臉部輪廓的變化資料,然後透過機器學習訓練出實時更新的算法模型,進而判斷出他們的情緒狀態。
在 Bitmovin的影片感知功能中,系統在完成判斷之後,還會驅動各個功能模組進行動作,例如播放調整、控制廣告等等。
儘管心情辨識技術看起來是如此有用,但似乎很少有人會認為,情緒感知是一個未滿足的需求。
透過很多其他的解決方案或者技術路徑,似乎都可以做到差不多的預測使用者喜好的水準。但因為這樣而迎來一個連表情都被即時監控的世界,實在有點得不償失了。
尤其是商業組織進行「讀臉」,會更強烈地引起不適。
問題的關鍵在於,企業透過攝影鏡頭對使用者的表情進行收集和分析,本質上是一種單向消耗。
只有企業自身從這一個行為上獲得了大量收益,像是推薦更多更精準的廣告,引誘使用者進行消費。
對於使用者而言,網上衝浪的體驗並沒有因此變得更好,甚至可能更糟,又憑什麼要求大家用「臉」買單呢?
攝影鏡頭心理戰,有沒有「雙贏」的解法?
也許這種說法對科技公司來說也有點過於刻薄了。畢竟很多負責任的公司都為此做出了不少的妥協和努力。例如允許使用者選擇在使用應用程式時才能存取相機鏡頭,或者在狀態欄顯示攝影鏡頭活動狀態,在拍照或攝像時發出提示音,有的手機在攝影錄影時鏡頭還會自動升起來……儘管效果看起來都不盡如人意吧,但至少這些公司努力了啊!
要從根源上解決使用者與企業圍繞攝影鏡頭展開的拉鋸戰,讓「讀臉」這件事顯得不那麼冒犯,還是要在消耗使用者和服務使用者之間,找到一個「雙贏」的最優解。
幸好,心情辨識技術的應用範圍非常多,絕不是只有網路世界才可以討論。所以我們不妨思考這樣一個可能性,如果讓現實世界裡的攝影鏡頭具備感知能力,能不能激發更大的想像。答案顯然是值得樂觀的。
最近特別熱門的無人零售,就需要生物辨識來幫助AI系統瞭解消費者。像有些無人超市,就曾推出過情緒行銷,貨架上的攝影鏡頭能夠及時捕捉使用者的表情,並根據情緒幅度,快速計算對商品的偏好程度,進而給予不同的優惠折扣。
在另一類商業場景中,也非常需要能夠看懂表情的攝影鏡頭,那就是線下娛樂。娛樂消費的盈利模式,就是依靠受眾的情緒進行內容變現。透過攝影鏡頭感知使用者的情緒變化,進而調整商品或服務,埋藏著不少讓人驚喜的「彩蛋」。
簡單舉幾個例子,像是鬼屋/密室逃脫等娛樂項目。為了保證玩家在封閉體驗區的安全,攝影鏡頭本來就是標準配備,而透過感知玩家的情緒變化,可以即時回饋來更新遊戲體驗。一些自以為很恐怖,結果大家內心毫無波動還有點想笑的項目,就別拿出來丟人了。
還有,就是電影試映會或分級制,可以透過小規模的觀影活動,借助攝影鏡頭來即時收集真實的觀眾回饋,減少「人情分」「看完忘了」「被網軍洗文章」之類的無效操作。哪些作品比較受大眾喜歡,哪些鏡頭會引起兒童不適,都可以透過情緒辨識進行量化分析,告別無網的決策。
還有就是一些文藝娛樂演出場所,例如國劇、相聲、音樂會、話劇等等,這些劇目最需要觀眾的臨場反應來調整和更新演出內容。但傳統的「人肉統計」顯然有點落後了,攝影鏡頭完全可以代勞。
可以看出,情緒辨識技術的應用場景是多種多樣的,橫亙在豐滿理想和殘酷現實之間的,說到底還是企業與使用者的利益之爭。
要改變「讀臉」人人喊打的現狀,一是讓使用者也能在技術融合中真實受益;二是企業通過應用告知、合理授權、數據脫敏等方式,贏得公眾的信任。
讓攝影鏡頭讀懂喜怒哀樂,或許並不宏大
看到這裡,想必大家已經發現了一個問題——既然鏡頭感知在現實中有諸多用處,為什麼還沒有普及呢?
簡單的說,「讀心術」只是攝影鏡頭進化的第一步,想要大規模應用,情況就複雜地多了,只能先從小地方開始。
1.有限的終端算力。
目前常見的智慧型鏡頭大多還應用在監控、安防之類的基礎工種。要對複雜場景進行多目標的即時辨識和分析,終端算力還無法支持。當然,也可以將影片送到雲端去處理,這樣又會帶來高延遲和資料安全性的問題。因此,心情辨識技術想要大規模應用,還為時過早。
2.跨地域的隱私授權
如今各個地區都在加強隱私建設,以「史上最嚴」的歐盟隱私法案(GDPR)為例,要收集必要的使用者資料之前,必須徵得畫面裡所有使用者的同意,否則將被禁止處理該數據。試想一下,在人流量密集、流動性強的區域去完成這樣的授權工作,幾乎很難被執行。
當然,這些問題正在不斷地被技術和企業們解決。例如集合了雲端運算、邊緣運算、端側運算的一體化部署方案,能解決攝影鏡頭算力不足的難題。而對隱私敏感的使用者指責,則可以通透主動限制釋放「讀臉」技能來規避。例如前面提到的,只在小型場景、知情的情況下進行情緒讀取。
只要面臨「用還是不用」的道德糾結,直接選擇不用,總是更加穩妥。亞馬遜的無人超市Amazon Go,就沒有中國境內人便利店子常見的拍臉環節,使用者只需掃碼就能進入。而店內的100多個攝影鏡頭也只是捕捉身體動作的視覺線索,判斷分區和動線是否合理。
總而言之,攝影鏡頭的心情感知能力,固然可以化「自私」為「雙贏」,但大規模應用還是很遙遠的事情。而且在新的規則完善之前,還是得把它關在籠子裡。
愛,即是克制——這或許是讓人類與攝影鏡頭之間建立信任最快的捷徑。
- 本文授權轉載自腦極體
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!