最近幾年人工智慧技術有著大幅成長，許多應用也如雨後春筍般冒出，能夠自動判斷錄影時機的Google Clips攝影機，就是在人工智慧與機械學習的協助下，讓演算法能夠辨識鏡頭下的人、微笑、寵物、日落、地標等景色，但演算法如何進一步判斷攝影時機，仍是個艱困的挑戰。

透過真人進行評分

Google Clips是款不需額外操作，就能自動判斷錄影時機的攝影機，其設計理念具有3大要點，首先開發團隊希望所有的運算能在Clips上完成，並保有長效的電池續航力與降低攝影延遲，這樣的優點是不需上傳任何資料到伺服器，不但更能保障使用者隱私，也能在沒有網路連線的環境使用。

再者開發團隊將產品規劃以拍攝短片為主，而非靜態照片，不但有助於記錄歡樂時光的氛圍，也能透過較長的影片彌補單張照片不易抓到完美時機的缺陷。最後，Clips只專注於透過內容的趣味性判斷錄影的起迄時間，並不需要考慮構圖、光線、色調等攝影技巧。

接下來的問題，就是如何訓練Clips的演算法，讓它知道怎麼樣的場景是有趣的。如同一般機械學習的方式，開發團隊首先著手於建立由數千部不同主題影片構成的資料庫，並讓攝影與影片剪輯專家評定影片的優劣，讓演算法能夠作為衡量影片趣味的素材。然而這樣又會產生新的問題，那就是我們該如何將影片有系統、平順地從0~100分的範圍中評分。

為了解決這個問題，開發團隊準備了第二套資料庫，他們將影片切割為許多片段，隨機挑選2筆片段，詢問受測者（人類）他們比較喜歡哪筆。讓受測者以這種「2選1」的方式進行評定，比直接為影片定出分數容易許多，而且受測者給予的答案也相當接近，當分析了從1,000支影片中切出的5,000萬筆片段「2選1」數據後，就能透過計算的方式得到整部影片（而非片段）的分數。（對，數字沒錯。靠人類分析5,000萬筆片段是件相當累人的工作）

▲ Clips是款輕巧並搭載人工智慧的攝影機。（圖片來源：Google，標題圖亦同）

▲ 開發團隊準讓受測者觀看隨機挑選的2筆片段，讓他們判斷哪筆比較有吸引人。（圖片來源：Google AI Blog，下同）

▲ 在收集大量資料後，就可以推算出整部影片的分數。

將資料庫交給類神經網路

有了評分的資料後，接下來開發團隊要定義出「影片有趣的原因」，於是他們假設影片中如人物、動物、樹木……等景物可能是吸引人的元素，並從Google圖像資料庫超過27,000筆不同的標籤中挑選數百種重要的標籤，用於辨識影片中的景物。

再使用伺服器級的電腦進行訓練過後，開發團隊為運算效能有限的裝置打造了較小巧的MobileNet Image Content Model演算法模型，並挑選更為關鍵的標籤，以利將運算能力集中於刀口上。

訓練的最後一步，就是將Image Content Model演算法模型計算出的數據，與人類評定的分數互相比較，如此一來演算法就知道哪些特徵是人類覺得有趣的部分。如此一來在未來的操作過程中，即便畫面中的景物從未出現於訓練資料中，但系統仍然可以判斷哪些是人類覺得有趣的部分，進而自行判斷最佳拍攝時機。

▲ Image Content Model演算法模型可以計算每張畫格的分數，並經分段式線性回歸（Piecewise Linear Regression）後取平均，就可以統計出影片的「趣味分數」。

開發團隊也提到，由於Clips並不像自走車那類的裝置具有移動能力，需要使用者擺放於特定位置或是配戴於身上，因此「橋角度」還需依賴使用者的人肉智慧。

Google Clips攝影機 + AI = 自動判斷有趣的錄影時機

透過真人進行評分

將資料庫交給類神經網路

加入電腦王LINE帳號