曾經,攝影是光和影的藝術加上鏡頭和傳感器的技術。但現在隨著運算能力和人工智慧慢慢滲透到這個領域,一些傳統的職業可能就要退出歷史舞台了,像是照相館或是商品攝影,甚至連模特兒都受到了威脅。作者Sai Krishna V. K盤點了運算攝影在各個領域的應用
我們都喜歡有一張好照片。照相館和攝影的歷史可以追溯到第一部照相機誕生的19世紀。最早的攝影工作室利用了畫家的照明技術來創作肖像。在我的國家,印度人會幾代同堂,一起聚集在工作室的燈光下,好拍出一張完美的全家福。從那時起,我們已經走過來一段令人難以置信的漫漫長路。
現如今,那些負責給眾多家庭和個人拍攝全家福和個人肖像的照相館已經全部消失不見了。心高氣傲的模特兒、商業目錄,甚至為了前往西方而進來拍護照證件照的大量家庭,也都幾乎不怎麼光顧了。但具有諷刺意味的是,我們現在點擊的照片比以往任何時候都要多,分享這些照片的頻率也比以往任何時候都要高。
鑑於過去十年技術的變革,這個行業的顛覆並不令人驚訝。這一轉變發展到今天經歷了兩個不同的階段。
第一階段:最好的相機是你口袋裡的那部
當帶著攝影鏡頭的iPhone推出時,其他的製造商都紛紛效仿;這些小型的感應器儘管用處很大,但在產生高品質圖像的能力方面頗為受限。像Instagram這樣的app在初期用濾鏡彌補了相片品質的欠缺,讓這款app廣受歡迎。但是,自從Instagram推出以來,智慧型手機的鏡頭改進的速度非常迅速。讓這款app在早期很熱門的功能變得不再有太大的用處,因為智慧型手機拍攝出來的照片的品質已經得到了大幅度的改善。
為迎合前數位化時代的印度客戶而開設的大多數照相館正在靠借來的時間續命。在世界各地,這些照相館的數量也正在持續減少。自拍時代的照相館注定要變成這樣一家企業,也就是觀看和點閱行為都要朝著一個結果發展——如何讓客戶點一下就能得到一張照片,以及檔案下載到電腦的速度如何。但是,是什麼導致了手機照片的品質取得了顯著提高的呢?
第二階段:運算攝影
2015年,意識到自己在攝影領域已經落後了這麼多之後,Google決定用工程的思維方式加大攻關力度。於是,知名的電腦圖形學研究人員Marc Levoy 接管了Google Research的運算攝影團隊,並評論道:
「軟體定義相機或運算攝影相機的概念是一個很有前途的方向,我認為我們現在才摸到它的一點皮毛。隨著我們從一次只能拍一張的軟體主導的攝影向軟體定義的運算攝影這一新領域轉變,我認為這一領域的有趣才剛剛開始。」
最近攝影領域給人留下最深刻印象的進展發生在軟體和晶片層面,而不是感應器或鏡頭這些東西 ——這在很大程度上要歸功於AI讓鏡頭更好地了解了自己所看到的東西。
如今,至少在開始後製處理之前,手機在某些情況下要比許多專業相機拍出來的照片還要好的情況並不罕見。這是因為在對攝影同樣重要的另一類軟體方面,傳統相機無法與手機競爭:這包括了CPU、圖像訊號處理器以及神經處理單元(NPU)的片上系統。
這種軟體,利用了所謂的運算攝影,這個廣義的術語涵蓋了你對智慧型手機要求的一切,從手機人像模式的「偽」景深效果,到幫助驅動令人驚嘆的AR效果及濾鏡的演算法等。
運算攝影是指利用攝影鏡頭的電腦處理能力,在鏡頭和感應器拍攝成像的基礎上產生一幅增強的圖像。其實攝影中運用電腦並不是什麼新鮮事物。數位時代所有的相機都需要處理能力來產生圖像。甚至在數位化曙光降臨之前,膠卷相機就已經利用了處理器。處理器負責控制類似自動曝光模式、自動對焦以及閃光燈等的功能。大家對運算攝影的潛力已經有一段時間的了解了。但是,近年來,深度學習的進展又讓智慧型手機拍攝打開了新技能。
HDR,散景及防震
到目前為止,這是運算攝影的三個主要組成部分。最近,高亮黑白及夜間模式又加入了這份清單。後者更是充分展示了處理器的處理能力如何在在攝影當中變得越來越重要。
但是運算攝影的機制是怎麼樣的呢?
在過去,攝影師習慣於一種辦法。按下快門,拍一張照片,然後再次按下快門。哪怕是最快的連拍模式也是以類似的方式工作的。那只是連續地拍攝單張照片,直到攝影師釋放快門按鈕為止。
而在運算攝影裡面,當你按下快門時,相機幾乎在同時會拍攝多張圖像。然後,它會即時地將這些圖像處理成一張照片。HDR就是其中最簡單的一種,而且出現已經有一段時間了。相機會拍攝5、6張圖像然後馬上合併。
不過,只要看看散景就能看出現代的智慧型手機功能是多麼的強大。基於物理的攝影中要做到散景需要大感應器和大光圈,至少具有中等焦距的強光透鏡。顯然,用手機實體的硬體幾乎是不可能做到的。
為了解決這個問題,智慧型手機會拍攝多張圖像,然後讓每張圖像只專注於特定的技術細節。比方說,可能需要分別拍攝來控制曝光、焦點、色調、高光、陰影以及人臉辨識的圖像。然後再將這些圖像合併,分析每個鏡頭裡面的所有資料,讓將主體從背景中遮蓋掉。然後它會幫背景加入模糊效果來模擬散景。所有這些都是即時完成的。
夜間模式和高色調濾鏡也利用類似的處理器密集型技術。而且這些實際上還只是個開始。這些同樣適用於影片領域。只需回顧一下過去幾年的影片功能就知道這一點。不久以前,靜態相機的標準影片格式還是1080p/24fps。而現在,大多數的新相機/攝影鏡頭都支持60fps的速度拍攝4k影像,而且很快就會突破120fps乃至240fps的里程碑。這是處理能力在短短幾年之內獲得巨大飛躍的結果。
現在,這種量子躍遷有望在另一個行業中流行起來,導致該行業可能會像人像照相館一樣走向滅絕。
電子商務攝影
攝影工作室之間差別很大。有的很小,就那麼1個人或幾個人。有的就很大,多達數百名員工。一些工作室處理完從交付、運輸到行銷的一切,而有的工作室會將這些需求外包出去。所有工作室多多少少都需要這些資源,但是獲取資源的方式往往會有所不同。一般而言,攝影工作室會有:
- 攝影工作室工作人員:讓產品活靈活現的創意人員
- 一間適當的工作室:主要的藝術空間
- 化妝和衣櫥
- 暗房
- 道具室
- 平面設計空間
- 陳列室
- 物流部門:負責運輸和接收產品
- 在網上賣東西要有出色的形象。
為什麼?因為圖像有助於建立信心並幫助轉化更多的客戶,而且圖像是樹立買家信心的主要來源。鑑於圖像對於網上銷售的重要性,企業會不遺餘力地投入大量精力用於產品攝影的過程。但是,這個過程可能會很折磨人:
產品攝影幾十年來基本沒怎麼變。這意味著存在高成本、規模有限、工作流程脆弱等可觀的瓶頸。比方說,如果你的企業或製造商決定變更產品詳情或更換新的顏色,就得重複這整個過程。
點擊算繪(Hit Render)
透過利用3D軟體,品牌商現在不需要靠實際的拍攝就可以靠算繪來產生引人注目的視覺效果。雖然這可以突破產品拍攝的眾多傳統瓶頸,但3D算繪需要進行精細的建模,設置虛擬場景以及圖像產生,這通常被稱為「生活方式攝影」(lifestyle shots)。
GPT-3 (及iGPT)
由馬斯克、Sam Altman、Greg Brockman以及機器學習領域的其他領袖共同創立的AI研究基金會OpenAI,最近推出一個API和網站,讓大家可以連結一種叫做GPT-3的新型語言模型。在若干領域,GPT-3可謂一項真正的突破性技術。
GPT-3在本質上是基於上下文的產生式AI。這意味著,當賦予AI某種上下文時,它會嘗試著完成其餘部分。比方說,如果給它提供腳本的前半部分,它會繼續執行腳本。給它一篇論文的前半部分,它會產生論文的其餘部分。——Delian Asparouhov
今天的GPT-3是一種文本產生的機器學習模型。只要提供部分跟你想要產生的東西相關的文本,它就會補充剩餘部分。
機器學習模型讓你可以以史為鑑,基於過去的數據進行預測,而產生(創建文本)則是預測東西的一個特殊案例。GPT-3模型只需要透過少量的學習就能完成訓練,這種實驗方法似乎在語言模型中展出出了有希望的結果。GPT-3的出色表現引起了眾多關注——它可以產生整篇已發表的文章、詩歌以及創造性寫作,甚至還可以產生程式碼。
大家對GPT-3的興奮主要集中在文本或書面內容上。Open AI正在探索將這種少樣本學習系統應用到圖像上,希望弄清楚將部分圖像作為輸入提供給同樣的演算法時會發生什麼情況。
OpenAI的研究人員決定把單詞換成像素,並用ImageNet (最受歡迎的用於深度學習的圖像庫)裡面的圖像來訓練同樣的演算法。因為這一演算法在設計上處理的是一維數據(也就是文本字符串),所以他們需要把圖像展開成一個像素序列。他們發現這個叫做iGPT的新模型仍然能夠理解視覺世界的二維結構。只要給出圖像上半部分的像素序列,它就可以預測下半部分,而且讓人覺得合情合理。
這個結果令人震驚,並展示了一條在電腦視覺系統開發中利用無監督學習的新途徑,可以對未標記的數據進行訓練
歷史總是不斷地重演——問題是,大多數人總是抱殘守缺,直到為時已晚。這符合經典的顛覆性理論,GPT-3有望顛覆很多的領域,比方說web開發、使用者輔助設計,以及現在的產品攝影(Product Photoshoot) 。
整合光學雷達的智慧型手機
實現基於AI的產品攝影這一進程很大一部分是要產生產品的3D文件。這個問題可以用自下而上的方式解決,從製造商對3D進行更好的標準化,到更有趣的一點,內建LiDAR感應器到便攜設備上。蘋果最新的iPad Pro已經內建了,你的下一部手機可能也會這樣。
雖然僅靠來自LiDAR 感應器的數據不夠精確,沒法產生高保真的3D模型,但該領域正在迅速改進,而深度學習模型也在不斷改善。
一開始的時候,AI能夠從照片產生出深度數據訊息。此後,最先進的機器學習演算法可以從照片中提取出二維對象,然後忠實地算繪成3D。這是一種適用於擴增實境app,機器人以及導航的技術,所以也成為了Facebook迫切想要研究的領域。
「我們的研究建立在最近取得的進展基礎上,包括利用深度學習預測和定位圖像裡面的對象,以及用於理解3D形狀的新工具和體系結構(比如立體像素,點雲(point cloud)以及mesh網格)等。在提高AI系統能力,使之進一步理解、解釋現實世界,並在此環境下操作方面,3D理解將會發揮核心作用。」
這使得在不久的將來智慧型手機或平板電腦就可以產生高品質的3D對象。一旦產生後,產品可視化的可能性就會大大提高,比方說真實感圖像算繪。
真實感圖像算繪
數位化設計正在成為這個行業的一個重要槓桿。數位化設計讓品牌可以快速、遠程地設計商品;一旦被創建出來,3D資產,也就是產品3D逼真的數字模型,可以應用於無數種情況,從製作行銷材料,虛擬展廳,到面向客戶的電子商務頁面以及擴增實境體驗等都可以。數位供應鏈也被看作是減少浪費、提高生產效率的一種手段,對於致力於降低成本的同時提高可持續發展能力的公司來說,這是一種雙贏。
借助iGPT 和3D模型等技術的進展,給產品拍照這活兒人工智慧就可以接管,而且能夠產生令人驚嘆的產品圖像。這種做法相對於實際拍攝,要更快、更便宜、更靈活。
有了3D模型之後,你就可以把它隨意放置到不同的虛擬背景裡面,做出看起來很有吸引力的算繪。那這有什麼好處呢?
- 個性化:你看到的產品算繪可能跟我看到的同一產品的算繪完全不一樣
- 雲規模:可以同時算繪成百上千(哪怕不是成千上萬)的產品和圖像,而不用像實際拍攝那樣每次都要對拍攝空間進行整理
- 快速:從產品到3D模型到算繪幾乎是一瞬間的事情
- 靈活:生產層面對產品進行的任何更改都可以反映在3D訊息裡面,並且產品可以在幾分鐘內完成算繪
- 成本:比傳統拍攝便宜很多
- 自動化:AI可以啟動整個算繪流程並對其進行自動化
- 創意管理:不需要創意的中間人,就可以按照品牌的生活方式形象進行調整
品牌可以根據網站訪問者是誰對圖像進行即時調整。還可以對圖像按目標細分進行表現測試,視覺效果最好的就可以加倍下注,套用到其餘產品類別上,又不用增加成本。
做個AI來對產品攝影進行算繪
我們現在正在進行實驗,希望將所有這些元素結合在一起。透過捕捉3D資產並對其進行建模,我們希望能夠開發出一個有AI輔助的工作流,以便對產品的生活方式圖像進行風格化。
產生程式碼段似乎已經在用ThreeJS 和WebGL 創建聲明式3D場景當中展現出來用途。我們可以擴展這個想法,幫助對一組被描述的元素,其參數進行聲明,然後利用提供的訊息馬上進行算繪:
就目前而言,這一過程仍然需要大量的人力,並且僅適用於預設的場景,而不是完全的產生場景。但是,經過幾次嘗試之後,我們看到了一些有希望的結果:
上述照片都不是實際拍攝,而是全部透過AI算繪出來的。當然,這仍然需要手動操作,並且過程中仍需要人員協助。不過,經過進一步完善之後,從數位化為3D,產生逼真生活方式照片到支持擴增實境的一系列過程就可以直接在智慧型手機上面實現。
雖然現在還為時尚早,但是產品運算攝影領域正在快速發展,通過它可以實現一整套的沉浸式體驗。
而且運算攝影並不止步於產品,還可以用到人身上。想想看,如果AI也可以給人來建模的話會怎樣?
AI產生模特兒
這個行業的第三個大規模變革有可能是AI產生模特兒的興起,這會對時尚攝影造成極大衝擊。
這一行典型的拍照過程中牽涉到模特兒、攝影師、造型師、髮型師、化妝師、交通、影樓租賃、攝影器材、3C技術,還有後期製作等各種成本。在5%的情況下要進行重新拍攝,這意味著所有的成本要再支付一遍。
另一個成本就是浪費掉的時間——拍照很慢。完成整個過程到最後上傳圖像到網站可能需要好幾週(甚至數月)的時間。這意味著零售商損失了銷售時間。從採購產品到實際投放上網站之間相隔甚久,導致在此期間零售商的潛在銷售成本增加。
降低照片拍攝成本是真切的需求。就像許多高成本活動和可持續性的困境一樣,可以用技術來優化產品圖片的製作過程。
由AI驅動的Intelligent Retail Automation(智慧零售自動化)擁有多種解決方案,可優化整個零售供應鏈的流程、工作流以及體驗。Automated On-Model Fashion Imagery(自動化給模特兒穿時裝)則是產品圖像創作改善效能減少拍攝成本的答案。
數位模特兒和網紅正全方位地滲透到時尚界。有些甚至已經跟傳統的模特兒經紀公司簽約了。就拿19歲的巴西裔模特兒,網紅,現為音樂家的Lil Miquela來說吧,它在Instagram上已擁有超過200萬的忠實粉絲了。
現在的Lil Miquela是個電腦產生圖像(CGI),而不是人工智慧(AI)。這意味著,Miquela 或類似的角色本身是不能做任何事情的。它們無法自行獨立思考、學習或擺出不同的姿勢。但這種情況不會持續太久了。
iGPT 方法提出了一個創建deepfake(深度偽造)圖像的新辦法。產生對抗網路,用來創建深度偽造最常見的演算法,必須用經過精心挑選的數據進行訓練才能有效。比方說,如果你想讓GAN產生人臉,那它的訓練數據就應該只包含人臉。相比之下,iGPT 只需要從數以十億計的樣本裡面學習到足夠多的視覺世界的結構,就能夠輸出其中可能存在的圖像。
結論
這對於原有的產品攝影工作室和人體模特兒來說意味著什麼呢?可以肯定的是,就像其他許多行業一樣,這個領域也必須為不斷變化的勞動力做好準備。模特兒也得練習適應性和創造性智慧等技能,這樣確保我們能承受住向數位化的轉變。
不過到頭來,GPT-3仍然只是語言預測器。它不會「思考」,也沒有自己的「思想」。它只能根據收到的輸入產生內容。所以,雖說GPT-3沒法回答非常難搞的系列問題,但它可以消除對日常工作的需求,比方說產生相同設計的變體或基於通用3D算繪原理創建簡單的產品圖片。產品攝影行業建立在重複、耗時、技術複雜的步驟上,但這些步驟今後可以大為加快,而從讓藝術家或創作者騰出更多的時間用於藝術創作上面。
人類本質上是靠視覺驅動的。而人工智慧正在幫助我們產生視覺訊號,而且做出來的東西變得更加令人信服。這篇文章也許不是GPT-3和iGPT寫的,也未必就能自行算繪視覺效果,但是距離它們完全具備這些能力的日子並不遠了。
- 資料來源:The Death of the Photo Studio
- 本文授權轉載自36Kr
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!