說到特效玩法,抖音的 「整活兒」 能力一直有目共睹。最近,風頭正勁的是一款「卡通臉」特效。無論男女老少,用上這款特效後,都彷彿從迪士尼動畫裡走出來的人物一樣靈動可愛。 「卡通臉」一經上線,在抖音上迅速發酵,深受用戶喜愛,「一鍵變身高甜卡通臉」「全抖音的在逃公主都來了」「用卡通臉花式曬娃」「王子公主撒糖手勢舞」「捕捉童話魔法失靈瞬間」 等相關熱點不斷衍生,其中,「全抖音的在逃公主都來了」「捕捉童話魔法失靈瞬間」 更是登上了抖音全國熱點榜。目前,這項特效的使用人數已經超過 900w。
「卡通臉」屬於3D 風格特效,這類特效的研發難點主要集中在多樣性的CG 訓練資料不易取得、靈動的表情神態難以還原、真實貼合的立體膚質光影難以實現、誇張強風格的五官形變GAN 不易學習等多個面向。對此,位元組跳動智慧創作團隊在 3D 風格化方向重點突破優化,不僅解決了上述所有難題,還沉澱了一套通用的技術解決方案。
過去,一個完整的3D 風格化研發流程分為以下幾個模組:
蒐集若干原始風格圖片-> 訓練StyleGan 大模型-> 產生成對資料-> 人工挑選可用成對資料設計師P 圖最佳化-> 訓練p2p 小模型,然後不停重複。
傳統的研發流程的問題非常明顯:迭代週期長,設計師可參與度弱,且不易於沉澱和復用。
在「卡通臉」這個特效的研發中,位元組跳動智慧創作團隊採用了創新的研發流程:
從設計師製作目標風格效果開始,設計師依照演算法約定的要求提供一些3D美術素材,然後位元組跳動智慧創作團隊借助DCC軟體批量渲染若干多樣性的CG數據,在渲染過程中技術團隊首次引入時下最火的AIGC技術對數據做了增強處理,之後用GAN合成訓練所需的成對數據,最後採用自研的形變pix2pix模型訓練就可以得到最終效果。
################################## #########從流程連結可以看出,這個方法大大縮減了迭代周期,提高了自動化程度,也讓設計師有更高的參與度,實踐顯示,創新的工程鏈路將迭代週期從6 個月縮減至1 個月,方案也更容易沉澱和重複使用。 #########「卡通臉」特效是怎麼設計出來的#########如今在社群媒體上有越來越多的變身特效,人們越來越注重特效的美觀與精確度,為了讓使用者更能實現風格化變身的效果,抖音特效的設計師們經過精心研究,結合了熱門動畫畫風,創新地設計了一套卡通臉特效,讓用戶可以體驗到動畫般靈活的角色風格,同時滿足了使用者的變美變帥需求。 ######
抖音特效設計師針對目前市場上現有的變身特效進行了深入研究,發現現有的特效存在風格不夠吸引人、表情誇張度不足、燈光效果不夠真實等問題。因此,抖音特效設計師結合國內美學,重新設計了卡通臉的畫風,將男女面部比例特徵誇張化,重構成可愛圓臉五官靈巧的 “女孩” 和硬朗長臉五官帥氣的 “男生”。在這過程中,設計師保留了使用者本身的頭髮,增強了頭髮的蓬鬆感及光澤度,使其與卡通臉的融合更加自然,卡通質感的皮膚也融入了用戶本人皮膚的細節,使特效更具有使用者的個性特徵。
此外,抖音特效的設計師也定義了不同燈光下的光影質感,滿足複雜場景下的燈光還原的需求,使卡通臉更加立體且自然,融入日常自拍無違和感。最後,設計師也製作了誇張符號化的面部表情,透過對數位人資產採用臉部捕捉技術生成表情 CG 數據,不斷完善訓練數據和演算法,產出了能夠更加靈活展現用戶個性的表情效果。
3D 風格類特效的訓練資料來源依賴高品質的CG 渲染數據,且對資料分佈的多樣性要求比較高,同時3D 資產手動建模也是一個非常耗費人力的過程,可復用性也不足,往往一個專案花費了昂貴的人力時間成本製作了一批3D 資產,在專案結束後就完全廢棄了。
這一次,位元組跳動智慧創作團隊建立了一套通用易擴展的 CG 合成資料工作流程。
#位元組跳動智慧創作團隊CG 合成資料流的流程圖
這一合成資料流的工作流程如下:
1. 透過Houdini 程式化的產生數位資產,程式化捏臉,綁骨,調整權重等,建立真實感數位人模型資產庫。
多樣性3D 數位資產
2. 透過Houdini 的Solaris 建立USD 模板,將頭髮,毛髮,頭模,服飾,表情係數等資產分別以USD reference 導入。
「皮膚貼圖樣本
虹膜貼圖樣本
#3. 透過Houdini 的PDG 對資產,相機角度,燈光環境等進行隨機組合。利用 PDG 對 workitem 的控制,精準的控制資料分佈。 ############################## 自動化的PDG 節點圖#########################自動化的PDG 節點圖###############由於研發過程需要頻繁提供大量的渲染資料用於效果迭代,這需要花費大量算力成本以及渲染等待時間。先前,在抖音的「魔法變身」特效上,團隊曾花費了數百萬成本使用外部農場進行資料渲染。而在「卡通臉」特效上,團隊基於位元組跳動旗下雲端平台火山引擎紮實的基礎設施,大大降低了算力成本。 ######
位元組跳動智慧創作團隊參考影視產業的流程,建構了一套自研的渲染農場平台。它可以將離線任務拆解到若干個渲染機器上進行平行處理。透過火山引擎鏡像平台進行鏡像託管、資源池化平台進行資源申請與釋放、cpu/gpu 叢集進行容器動態擴縮容,再使用nas 進行資產管理,渲染農場具備了一鍵擴充數千個渲染節點進行高效計算的能力。
基於此,位元組跳動智慧創作團隊自訂了單一任務處理邏輯,包括前處理、引擎渲染、後處理等步驟。並根據需要,在任何時候動態擴展 / 縮小集群規模以最大化利用算力資源。
為了進一步提高效率,讓設計師更方便參與到效果優化中,技術團隊也製作了飛書小程式供設計師使用,透過飛書觸發雲端的自動化流程來迭代美術效果,在雲端任務完成後,會發送訊息回到飛書供設計師查看,大大提高了設計師工作的效率。
同時,位元組跳動智慧創作團隊自訂了事件驅動(EventTrigger)和Api 來打通農場、飛書平台以及雲端桌面平台,最大程度推進All in one 理念,讓設計師和工程師都能基於飛書和雲端桌面更方便地完成協同研發。
#自研的渲染農場平台
隨著DALL・E 的問世,2021 年初位元組跳動智慧創作團隊就開始了相關技術的跟進與規劃,位元組跳動智慧創作團隊在Stable Diffusion 開源模型的基礎上,建構了資料量達十億規模的資料集,訓練出兩個模型,一個是通用型的模型Diffusion Model,可以產生如油畫、水墨畫風格的圖片;另外一個是動漫風格的Diffusion Model 模型。
前不久,由位元組跳動智慧創作團隊支援的「AI 繪畫」特效在抖音上大火,採用的就是這項新技術。這次在抖音「卡通臉」上,技術團隊進一步挖掘Diffusion Model 在3D 卡通風格上的生成能力,採用了圖片生成圖片的策略,首先對圖片進行加噪,然後再用訓練好的文生圖模型在文字的引導下去雜訊。基於一個預先訓練好的Stable Diffusion 模型,輸入GAN 產生的與真人圖相匹配的目標3D 風格結果圖,透過精調過的一組文字關鍵字,引導目標風格往期望的方向靠近,Stable Diffusion 輸出的結果即作為最終資料交給後續的GAN 模型學習。
由於抖音「卡通臉」的目標風格與原始人像相比有較大形變,直接用傳統p2p 框架難以訓練出高品質效果,位元組跳動智慧創作團隊自研了一套p2p 形變GAN 訓練框架,對於訓練大形變、強風格的卡通目標有很好的效果。位元組跳動智慧創作團隊自研的形變 GAN 訓練框架包含兩個部分:
1、風格化初步訓練,提取卡通臉風格化資訊。技術團隊建立了一個風格化資訊互動融合的非配對訓練框架,將真人和卡通臉資料集輸入到該框架就可以提取卡通臉風格化資訊。該框架是一個端到端的訓練框架,包含了風格化特徵編碼、特徵融合、重建訓練和風格化初步訓練,訓練完成後得到一個卡通臉風格化信息,用於下一步精細化訓練。
2、融合卡通臉風格化訊息,精細訓練。第一步得到的卡通臉風格化訊息包含了風格和形變等訊息,將這部分訊息融合到真人圖進行精細化訓練,利用p2p 相關的強監督loss 進行配對訓練,訓練收斂後得到卡通臉模型。
基於上述創新的技術方案,抖音「卡通臉」不僅簡化了工程連結、大幅提升迭代效率,還在大角度、表情豐富度、效果風格還原、光影一致性和多膚色匹配等方面取得了明顯的最佳化效果。據了解,負責「卡通臉」專案的位元組跳動智慧創作團隊自 2021 年以來就在 3D 風格化方向重點突破優化,該技術方案已支援多款 3D 風格特效取得平台爆款的成績。
關於位元組跳動智慧創作團隊:
智慧創作團隊是位元組跳動AI & 多媒體技術中台,透過建立領先的電腦視覺、影音編輯、特效處理等技術,支援抖音、剪映、頭條等公司內眾多產品線;同時透過火山引擎為外部ToB 合作夥伴提供業界前沿的智慧創作能力與行業解決方案。
以上是抖音超900萬人在用的「卡通臉」特效技術揭秘的詳細內容。更多資訊請關注PHP中文網其他相關文章!