機(jī)器之心報(bào)道
編輯:澤南、張倩
打開(kāi)一個(gè)數(shù)字人,里面全是生成式 AI。
9 月 23 日晚,杭州亞運(yùn)會(huì)開(kāi)幕式點(diǎn)燃主火炬的環(huán)節(jié),上億線上數(shù)字火炬手的「小火苗」匯聚在錢(qián)塘江上形成一個(gè)數(shù)字人形象。隨后,數(shù)字人火炬手和現(xiàn)場(chǎng)的第六棒火炬手走到火炬臺(tái)前,共同點(diǎn)燃了主火炬。
作為開(kāi)幕式的核心創(chuàng)意,數(shù)實(shí)互聯(lián)的火炬點(diǎn)燃形式?jīng)_上了熱搜,引發(fā)了人們的重點(diǎn)關(guān)注。
上億人參與的數(shù)字人點(diǎn)火是一個(gè)前所未有的創(chuàng)舉,涉及了大量先進(jìn)且復(fù)雜的技術(shù),其中最重要的莫過(guò)于如何讓數(shù)字人「動(dòng)起來(lái)」。不難看出,在生成式 AI 與大模型迅速發(fā)展,數(shù)字人研究也出現(xiàn)了更多新變化。
在 10 月初即將舉行的全球計(jì)算機(jī)視覺(jué)頂會(huì) ICCV 2023 上,我們關(guān)注到一篇生成 3D 數(shù)字人運(yùn)動(dòng)研究被大會(huì)收錄。相關(guān)論文題為《Hierarchical Generation of Human-Object Interactions with Diffusion Probabilistic Models》,由浙江大學(xué)、螞蟻集團(tuán)聯(lián)合發(fā)布。
據(jù)介紹,這項(xiàng)研究一定程度上解決了數(shù)字人遠(yuǎn)距離合成復(fù)雜運(yùn)動(dòng)的問(wèn)題,能做到原有模型或路徑規(guī)劃無(wú)法實(shí)現(xiàn)的效果。數(shù)字人驅(qū)動(dòng)相關(guān)的技術(shù),也被用在了亞運(yùn)會(huì) 1 億數(shù)字人線上傳遞。
生成式 AI 驅(qū)動(dòng),讓數(shù)字人動(dòng)起來(lái)
很多時(shí)候,我們需要在給定的 3D 場(chǎng)景中合成 3D 人體運(yùn)動(dòng),使虛擬人能夠自然地在場(chǎng)景中漫步并與物體交互,這種效果在 AR/VR、電影制作和視頻游戲中都存在多種應(yīng)用。
在這里,傳統(tǒng)的角色控制運(yùn)動(dòng)生成方法旨在由用戶的控制信號(hào)引導(dǎo)生成短期或重復(fù)的運(yùn)動(dòng),新研究則專(zhuān)注于在給定起始位置和目標(biāo)對(duì)象模型的情況下生成更加長(zhǎng)時(shí)間的人機(jī)交互內(nèi)容。
這種思路雖然效果更好,但顯然挑戰(zhàn)更大。首先,人與物體的交互應(yīng)該是連貫的,這需要對(duì)人與物體之間的遠(yuǎn)程交互進(jìn)行建模的能力。其次,在內(nèi)容生成的背景下,生成模型應(yīng)該能夠合成大小不同的運(yùn)動(dòng),因?yàn)檎嫒舜嬖诙喾N接近目標(biāo)對(duì)象并與之交互的方式。
圖 1. 人與物體交互形象的生成。給定一個(gè)對(duì)象,新方法首先預(yù)測(cè)一組里程碑(milestone)事件,其中環(huán)表示位置,粉紅色衣服的人代表原姿勢(shì)。算法在里程碑之間填充動(dòng)作。該圖顯示新方法使用同一對(duì)象生成不同的里程碑和動(dòng)作。時(shí)間的流動(dòng)用顏色代碼顯示,越深的藍(lán)色表示越往后的幀。
在生成數(shù)字人動(dòng)作的方法上,現(xiàn)有的合成方法大致可分為在線生成和離線生成。大多數(shù)在線方法側(cè)重于角色的實(shí)時(shí)控制。給定一個(gè)目標(biāo)對(duì)象,他們通常使用自回歸模型通過(guò)反饋預(yù)測(cè)來(lái)循環(huán)生成未來(lái)的運(yùn)動(dòng)。盡管這種方法已廣泛用于視頻游戲等交互場(chǎng)景,但其質(zhì)量對(duì)于長(zhǎng)期生成來(lái)說(shuō)還難以令人滿意。
為了提高運(yùn)動(dòng)質(zhì)量,最近的一些離線方法采用多級(jí)框架,首先生成軌跡,然后合成運(yùn)動(dòng)。盡管這種策略可以產(chǎn)生合理的路徑,但路徑多樣性是有限的。
在新研究中,作者提出了一種新的離線方法來(lái)綜合長(zhǎng)期且多樣化的人與物體交互,其創(chuàng)新在于分層生成策略,該策略首先預(yù)測(cè)一組里程碑,然后生成里程碑之間的人體動(dòng)作。
具體來(lái)說(shuō),給定起始位置和目標(biāo)對(duì)象,作者設(shè)計(jì)了一個(gè)里程碑生成模塊來(lái)合成沿著運(yùn)動(dòng)軌跡的一組節(jié)點(diǎn),每個(gè)里程碑對(duì)局部姿勢(shì)進(jìn)行編碼并指示人體運(yùn)動(dòng)過(guò)程中的過(guò)渡點(diǎn)?;谶@些里程碑,算法采用運(yùn)動(dòng)生成模塊來(lái)生成完整的運(yùn)動(dòng)序列。由于這些里程碑的存在,我們可以將長(zhǎng)序列的生成簡(jiǎn)化為合成幾個(gè)短運(yùn)動(dòng)序列。
此外,每個(gè)里程碑的局部姿態(tài)是由考慮全局依賴(lài)性的 transformer 模型生成的,進(jìn)而產(chǎn)生時(shí)間一致的結(jié)果,這進(jìn)一步有助于相干運(yùn)動(dòng)。
除了分層生成框架之外,研究人員還進(jìn)一步利用擴(kuò)散模型來(lái)合成人與物體的交互。此前的一些運(yùn)動(dòng)合成擴(kuò)散模型結(jié)合了 transformer 和去噪擴(kuò)散概率模型(DDPM)。
值得一提的是,由于運(yùn)動(dòng)序列較長(zhǎng),直接將它們應(yīng)用到新設(shè)置中需要大量的計(jì)算,可能導(dǎo)致 GPU 內(nèi)存爆炸。由于新的分層生成框架將長(zhǎng)期生成轉(zhuǎn)換為多個(gè)短序列的合成,因此所需的 GPU 內(nèi)存減少到了與短期運(yùn)動(dòng)生成相同的水平。
因此,研究者可以有效地利用 Transformer DDPM 來(lái)合成長(zhǎng)期運(yùn)動(dòng)序列,從而提高生成質(zhì)量。
為此,研究者設(shè)計(jì)了一個(gè)分層運(yùn)動(dòng)生成框架,如下圖所示。
首先,他們使用 GoalNet 來(lái)預(yù)測(cè)對(duì)象上的交互目標(biāo),然后生成目標(biāo)姿態(tài)來(lái)顯式建模人與物體的交互,接下來(lái)使用里程碑生成模塊來(lái)估計(jì)里程碑的長(zhǎng)度,使其產(chǎn)生從起點(diǎn)到目標(biāo)的里程碑軌跡,并放置里程碑姿態(tài)。
這樣一來(lái),長(zhǎng)距離運(yùn)動(dòng)生成就被分解為多個(gè)短距離運(yùn)動(dòng)生成的組合。最后,作者設(shè)計(jì)了一個(gè)運(yùn)動(dòng)生成模塊,用于合成里程碑之間的軌跡并填充動(dòng)作。
AI 姿態(tài)生成
研究者將人與物體互動(dòng)并保持靜止的姿態(tài)稱(chēng)為目標(biāo)姿態(tài)。之前,大多數(shù)方法使用 cVAE 模型生成人體姿態(tài),但研究者發(fā)現(xiàn)該方法在自己的研究中表現(xiàn)不佳。
為了克服這一挑戰(zhàn),他們引入了 VQ-VAE 模型來(lái)建模數(shù)據(jù)分布,該模型利用離散表示將數(shù)據(jù)聚類(lèi)在有限的點(diǎn)集中。此外,根據(jù)觀察,不同的人體姿態(tài)可能具有相似的屬性(比如人在坐下時(shí),手的動(dòng)作可能不相同,但腿部位置可能相同),于是,他們把關(guān)節(jié)分為 L (L = 5) 個(gè)不同的非重疊組。
如圖 3 所示,目標(biāo)姿態(tài)被分成獨(dú)立的關(guān)節(jié)組。
根據(jù)起始姿態(tài)和目標(biāo)姿態(tài),我們可以讓算法生成里程碑軌跡,并合成里程碑處的局部姿勢(shì)。由于運(yùn)動(dòng)數(shù)據(jù)的長(zhǎng)度是未知的,而且可以是任意的(例如,人可能快速走向椅子并坐下,也可能繞著椅子慢慢走一圈后坐下),因此需要預(yù)測(cè)里程碑的長(zhǎng)度,用 N 表示。然后,合成 N 個(gè)里程碑點(diǎn),并在這些點(diǎn)上放置局部姿態(tài)。
最后是動(dòng)作生成,研究者用到的方法不是逐幀預(yù)測(cè)動(dòng)作,而是根據(jù)生成的里程碑分層合成整個(gè)序列。他們首先生成軌跡,然后合成動(dòng)作。具體來(lái)說(shuō),在兩個(gè)連續(xù)的里程碑內(nèi),他們首先完成軌跡。然后,在連續(xù)里程碑姿態(tài)的引導(dǎo)下填充運(yùn)動(dòng)。這兩個(gè)步驟分別使用兩個(gè) Transformer DDPM 完成。
對(duì)于每個(gè)步驟,研究者都會(huì)精心設(shè)計(jì) DDPM 的條件,以生成目標(biāo)輸出。
效果領(lǐng)先
研究人員在 SAMP 數(shù)據(jù)集上比較了不同方法的結(jié)果??梢钥吹?,論文所提方法具有更低的 FD、更高的用戶研究得分和更高的 APD。此外,他們的方法實(shí)現(xiàn)了比 SAMP 更高的軌跡多樣性。
新方法在雜亂的場(chǎng)景中也可以生成令人滿意的結(jié)果。該方法生成的穿模的幀(frames with penetration)百分比為 3.8%,SAMP 為 4.9%。
在 SAMP、COUCH 等數(shù)據(jù)集上,論文所提到的方法均取得了比基線方法更好的結(jié)果。
完成全鏈路布局
數(shù)字人是融合語(yǔ)音、語(yǔ)義、視覺(jué)等多模態(tài)技術(shù)的集大成者。在最近生成式 AI 突破的同時(shí),數(shù)字人領(lǐng)域正在經(jīng)歷跨越式發(fā)展,過(guò)去需要手工制作的建模、生成交互、渲染等環(huán)節(jié)正在全面 AI 化。
隨著工程師不斷優(yōu)化,這項(xiàng)技術(shù)在移動(dòng)端的體驗(yàn)也在變得更好,剛剛結(jié)束的亞運(yùn)火炬線上傳遞活動(dòng)就是個(gè)很好的例子:想要成為火炬手,我們只需要點(diǎn)開(kāi)支付寶 App 的小程序。
據(jù)說(shuō),為確保開(kāi)幕式項(xiàng)目順暢進(jìn)行,螞蟻集團(tuán)的工程師們針對(duì)上百款不同型號(hào)的手機(jī)進(jìn)行了超過(guò) 10 萬(wàn)次測(cè)試,敲下了 20 多萬(wàn)行代碼,并通過(guò)自研 Web3D 互動(dòng)引擎 Galacean、AI 數(shù)字人、云服務(wù)、區(qū)塊鏈等多種技術(shù)結(jié)合,保證了人人都可以成為數(shù)字火炬手,參與火炬?zhèn)鬟f。亞運(yùn)數(shù)字火炬手平臺(tái),能做到億級(jí)用戶規(guī)模覆蓋,并支持 97% 的常見(jiàn)智能手機(jī)設(shè)備。
為了給數(shù)字火炬手們帶來(lái)真實(shí)的參與感,螞蟻的技術(shù)團(tuán)隊(duì)開(kāi)發(fā)了 58 個(gè)捏臉控制器,通過(guò) AI 算法根據(jù)人臉識(shí)別畫(huà)出數(shù)字火炬手的面孔之后,可對(duì)臉型、頭發(fā)、鼻子、嘴巴、眉毛等進(jìn)行調(diào)整,實(shí)現(xiàn)自由換裝,該技術(shù)可提供 2 萬(wàn)億種數(shù)字形象。
另外,開(kāi)幕式點(diǎn)火儀式后,每位數(shù)字火炬手都可以收到一張數(shù)字點(diǎn)火專(zhuān)屬證書(shū),繪有每位數(shù)字火炬手獨(dú)一無(wú)二的形象,這張證書(shū)會(huì)通過(guò)分布式技術(shù)存儲(chǔ)在區(qū)塊鏈上。
從研究論文內(nèi)容和亞運(yùn)項(xiàng)目不難看出,背后都有完整數(shù)字人技術(shù)體系的支撐。據(jù)了解,螞蟻集團(tuán)正積極開(kāi)展數(shù)字人技術(shù)探索,并已完成數(shù)字人的全鏈路核心技術(shù)自研布局。
與市面上多數(shù)公司不同,螞蟻集團(tuán)的數(shù)字人技術(shù)自研,選擇與生成式 AI 結(jié)合的發(fā)展方向。從技術(shù)部署上,則涵蓋數(shù)字人建模、渲染、驅(qū)動(dòng)、交互的全生命周期,結(jié)合 AIGC 與大模型,大幅降低了數(shù)字人全鏈路生產(chǎn)成本。目前可支持 2D、3D 數(shù)字人,提供了播報(bào)型、交互型等多種解決方案。
根據(jù)公開(kāi)資料,可以總結(jié)螞蟻數(shù)字人平臺(tái)目前具備四方面技術(shù)優(yōu)勢(shì)和特色:
低成本建模:與清華大學(xué)合作推出亞洲人臉 3D 參數(shù)化模型,基于照片重建 3D 人臉,更符合亞洲人臉型特點(diǎn)。
生成式驅(qū)動(dòng):驅(qū)動(dòng)生成和動(dòng)作捕捉結(jié)合,對(duì)比傳統(tǒng)動(dòng)作制作流程有效降低成本和提升動(dòng)作豐富度。
高適配渲染:自研 Web3D 渲染引擎 Galacean,覆蓋 97% 常見(jiàn)手機(jī)終端;在神經(jīng)渲染方面搭建了動(dòng)態(tài)驅(qū)動(dòng)和靜態(tài)建模解耦的 NeRF 框架,應(yīng)用于數(shù)字人動(dòng)態(tài)視頻場(chǎng)景。
智能化交互:基于預(yù)訓(xùn)練的音色克隆,支持分鐘級(jí)音頻輸入生成個(gè)性化數(shù)字人音色;并布局基于大模型的數(shù)字人交互。
亞運(yùn)會(huì)開(kāi)幕式之前,中國(guó)信通院發(fā)布最新數(shù)字人標(biāo)準(zhǔn)符合性驗(yàn)證結(jié)果,螞蟻集團(tuán)靈境數(shù)字人平臺(tái),成為業(yè)界首個(gè)通過(guò)金融數(shù)字人評(píng)測(cè)的產(chǎn)品,獲得了最高評(píng)級(jí)「杰出級(jí) (L4)」。
而在亞運(yùn)之外,螞蟻數(shù)字人平臺(tái)還支持了螞蟻集團(tuán)支付寶、數(shù)字金融、政務(wù)、五福等業(yè)務(wù),并在今年開(kāi)始應(yīng)用于短視頻、直播、小程序等載體向合作伙伴提供基礎(chǔ)服務(wù)。
可以預(yù)見(jiàn)在不久之后,伴隨生成式 AI 加持的數(shù)字人不斷升級(jí),我們也會(huì)在更多場(chǎng)景中體驗(yàn)到更好的交互,真正進(jìn)入數(shù)實(shí)融合的智能生活。