免费爱碰视频在线观看,九九精品国产屋,欧美亚洲尤物久久精品,1024在线观看视频亚洲

      數(shù)字人點(diǎn)燃亞運(yùn)主火炬,從這篇ICCV論文透視螞蟻的生成式AI黑科技

      機(jī)器之心報(bào)道

      編輯:澤南、張倩

      打開(kāi)一個(gè)數(shù)字人,里面全是生成式 AI。

      9 月 23 日晚,杭州亞運(yùn)會(huì)開(kāi)幕式點(diǎn)燃主火炬的環(huán)節(jié),上億線上數(shù)字火炬手的「小火苗」匯聚在錢(qián)塘江上形成一個(gè)數(shù)字人形象。隨后,數(shù)字人火炬手和現(xiàn)場(chǎng)的第六棒火炬手走到火炬臺(tái)前,共同點(diǎn)燃了主火炬。

      作為開(kāi)幕式的核心創(chuàng)意,數(shù)實(shí)互聯(lián)的火炬點(diǎn)燃形式?jīng)_上了熱搜,引發(fā)了人們的重點(diǎn)關(guān)注。

      上億人參與的數(shù)字人點(diǎn)火是一個(gè)前所未有的創(chuàng)舉,涉及了大量先進(jìn)且復(fù)雜的技術(shù),其中最重要的莫過(guò)于如何讓數(shù)字人「動(dòng)起來(lái)」。不難看出,在生成式 AI 與大模型迅速發(fā)展,數(shù)字人研究也出現(xiàn)了更多新變化。

      在 10 月初即將舉行的全球計(jì)算機(jī)視覺(jué)頂會(huì) ICCV 2023 上,我們關(guān)注到一篇生成 3D 數(shù)字人運(yùn)動(dòng)研究被大會(huì)收錄。相關(guān)論文題為《Hierarchical Generation of Human-Object Interactions with Diffusion Probabilistic Models》,由浙江大學(xué)、螞蟻集團(tuán)聯(lián)合發(fā)布。

      據(jù)介紹,這項(xiàng)研究一定程度上解決了數(shù)字人遠(yuǎn)距離合成復(fù)雜運(yùn)動(dòng)的問(wèn)題,能做到原有模型或路徑規(guī)劃無(wú)法實(shí)現(xiàn)的效果。數(shù)字人驅(qū)動(dòng)相關(guān)的技術(shù),也被用在了亞運(yùn)會(huì) 1 億數(shù)字人線上傳遞。

      生成式 AI 驅(qū)動(dòng),讓數(shù)字人動(dòng)起來(lái)

      很多時(shí)候,我們需要在給定的 3D 場(chǎng)景中合成 3D 人體運(yùn)動(dòng),使虛擬人能夠自然地在場(chǎng)景中漫步并與物體交互,這種效果在 AR/VR、電影制作和視頻游戲中都存在多種應(yīng)用。

      在這里,傳統(tǒng)的角色控制運(yùn)動(dòng)生成方法旨在由用戶的控制信號(hào)引導(dǎo)生成短期或重復(fù)的運(yùn)動(dòng),新研究則專(zhuān)注于在給定起始位置和目標(biāo)對(duì)象模型的情況下生成更加長(zhǎng)時(shí)間的人機(jī)交互內(nèi)容。

      這種思路雖然效果更好,但顯然挑戰(zhàn)更大。首先,人與物體的交互應(yīng)該是連貫的,這需要對(duì)人與物體之間的遠(yuǎn)程交互進(jìn)行建模的能力。其次,在內(nèi)容生成的背景下,生成模型應(yīng)該能夠合成大小不同的運(yùn)動(dòng),因?yàn)檎嫒舜嬖诙喾N接近目標(biāo)對(duì)象并與之交互的方式。

      圖 1. 人與物體交互形象的生成。給定一個(gè)對(duì)象,新方法首先預(yù)測(cè)一組里程碑(milestone)事件,其中環(huán)表示位置,粉紅色衣服的人代表原姿勢(shì)。算法在里程碑之間填充動(dòng)作。該圖顯示新方法使用同一對(duì)象生成不同的里程碑和動(dòng)作。時(shí)間的流動(dòng)用顏色代碼顯示,越深的藍(lán)色表示越往后的幀。

      在生成數(shù)字人動(dòng)作的方法上,現(xiàn)有的合成方法大致可分為在線生成和離線生成。大多數(shù)在線方法側(cè)重于角色的實(shí)時(shí)控制。給定一個(gè)目標(biāo)對(duì)象,他們通常使用自回歸模型通過(guò)反饋預(yù)測(cè)來(lái)循環(huán)生成未來(lái)的運(yùn)動(dòng)。盡管這種方法已廣泛用于視頻游戲等交互場(chǎng)景,但其質(zhì)量對(duì)于長(zhǎng)期生成來(lái)說(shuō)還難以令人滿意。

      為了提高運(yùn)動(dòng)質(zhì)量,最近的一些離線方法采用多級(jí)框架,首先生成軌跡,然后合成運(yùn)動(dòng)。盡管這種策略可以產(chǎn)生合理的路徑,但路徑多樣性是有限的。

      在新研究中,作者提出了一種新的離線方法來(lái)綜合長(zhǎng)期且多樣化的人與物體交互,其創(chuàng)新在于分層生成策略,該策略首先預(yù)測(cè)一組里程碑,然后生成里程碑之間的人體動(dòng)作。

      具體來(lái)說(shuō),給定起始位置和目標(biāo)對(duì)象,作者設(shè)計(jì)了一個(gè)里程碑生成模塊來(lái)合成沿著運(yùn)動(dòng)軌跡的一組節(jié)點(diǎn),每個(gè)里程碑對(duì)局部姿勢(shì)進(jìn)行編碼并指示人體運(yùn)動(dòng)過(guò)程中的過(guò)渡點(diǎn)?;谶@些里程碑,算法采用運(yùn)動(dòng)生成模塊來(lái)生成完整的運(yùn)動(dòng)序列。由于這些里程碑的存在,我們可以將長(zhǎng)序列的生成簡(jiǎn)化為合成幾個(gè)短運(yùn)動(dòng)序列。

      此外,每個(gè)里程碑的局部姿態(tài)是由考慮全局依賴(lài)性的 transformer 模型生成的,進(jìn)而產(chǎn)生時(shí)間一致的結(jié)果,這進(jìn)一步有助于相干運(yùn)動(dòng)。

      除了分層生成框架之外,研究人員還進(jìn)一步利用擴(kuò)散模型來(lái)合成人與物體的交互。此前的一些運(yùn)動(dòng)合成擴(kuò)散模型結(jié)合了 transformer 和去噪擴(kuò)散概率模型(DDPM)。

      值得一提的是,由于運(yùn)動(dòng)序列較長(zhǎng),直接將它們應(yīng)用到新設(shè)置中需要大量的計(jì)算,可能導(dǎo)致 GPU 內(nèi)存爆炸。由于新的分層生成框架將長(zhǎng)期生成轉(zhuǎn)換為多個(gè)短序列的合成,因此所需的 GPU 內(nèi)存減少到了與短期運(yùn)動(dòng)生成相同的水平。

      因此,研究者可以有效地利用 Transformer DDPM 來(lái)合成長(zhǎng)期運(yùn)動(dòng)序列,從而提高生成質(zhì)量。

      為此,研究者設(shè)計(jì)了一個(gè)分層運(yùn)動(dòng)生成框架,如下圖所示。

      首先,他們使用 GoalNet 來(lái)預(yù)測(cè)對(duì)象上的交互目標(biāo),然后生成目標(biāo)姿態(tài)來(lái)顯式建模人與物體的交互,接下來(lái)使用里程碑生成模塊來(lái)估計(jì)里程碑的長(zhǎng)度,使其產(chǎn)生從起點(diǎn)到目標(biāo)的里程碑軌跡,并放置里程碑姿態(tài)。

      這樣一來(lái),長(zhǎng)距離運(yùn)動(dòng)生成就被分解為多個(gè)短距離運(yùn)動(dòng)生成的組合。最后,作者設(shè)計(jì)了一個(gè)運(yùn)動(dòng)生成模塊,用于合成里程碑之間的軌跡并填充動(dòng)作。

      AI 姿態(tài)生成

      研究者將人與物體互動(dòng)并保持靜止的姿態(tài)稱(chēng)為目標(biāo)姿態(tài)。之前,大多數(shù)方法使用 cVAE 模型生成人體姿態(tài),但研究者發(fā)現(xiàn)該方法在自己的研究中表現(xiàn)不佳。

      為了克服這一挑戰(zhàn),他們引入了 VQ-VAE 模型來(lái)建模數(shù)據(jù)分布,該模型利用離散表示將數(shù)據(jù)聚類(lèi)在有限的點(diǎn)集中。此外,根據(jù)觀察,不同的人體姿態(tài)可能具有相似的屬性(比如人在坐下時(shí),手的動(dòng)作可能不相同,但腿部位置可能相同),于是,他們把關(guān)節(jié)分為 L (L = 5) 個(gè)不同的非重疊組。

      如圖 3 所示,目標(biāo)姿態(tài)被分成獨(dú)立的關(guān)節(jié)組。

      根據(jù)起始姿態(tài)和目標(biāo)姿態(tài),我們可以讓算法生成里程碑軌跡,并合成里程碑處的局部姿勢(shì)。由于運(yùn)動(dòng)數(shù)據(jù)的長(zhǎng)度是未知的,而且可以是任意的(例如,人可能快速走向椅子并坐下,也可能繞著椅子慢慢走一圈后坐下),因此需要預(yù)測(cè)里程碑的長(zhǎng)度,用 N 表示。然后,合成 N 個(gè)里程碑點(diǎn),并在這些點(diǎn)上放置局部姿態(tài)。

      最后是動(dòng)作生成,研究者用到的方法不是逐幀預(yù)測(cè)動(dòng)作,而是根據(jù)生成的里程碑分層合成整個(gè)序列。他們首先生成軌跡,然后合成動(dòng)作。具體來(lái)說(shuō),在兩個(gè)連續(xù)的里程碑內(nèi),他們首先完成軌跡。然后,在連續(xù)里程碑姿態(tài)的引導(dǎo)下填充運(yùn)動(dòng)。這兩個(gè)步驟分別使用兩個(gè) Transformer DDPM 完成。

      對(duì)于每個(gè)步驟,研究者都會(huì)精心設(shè)計(jì) DDPM 的條件,以生成目標(biāo)輸出。

      效果領(lǐng)先

      研究人員在 SAMP 數(shù)據(jù)集上比較了不同方法的結(jié)果??梢钥吹?,論文所提方法具有更低的 FD、更高的用戶研究得分和更高的 APD。此外,他們的方法實(shí)現(xiàn)了比 SAMP 更高的軌跡多樣性。

      新方法在雜亂的場(chǎng)景中也可以生成令人滿意的結(jié)果。該方法生成的穿模的幀(frames with penetration)百分比為 3.8%,SAMP 為 4.9%。

      在 SAMP、COUCH 等數(shù)據(jù)集上,論文所提到的方法均取得了比基線方法更好的結(jié)果。

      完成全鏈路布局

      數(shù)字人是融合語(yǔ)音、語(yǔ)義、視覺(jué)等多模態(tài)技術(shù)的集大成者。在最近生成式 AI 突破的同時(shí),數(shù)字人領(lǐng)域正在經(jīng)歷跨越式發(fā)展,過(guò)去需要手工制作的建模、生成交互、渲染等環(huán)節(jié)正在全面 AI 化。

      隨著工程師不斷優(yōu)化,這項(xiàng)技術(shù)在移動(dòng)端的體驗(yàn)也在變得更好,剛剛結(jié)束的亞運(yùn)火炬線上傳遞活動(dòng)就是個(gè)很好的例子:想要成為火炬手,我們只需要點(diǎn)開(kāi)支付寶 App 的小程序。

      據(jù)說(shuō),為確保開(kāi)幕式項(xiàng)目順暢進(jìn)行,螞蟻集團(tuán)的工程師們針對(duì)上百款不同型號(hào)的手機(jī)進(jìn)行了超過(guò) 10 萬(wàn)次測(cè)試,敲下了 20 多萬(wàn)行代碼,并通過(guò)自研 Web3D 互動(dòng)引擎 Galacean、AI 數(shù)字人、云服務(wù)、區(qū)塊鏈等多種技術(shù)結(jié)合,保證了人人都可以成為數(shù)字火炬手,參與火炬?zhèn)鬟f。亞運(yùn)數(shù)字火炬手平臺(tái),能做到億級(jí)用戶規(guī)模覆蓋,并支持 97% 的常見(jiàn)智能手機(jī)設(shè)備。

      為了給數(shù)字火炬手們帶來(lái)真實(shí)的參與感,螞蟻的技術(shù)團(tuán)隊(duì)開(kāi)發(fā)了 58 個(gè)捏臉控制器,通過(guò) AI 算法根據(jù)人臉識(shí)別畫(huà)出數(shù)字火炬手的面孔之后,可對(duì)臉型、頭發(fā)、鼻子、嘴巴、眉毛等進(jìn)行調(diào)整,實(shí)現(xiàn)自由換裝,該技術(shù)可提供 2 萬(wàn)億種數(shù)字形象。

      另外,開(kāi)幕式點(diǎn)火儀式后,每位數(shù)字火炬手都可以收到一張數(shù)字點(diǎn)火專(zhuān)屬證書(shū),繪有每位數(shù)字火炬手獨(dú)一無(wú)二的形象,這張證書(shū)會(huì)通過(guò)分布式技術(shù)存儲(chǔ)在區(qū)塊鏈上。

      從研究論文內(nèi)容和亞運(yùn)項(xiàng)目不難看出,背后都有完整數(shù)字人技術(shù)體系的支撐。據(jù)了解,螞蟻集團(tuán)正積極開(kāi)展數(shù)字人技術(shù)探索,并已完成數(shù)字人的全鏈路核心技術(shù)自研布局。

      與市面上多數(shù)公司不同,螞蟻集團(tuán)的數(shù)字人技術(shù)自研,選擇與生成式 AI 結(jié)合的發(fā)展方向。從技術(shù)部署上,則涵蓋數(shù)字人建模、渲染、驅(qū)動(dòng)、交互的全生命周期,結(jié)合 AIGC 與大模型,大幅降低了數(shù)字人全鏈路生產(chǎn)成本。目前可支持 2D、3D 數(shù)字人,提供了播報(bào)型、交互型等多種解決方案。

      根據(jù)公開(kāi)資料,可以總結(jié)螞蟻數(shù)字人平臺(tái)目前具備四方面技術(shù)優(yōu)勢(shì)和特色:

      低成本建模:與清華大學(xué)合作推出亞洲人臉 3D 參數(shù)化模型,基于照片重建 3D 人臉,更符合亞洲人臉型特點(diǎn)。

      生成式驅(qū)動(dòng):驅(qū)動(dòng)生成和動(dòng)作捕捉結(jié)合,對(duì)比傳統(tǒng)動(dòng)作制作流程有效降低成本和提升動(dòng)作豐富度。

      高適配渲染:自研 Web3D 渲染引擎 Galacean,覆蓋 97% 常見(jiàn)手機(jī)終端;在神經(jīng)渲染方面搭建了動(dòng)態(tài)驅(qū)動(dòng)和靜態(tài)建模解耦的 NeRF 框架,應(yīng)用于數(shù)字人動(dòng)態(tài)視頻場(chǎng)景。

      智能化交互:基于預(yù)訓(xùn)練的音色克隆,支持分鐘級(jí)音頻輸入生成個(gè)性化數(shù)字人音色;并布局基于大模型的數(shù)字人交互。

      亞運(yùn)會(huì)開(kāi)幕式之前,中國(guó)信通院發(fā)布最新數(shù)字人標(biāo)準(zhǔn)符合性驗(yàn)證結(jié)果,螞蟻集團(tuán)靈境數(shù)字人平臺(tái),成為業(yè)界首個(gè)通過(guò)金融數(shù)字人評(píng)測(cè)的產(chǎn)品,獲得了最高評(píng)級(jí)「杰出級(jí) (L4)」。

      而在亞運(yùn)之外,螞蟻數(shù)字人平臺(tái)還支持了螞蟻集團(tuán)支付寶、數(shù)字金融、政務(wù)、五福等業(yè)務(wù),并在今年開(kāi)始應(yīng)用于短視頻、直播、小程序等載體向合作伙伴提供基礎(chǔ)服務(wù)。

      可以預(yù)見(jiàn)在不久之后,伴隨生成式 AI 加持的數(shù)字人不斷升級(jí),我們也會(huì)在更多場(chǎng)景中體驗(yàn)到更好的交互,真正進(jìn)入數(shù)實(shí)融合的智能生活。

      鄭重聲明:本文內(nèi)容及圖片均整理自互聯(lián)網(wǎng),不代表本站立場(chǎng),版權(quán)歸原作者所有,如有侵權(quán)請(qǐng)聯(lián)系管理員(admin#wlmqw.com)刪除。
      用戶投稿
      上一篇 2023年11月14日 12:17
      下一篇 2023年11月14日 14:00

      相關(guān)推薦

      • 日本電視劇收視率歷史排名(電視劇收視率歷史排名)

        收視率最高的電視劇排行榜前十名 1、但是《還珠格格》卻是我童年中我最喜歡看的電視劇。每到夏天的時(shí)候總會(huì)去看,好像如果這個(gè)夏天沒(méi)有看這個(gè)電視劇,夏天好像就沒(méi)有到來(lái)。可見(jiàn)這部電視劇對(duì)于…

        2024年1月24日
      • 液壓機(jī)械缸鍛造廠家品質(zhì)好的有哪些值得推薦?

        液壓機(jī)是一種以液體為工作介質(zhì)的重要機(jī)械設(shè)備,其核心功能是傳遞能量,實(shí)現(xiàn)各種工藝流程。除了在鍛壓成形方面的應(yīng)用,液壓機(jī)還廣泛應(yīng)用于矯正、壓裝、打包、壓塊和壓板等領(lǐng)域。根據(jù)工作介質(zhì)的不…

        2024年1月24日
      • 湖南暴雪已致1萬(wàn)多人受災(zāi)

        據(jù)@湖南氣象 ,22日7時(shí)至23日7時(shí),湘中、湘南出現(xiàn)大到暴雪,長(zhǎng)沙(瀏陽(yáng))、株洲(醴陵、茶陵)等13個(gè)縣市區(qū)出現(xiàn)大暴雪,郴州(北湖區(qū))、株洲(荷塘區(qū))出現(xiàn)特大暴雪;全省23個(gè)縣市…

        2024年1月24日
      • 落馬貪官退贓像“割肉”,詢(xún)問(wèn)能不能少交點(diǎn)

        “就像割我身上的肉一般,會(huì)讓我痛不欲生?!?24日,中央紀(jì)委國(guó)家監(jiān)委網(wǎng)站發(fā)布了針對(duì)云南省文山州住房和城鄉(xiāng)建設(shè)局原黨組成員、副局長(zhǎng)李慶明嚴(yán)重違紀(jì)違法案的剖析。信奉金錢(qián)至上的李慶明惜財(cái)…

        2024年1月24日
      • 中國(guó)gdp排行榜城市(中國(guó)gdp排行榜)

        中國(guó)各省gdp排名 1、根據(jù)查詢(xún)國(guó)家統(tǒng)計(jì)局官網(wǎng)信息顯示,2023年各省排名,廣東:GDP為1243667億。江蘇:GDP為116362億。山東:GDP為83099億。浙江:GDP為…

        2024年1月24日
      • SK-II大中華區(qū)季度銷(xiāo)售額暴跌34%,寶潔:日本核污水排海是主因

        財(cái)聯(lián)社1月24日訊(編輯 卞純)全球日用消費(fèi)品巨頭寶潔公司(ProcterGamble)周二表示,在截至12月底的第二財(cái)季,其高端護(hù)膚品牌SK-II在大中華區(qū)的銷(xiāo)售額下降了34%,…

        2024年1月24日
      • 呼和浩特白塔機(jī)場(chǎng)通報(bào)“保潔員占母嬰室吃飯”:涉事人已被辭退

        呼和浩特白塔機(jī)場(chǎng)通報(bào)“保潔員占母嬰室吃飯”:涉事人已被辭退 原標(biāo)題: 呼和浩特白塔機(jī)場(chǎng)通報(bào)“保潔員占母嬰室吃飯”:涉事人已被辭退 央視網(wǎng)消息:據(jù)@呼和浩特白塔國(guó)際機(jī)場(chǎng) 消息,呼和浩…

        2024年1月24日
      • 退休職工舉報(bào)局長(zhǎng)被判刑,被舉報(bào)人卻提級(jí)退休把人看懵了

        文|龍之朱 又見(jiàn)錯(cuò)抓錯(cuò)判上了熱搜。 據(jù)媒體報(bào)道,從2016年3月起,安徽宿州市碭山縣農(nóng)機(jī)局退休職工李平實(shí)名向紀(jì)檢部門(mén)舉報(bào)局長(zhǎng)王超經(jīng)濟(jì)問(wèn)題,均石沉大海。 2017年7月,李平夫婦及親…

        2024年1月24日
      • 6寸蛋糕用5斤車(chē)?yán)遄拥昙业狼?

        【#6寸蛋糕用5斤車(chē)?yán)遄拥昙业狼?:客服能力不足,多報(bào)了2斤車(chē)?yán)遄印?遇到商家虛假宣傳你會(huì)怎么辦# 近日,有網(wǎng)友發(fā)帖稱(chēng)做六寸蛋糕需要5斤車(chē)?yán)遄右裏嶙h。 1月22日,涉事店家就“6寸…

        2024年1月24日
      • 格蘭芬多院徽簡(jiǎn)筆畫(huà)(格蘭芬多院徽)

        哈利波特的霍格沃茨學(xué)校分別是哪些學(xué)院? 1、《哈利波特》電影中的霍格沃茨學(xué)院,一共分為四個(gè)學(xué)院,分別是:格蘭芬多、赫奇帕奇、拉文克勞與斯萊特林。 2、霍格沃茨魔法學(xué)院共有格蘭芬多、…

        2024年1月24日

      聯(lián)系我們

      聯(lián)系郵箱:admin#wlmqw.com
      工作時(shí)間:周一至周五,10:30-18:30,節(jié)假日休息