免费爱碰视频在线观看,九九精品国产屋,欧美亚洲尤物久久精品,1024在线观看视频亚洲

      無需微調(diào),一張照片即可換臉、換背景,NUS等華人團(tuán)隊(duì)破局個(gè)性化視頻生成

      這項(xiàng)研究為個(gè)性化視頻編輯領(lǐng)域帶來了新的可能性,使得生成個(gè)性化內(nèi)容變得更加簡便和高效。

      ?隨著擴(kuò)散模型的發(fā)展,基于輸入文本生成高質(zhì)量的圖片和視頻已經(jīng)成為現(xiàn)實(shí),但是僅使用文本生成視覺內(nèi)容的可控性有限。

      為了克服這個(gè)問題,研究人員們開始探索額外的控制信號(hào)和對現(xiàn)有內(nèi)容進(jìn)行編輯的方法。這兩個(gè)方向在一定程度上實(shí)現(xiàn)了生成過程的可控性,但仍然需要依賴文本來描述目標(biāo)生成內(nèi)容。

      在實(shí)際應(yīng)用中,我們面臨著一個(gè)新的需求:如果用戶想要生成的內(nèi)容無法用語言描述呢?

      例如,用戶想生成某一個(gè)普通人的視頻,但僅在輸入文本中使用普通人的名字是無意義的,因?yàn)檎Z言模型無法識(shí)別不在訓(xùn)練語料中的個(gè)體姓名。

      針對這個(gè)問題,一種可行的解決方案是基于給定個(gè)體訓(xùn)練個(gè)性化的模型。

      例如,DreamBooth和Dreamix通過多張圖片理解個(gè)體概念,從而進(jìn)行個(gè)性化的內(nèi)容生成,不過這兩種方法需要對每個(gè)個(gè)體分別進(jìn)行學(xué)習(xí),并且需要該個(gè)體的多張訓(xùn)練圖片和精細(xì)化調(diào)參。

      最近,來自新加坡國立大學(xué)(NUS)和華為諾亞實(shí)驗(yàn)室的研究者們在個(gè)性化視頻編輯上取得了新的進(jìn)展,通過多個(gè)集成模型的協(xié)同工作,無需對個(gè)性化概念進(jìn)行額外的訓(xùn)練和微調(diào),僅僅需要一張目標(biāo)參考圖片,就能實(shí)現(xiàn)對已有視頻的主角替換、背景替換以及特定主角的文生視頻。

      無需微調(diào),一張照片即可換臉、換背景,NUS等華人團(tuán)隊(duì)破局個(gè)性化視頻生成

      這項(xiàng)研究為個(gè)性化視頻編輯領(lǐng)域帶來了新的可能性,使得生成個(gè)性化內(nèi)容變得更加簡便和高效。

      無需微調(diào),一張照片即可換臉、換背景,NUS等華人團(tuán)隊(duì)破局個(gè)性化視頻生成

      無需微調(diào),一張照片即可換臉、換背景,NUS等華人團(tuán)隊(duì)破局個(gè)性化視頻生成

      無需微調(diào),一張照片即可換臉、換背景,NUS等華人團(tuán)隊(duì)破局個(gè)性化視頻生成

      介紹

      Make-A-Protagonist將視頻分為主角和背景,對二者使用視覺或語言參考信息,從而實(shí)現(xiàn)主角編輯、背景編輯和特定主角的文生視頻。

      無需微調(diào),一張照片即可換臉、換背景,NUS等華人團(tuán)隊(duì)破局個(gè)性化視頻生成

      主角編輯功能允許用戶使用相同的場景描述,但通過參考圖像來替換視頻中的主角。這意味著用戶可以使用自己選擇的圖像來替換視頻中的主要角色。

      無需微調(diào),一張照片即可換臉、換背景,NUS等華人團(tuán)隊(duì)破局個(gè)性化視頻生成

      背景編輯功能允許用戶使用與原始視頻相同的主角描述(例「Suzuki Jimny」),并使用原始視頻幀作為視覺信息,但可以更改對場景的文字描述(例如「in the rain」)。這樣,用戶可以保持相同的主角,但改變場景的描述,營造出不同的視覺效果。

      無需微調(diào),一張照片即可換臉、換背景,NUS等華人團(tuán)隊(duì)破局個(gè)性化視頻生成

      特定主角的文生視頻功能將主角編輯和背景編輯結(jié)合起來。用戶可以使用參考圖像作為主角,并對場景進(jìn)行描述,從而創(chuàng)造出全新的視頻內(nèi)容。此外,對于多主角視頻,Make-A-Protagonist還可以對單個(gè)或多個(gè)角色進(jìn)行更改。

      無需微調(diào),一張照片即可換臉、換背景,NUS等華人團(tuán)隊(duì)破局個(gè)性化視頻生成

      與DreamBooth和Dreamix不同,Make-A-Protagonist僅需要單張參考圖像,不需要對每個(gè)概念進(jìn)行微調(diào),因此在應(yīng)用場景上更加靈活多樣。Make-A-Protagonist為用戶提供了一種簡便而高效的方式來實(shí)現(xiàn)個(gè)性化的視頻編輯和生成。

      方法

      無需微調(diào),一張照片即可換臉、換背景,NUS等華人團(tuán)隊(duì)破局個(gè)性化視頻生成

      Make-A-Protagonist使用多個(gè)強(qiáng)大的專家模型,對原視頻、視覺和語言信息進(jìn)行解析,并結(jié)合基于視覺語言的視頻生成模型和基于掩碼的去噪采樣算法,實(shí)現(xiàn)通用視頻編輯。該模型主要由三個(gè)關(guān)鍵部分組成:原視頻解析,視覺和語言信息解析,以及視頻生成。

      具體來說,Make-A-Protagonist推理過程包括以下三步:首先使用BLIP-2, GroundingDINO、Segment Anything 和 XMem等模型對原視頻進(jìn)行解析,獲得視頻的主角掩碼,并解析原視頻的控制信號(hào)。

      接下來,使用CLIP和DALL-E2Prior對視覺和語言信息進(jìn)行解析。最后,使用基于視覺語言的視頻生成模型和基于掩碼的去噪采樣算法,利用解析信息生成新的內(nèi)容。

      Make-A-Protagonist的創(chuàng)新之處在于引入了基于視覺語言的視頻生成模型和基于掩碼的去噪采樣算法,通過整合多個(gè)專家模型并解析、融合多種信息,實(shí)現(xiàn)了視頻編輯的突破。

      這些模型的運(yùn)用使得該系統(tǒng)更加精準(zhǔn)地理解原視頻、視覺和語言信息,并能夠生成高質(zhì)量的視頻內(nèi)容。

      Make-A-Protagonist為用戶提供了一款強(qiáng)大而靈活的工具,讓他們能夠輕松進(jìn)行通用的視頻編輯,創(chuàng)作出獨(dú)特而令人驚艷的視覺作品。

      1.原視頻解析

      原視頻解析的目標(biāo)是獲取原視頻的語言描述(caption)、主角文字描述、主角分割結(jié)果以及ControlNet所需的控制信號(hào)。

      針對caption和主角文字描述,Make-A-Protagonist采用了BLIP-2模型。

      通過對BLIP-2的圖像網(wǎng)絡(luò)進(jìn)行修改,實(shí)現(xiàn)了對視頻的解析,并使用captioning模式生成視頻的描述,這些描述在訓(xùn)練和視頻編輯中用于視頻生成網(wǎng)絡(luò)。

      對于主角文字描述,Make-A-Protagonist使用VQA模式,提出問題:「視頻的主角是什么?」并使用答案進(jìn)一步解析原視頻中的主角信息。

      在原視頻中的主角分割方面,Make-A-Protagonist利用上述得到的主角文字描述,在第一幀中使用GroundingDINO模型來定位相應(yīng)的檢測內(nèi)容,并使用Segment Anything模型獲得第一幀的分割掩碼。然后,借助跟蹤網(wǎng)絡(luò)(XMem),Make-A-Protagonist得到整個(gè)視頻序列的分割結(jié)果。

      除此之外,Make-A-Protagonist利用ControlNet來保留原視頻的細(xì)節(jié)和動(dòng)作,因此需要提取原視頻的控制信號(hào)。文中使用了深度信號(hào)和姿態(tài)信號(hào)。

      通過這些創(chuàng)新的解析方法和技術(shù),Make-A-Protagonist能夠準(zhǔn)確地解析原視頻的語言描述、主角信息和分割結(jié)果,并提取控制信號(hào),為后續(xù)的視頻生成和編輯打下了堅(jiān)實(shí)的基礎(chǔ)。

      2.視覺和語言信息解析

      對于視覺信號(hào),Make-A-Protagonist在本文中采用CLIP image embedding作為生成條件,為了去除參考圖像背景的影響,類似于原視頻解析,Make-A-Protagonist使用GroundingDINO和Segment Anything得到參考圖像主角的分割掩碼,使用掩碼將分割后的圖像輸入CLIP視覺模型,以獲取參考視覺信息。

      語言信息主要用于控制背景,本文將語言信息用于兩方面,一方面使用CLIP語言模型提取特征,作為注意力網(wǎng)絡(luò)的key和value。

      另一方面,使用DALL-E2Prior網(wǎng)絡(luò),將語言特征轉(zhuǎn)化為視覺特征,從而增強(qiáng)表征能力。

      3.視頻生成

      無需微調(diào),一張照片即可換臉、換背景,NUS等華人團(tuán)隊(duì)破局個(gè)性化視頻生成

      3.1視頻生成網(wǎng)絡(luò)訓(xùn)練

      為了充分利用視覺信息,Make-A-Protagonist使用Stable UnCLIP作為預(yù)訓(xùn)練模型,并對原視頻進(jìn)行微調(diào),從而實(shí)現(xiàn)利用視覺信息進(jìn)行視頻生成。

      在每個(gè)訓(xùn)練迭代中,Make-A-Protagonist提取視頻中隨機(jī)一幀的CLIP image embedding,將其作為視覺信息輸入到Residual block中。

      3.2基于掩碼的去噪采樣

      無需微調(diào),一張照片即可換臉、換背景,NUS等華人團(tuán)隊(duì)破局個(gè)性化視頻生成

      為融合視覺信息和語言信息,本文提出基于掩碼的去噪采樣,在特征空間和隱空間對兩種信息進(jìn)行融合。

      具體來說,在特征域,Make-A-Protagonist使用原視頻的主角掩碼,將主角對應(yīng)部分使用視覺信息,背景對應(yīng)部分使用DALL-E2Prior轉(zhuǎn)化后的語言信息:

      無需微調(diào),一張照片即可換臉、換背景,NUS等華人團(tuán)隊(duì)破局個(gè)性化視頻生成

      在隱空間中,Make-A-Protagonist將僅使用視覺信息的推理結(jié)果和經(jīng)過特征融合的推理結(jié)果按照原視頻的主角掩碼進(jìn)行融合:

      無需微調(diào),一張照片即可換臉、換背景,NUS等華人團(tuán)隊(duì)破局個(gè)性化視頻生成

      通過特征空間和隱空間的信息融合,生成的結(jié)果更加真實(shí),并且與視覺語言表述更加一致。

      總結(jié)

      Make-A-Protagonist引領(lǐng)了一種全新的視頻編輯框架,充分利用了視覺和語言信息。

      該框架為實(shí)現(xiàn)對視覺和語言的獨(dú)立編輯提供了解決方案,通過多個(gè)專家網(wǎng)絡(luò)對原視頻、視覺和語言信息進(jìn)行解析,并采用視頻生成網(wǎng)絡(luò)和基于掩碼的采樣策略將這些信息融合在一起。

      Make-A-Protagonist展現(xiàn)了出色的視頻編輯能力,可廣泛應(yīng)用于主角編輯、背景編輯和特定主角的文生視頻任務(wù)。

      Make-A-Protagonist的出現(xiàn)為視頻編輯領(lǐng)域帶來了新的可能性。它為用戶創(chuàng)造了一個(gè)靈活且創(chuàng)新的工具,讓他們能夠以前所未有的方式編輯和塑造視頻內(nèi)容。

      無論是專業(yè)編輯人員還是創(chuàng)意愛好者,都能夠通過Make-A-Protagonist打造出獨(dú)特而精彩的視覺作品。

      參考資料:

      https://make-a-protagonist.github.io/

      鄭重聲明:本文內(nèi)容及圖片均整理自互聯(lián)網(wǎng),不代表本站立場,版權(quán)歸原作者所有,如有侵權(quán)請聯(lián)系管理員(admin#wlmqw.com)刪除。
      用戶投稿
      上一篇 2023年5月26日 12:34
      下一篇 2023年5月26日 12:34

      相關(guān)推薦

      • 日本電視劇收視率歷史排名(電視劇收視率歷史排名)

        收視率最高的電視劇排行榜前十名 1、但是《還珠格格》卻是我童年中我最喜歡看的電視劇。每到夏天的時(shí)候總會(huì)去看,好像如果這個(gè)夏天沒有看這個(gè)電視劇,夏天好像就沒有到來??梢娺@部電視劇對于…

        2024年1月24日
      • 液壓機(jī)械缸鍛造廠家品質(zhì)好的有哪些值得推薦?

        液壓機(jī)是一種以液體為工作介質(zhì)的重要機(jī)械設(shè)備,其核心功能是傳遞能量,實(shí)現(xiàn)各種工藝流程。除了在鍛壓成形方面的應(yīng)用,液壓機(jī)還廣泛應(yīng)用于矯正、壓裝、打包、壓塊和壓板等領(lǐng)域。根據(jù)工作介質(zhì)的不…

        2024年1月24日
      • 湖南暴雪已致1萬多人受災(zāi)

        據(jù)@湖南氣象 ,22日7時(shí)至23日7時(shí),湘中、湘南出現(xiàn)大到暴雪,長沙(瀏陽)、株洲(醴陵、茶陵)等13個(gè)縣市區(qū)出現(xiàn)大暴雪,郴州(北湖區(qū))、株洲(荷塘區(qū))出現(xiàn)特大暴雪;全省23個(gè)縣市…

        2024年1月24日
      • 落馬貪官退贓像“割肉”,詢問能不能少交點(diǎn)

        “就像割我身上的肉一般,會(huì)讓我痛不欲生?!?24日,中央紀(jì)委國家監(jiān)委網(wǎng)站發(fā)布了針對云南省文山州住房和城鄉(xiāng)建設(shè)局原黨組成員、副局長李慶明嚴(yán)重違紀(jì)違法案的剖析。信奉金錢至上的李慶明惜財(cái)…

        2024年1月24日
      • 中國gdp排行榜城市(中國gdp排行榜)

        中國各省gdp排名 1、根據(jù)查詢國家統(tǒng)計(jì)局官網(wǎng)信息顯示,2023年各省排名,廣東:GDP為1243667億。江蘇:GDP為116362億。山東:GDP為83099億。浙江:GDP為…

        2024年1月24日
      • SK-II大中華區(qū)季度銷售額暴跌34%,寶潔:日本核污水排海是主因

        財(cái)聯(lián)社1月24日訊(編輯 卞純)全球日用消費(fèi)品巨頭寶潔公司(ProcterGamble)周二表示,在截至12月底的第二財(cái)季,其高端護(hù)膚品牌SK-II在大中華區(qū)的銷售額下降了34%,…

        2024年1月24日
      • 呼和浩特白塔機(jī)場通報(bào)“保潔員占母嬰室吃飯”:涉事人已被辭退

        呼和浩特白塔機(jī)場通報(bào)“保潔員占母嬰室吃飯”:涉事人已被辭退 原標(biāo)題: 呼和浩特白塔機(jī)場通報(bào)“保潔員占母嬰室吃飯”:涉事人已被辭退 央視網(wǎng)消息:據(jù)@呼和浩特白塔國際機(jī)場 消息,呼和浩…

        2024年1月24日
      • 退休職工舉報(bào)局長被判刑,被舉報(bào)人卻提級退休把人看懵了

        文|龍之朱 又見錯(cuò)抓錯(cuò)判上了熱搜。 據(jù)媒體報(bào)道,從2016年3月起,安徽宿州市碭山縣農(nóng)機(jī)局退休職工李平實(shí)名向紀(jì)檢部門舉報(bào)局長王超經(jīng)濟(jì)問題,均石沉大海。 2017年7月,李平夫婦及親…

        2024年1月24日
      • 6寸蛋糕用5斤車?yán)遄拥昙业狼?

        【#6寸蛋糕用5斤車?yán)遄拥昙业狼?:客服能力不足,多報(bào)了2斤車?yán)遄印?遇到商家虛假宣傳你會(huì)怎么辦# 近日,有網(wǎng)友發(fā)帖稱做六寸蛋糕需要5斤車?yán)遄右裏嶙h。 1月22日,涉事店家就“6寸…

        2024年1月24日
      • 格蘭芬多院徽簡筆畫(格蘭芬多院徽)

        哈利波特的霍格沃茨學(xué)校分別是哪些學(xué)院? 1、《哈利波特》電影中的霍格沃茨學(xué)院,一共分為四個(gè)學(xué)院,分別是:格蘭芬多、赫奇帕奇、拉文克勞與斯萊特林。 2、霍格沃茨魔法學(xué)院共有格蘭芬多、…

        2024年1月24日

      聯(lián)系我們

      聯(lián)系郵箱:admin#wlmqw.com
      工作時(shí)間:周一至周五,10:30-18:30,節(jié)假日休息