複旦大學與百度聯合發布可控人臉視頻生成模型--星空人工智能91视频免费观看網

複旦大學與百度合作發布了名為"Hallo"的人臉視頻生成模型，並在公開的學術論文"Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation"中對該模型進行了詳細闡述。這一模型是首個基於擴散91视频免费观看實現端到端生成高度逼真人臉視頻的開源項目。用戶隻需提供一段音頻和所選人像，即可輕鬆製作出具有極高真實感的人臉視頻。這一91视频免费观看的推出代表著數字人相關的視頻生成領域的重要進展。

項目主頁：http://fudan-generative-vision.github.io/hallo/

論文鏈接：http://arxiv.org/abs/2406.08801

GitHub鏈接：http://github.com/fudan-generative-vision/hall

端到端人臉視頻生成方案

在過去的91视频免费观看發展過程中，由於缺乏有效的聲音到視頻生成方案，人臉視頻合成通常需要依賴參數化模型作為中間媒介。騰訊、螞蟻金服、微軟等公司推出的Sadtalker、AniPortrait、GAIA等91视频免费观看方法便是這一路徑的典型代表。然而，這些方法常常受製於參數化模型在表情和動作表達能力上的限製，以及聲音與動作之間的弱相關性，導致生成的視頻在真實感和連貫性方麵存在不足。最近，一些端到端的人臉視頻生成方案逐漸出現，避免了中間表示形式的局限性。這些方案利用擴散模型強大的生成能力，可以直接生成高度逼真、高度連貫的視頻。然而，這類方案中的音頻和視覺特征通常通過全局交叉注意力模塊進行直接交互，缺乏對唇部和動作的精細約束，導致生成視頻的口型精度不如依賴參數化模型的解決方案，且動作生成能力較差，需要額外輸入動作進行驅動。此次，複旦與百度推出的直接從聲音驅動生成視頻的端到端模型，無需複雜的參數化中間表示和額外的動作輸入，即可生成口型、表情、動作極其自然豐富的人臉視頻。這一創新依賴於以下幾個關鍵方麵：

1.分層音畫特征融合

在音畫交叉注意力過程中，由於人臉的嘴唇、麵部表情、人頭姿勢對語音的運動響應方式並不相同，Hallo的研究人員采用了分層交叉注意力操作，針對不同區域分別提取掩碼特征。通過他們提出的輔助交叉注意力模塊與音頻特征融合，從而學習到不同區域的運動特征。具體來說，研究人員使用了嘴唇、麵部和頭部的掩碼(如下圖左圖所示)，讓音頻分別對口型、表情和姿勢進行引導生成。隨後，通過一個自適應機製將這三個部分融合在一起，無需額外參數化表示和動作驅動，即可直接生成表情和動作自然生動的人臉動畫視頻。經過對注意力圖的分析，研究人員發現，音頻特征與不同區域視覺特征分別交互，顯著提高了注意力模塊對麵部信息的捕捉能力。模型的注意力可視化效果也呈現出更加聚焦於麵部區域的特點，從而能夠顯著提升口型、表情和動作的真實度。這一方法的整體精度超越了其他現有方法。

2.不同人臉特征的控製能力

在Hallo係統中的分層音頻-視覺注意力機製具有將音頻特征與圖像的不同區域進行融合對齊的能力，從而提升口型、表情和姿勢的精準度和自然度，並提供了全局運動的可控性。通過調整各區域的權重，可以實現對不同區域視頻運動的精確控製。此外，Hallo采用專門的人臉編碼模型來替代傳統的圖像-語義預訓練模型(如CLIP)。人臉編碼模型的主要目的是生成高度保真的肖像身份特征。與以往通過在大型圖像和文本描述數據集上進行聯合訓練CLIP以獲得通用視覺特征編碼的方法不同，Hallo使用預先訓練的人臉編碼器來提取身份特征。這些特征與擴散網絡的交叉注意力模塊進行交互，生成與輸入角色特征忠實一致的肖像動畫。這一方法不僅確保了人臉特征提取的泛化能力，還準確地保留和展現了個人身份特征，例如麵部表情、年齡和性別。

3.大規模數字人視頻數據集

在訓練中，Hallo係統利用了大量高質量的數字人視頻數據。盡管互聯網上存在大量的數字人視頻數據，但這些數據質量參差不齊，存在諸如音畫不匹配、背景雜音、視頻抖動等各種問題的數據噪聲。為了解決這一問題，研發團隊構建了一套自動化數字人視頻清洗引擎。截至目前，這一引擎已成功清洗了數千小時的高質量數字人視頻，涵蓋了上萬個信息脫敏的數字人肖像。這項工作使得大規模數據訓練數字人視頻生成模型成為可能。

Hallo實踐效果

高質量人臉動畫生成：在真人數據集上，Hallo展示出了高度一致的口型，並能夠體現出音頻的豐富細節，如情緒和講話節奏。

多類型人像風格支持：盡管Hallo僅在真人視頻數據集上進行訓練，但表現出了極強的泛化性，包括卡通、素描、雕塑等各類風格，這得益於原始擴散模型在超大規模圖像數據集上的訓練。

全局運動可控性：Hallo的另一個重要特點是全局可控性。相較於以往方法中需要借助參數化模型控製人臉運動強度，Hallo利用分層麵部特征注意力機製，通過調整三個區域的權重係數，能針對性地控製口型、表情和動作的運動強度，從而大幅提升人臉動畫生成的可控性。

影視製作的潛在應用：除此之外，Hallo展示了在影視製作領域的巨大潛力。通過僅有一段電影對白和一個虛擬角色，可以讓虛擬角色生動演繹經典電影場景。

應用前景

Hallo的發布為多個行業帶來了廣泛的應用前景。在娛樂產業方麵，AI驅動的角色動畫91视频免费观看具有廣泛的應用潛力，可在電影、電視劇和短視頻製作中發揮重要作用。通過運用這項91视频免费观看，製作團隊可以提高製作效率，實現更高質量的動畫效果，並最終實現成本的降低。這種91视频免费观看的運用將為娛樂產業帶來更多的創意空間和商業機會。此外，在遊戲和虛擬現實領域，AI生成的角色動畫為用戶提供更加沉浸式的體驗。通過引入AI角色，遊戲和虛擬現實應用可以呈現更生動、真實的虛擬世界，增強用戶的沉浸感和參與感。這將為遊戲產業和虛擬現實91视频免费观看帶來新的發展機遇，推動這些領域的創新和進步。

在教育領域，AI數字人對於弱勢人群的教學具有極其重要的意義。通過整合AI角色到教學視頻和活動中，可以為這一群體設計更具包容性和可訪問性的教學方法。AI數字人能通過多感官交互—如視覺、聽覺和觸覺—增加學習的直觀性和互動性。這不僅能夠吸引學生的注意力，還能夠幫助他們更好地理解抽象概念和複雜信息，從而提高學習的有效性。此外，AI數字人可以模擬悉心的教師角色，提供持續的鼓勵和支持，幫助學生在遇到挑戰時保持積極和自信。通過這種方式，高質量AI數字人的應用不僅能夠提供更符合弱勢人群需求的教育內容，還能夠幫助他們提高社交技能和生活自理能力，從而更好地融入社會，提高生活質量。這種教育方式的推廣和應用，有望為弱勢群體打開新的學習大門，為他們帶來更多的學習機會和社會參與可能。

未來展望

隨著星空人工智能圖形計算(AIGC)91视频免费观看的飛速進步，AI驅動的角色動畫將展現更加逼真自然的表現。未來，複旦和百度的研究團隊將持續優化模型性能，提升動畫生成質量，並擴展更廣泛的應用領域。通過與社區緊密合作和開源共享，Hallo有望在多個產業領域發揮作用，為國家星空人工智能91视频免费观看的發展和推廣貢獻力量。

繼續閱讀：元宇宙

星空人工智能91视频免费观看網倡導尊重與保護知識產權。如發現本站文章存在版權等問題，煩請30天內提供版權疑問、身份證明、版權證明、聯係方式等發郵件至1851688011@qq.com91视频免费播放將及時溝通與處理。！：首頁 > 新聞 » 複旦大學與百度聯合發布可控人臉視頻生成模型

相關推薦