2D數據解鎖3D世界:首個面向運動學部件分解的多視角視頻擴散框架 微資訊
來源:機器之心Pro時間:2025-09-22 21:31:35
張昊,伊利諾伊大學香檳分校(UIUC)博士生,研究方向涵蓋 3D/4D 重建、生成建模與物理驅動動畫。目前在 Snap Inc. 擔任研究實習生,曾于 Stability AI 和 上海人工智能實驗室實習。本項目 Stable Part Diffusion 4D (SP4D) 由 Stability AI 與 UIUC 聯合完成,能夠從單目視頻生成時空一致的多視角 RGB 與運動學部件序列,并進一步提升為可綁定的三維資產。個人主頁:https://haoz19.github.io/
- 論文標題:Stable Part Diffusion 4D: Multi-View RGB and Kinematic Parts Video Generation
- 論文鏈接:https://arxiv.org/pdf/2509.10687
- 項目主頁:https://stablepartdiffusion4d.github.io/
研究背景與動機
【資料圖】
在角色動畫和 3D 內容制作中,rigging(骨骼綁定)與部件分解是實現可動畫化資產的核心。然而,現有方法存在明顯局限:
- 自動 rigging:依賴規模有限的 3D 數據集及骨骼/蒙皮標注,難以覆蓋多樣化的物體形態與復雜姿態,導致模型泛化性不足。
- 部件分解:現有方法多依賴語義或外觀特征(如「頭部」、「尾部」、「腿」等)進行分割,缺乏對真實運動學結構的建模,結果在跨視角或跨時間序列上往往不穩定,難以直接應用于動畫驅動。
為此,我們提出核心動機:利用大規模 2D 數據和預訓練擴散模型的強大先驗知識,來解決運動學部件分解的問題,并進一步延伸到自動 rigging。 這一思路能夠突破 3D 數據稀缺的瓶頸,讓 AI 真正學會生成符合物理運動規律的 3D 可動畫資產。
研究方法與創新
基于這一動機,我們提出了 Stable Part Diffusion 4D (SP4D) —— 首個面向運動學部件分解的多視角視頻擴散框架。主要創新包括:
- 雙分支擴散架構:同時生成外觀與運動學結構,實現 RGB 與部件的聯合建模。
- BiDiFuse 雙向融合模塊:實現 RGB 與部件信息的跨模態交互,提高結構一致性。
- 對比一致性損失:確保同一部件在不同視角、不同時間下保持穩定一致。
- KinematicParts20K 數據集:團隊基于 Objaverse-XL 構建超過 20,000 個帶骨骼注釋的對象,提供高質量訓練與評估數據。
這一框架不僅能生成時空一致的部件分解,還能將結果提升為 可綁定的 3D 網格,推導骨骼結構與蒙皮權重,直接應用于動畫制作。
實驗結果
在 KinematicParts20K 驗證集上,SP4D 相較現有方法取得了顯著提升:
- 分割精度:mIoU 提升至 0.68,相比 SAM2(0.15)與 DeepViT(0.17)大幅領先。
- 結構一致性:ARI 達到 0.60,遠高于 SAM2 的 0.05。
- 用戶研究:在「部件清晰度、跨視角一致性、動畫適配性」三項指標上,SP4D 平均得分 4.26/5,顯著優于 SAM2(1.96)和 DeepViT(1.85)2509.10687v1。
在 自動 rigging 任務中,SP4D 也展現出更強的潛力:
- 在 KinematicParts20K-test 上,SP4D 的 Rigging Precision 達到 72.7,相比 Magic Articulate(63.7)和 UniRig(64.3)有明顯優勢。
- 在用戶評估的動畫自然度上,SP4D 平均得分 4.1/5,遠高于 Magic Articulate(2.7)與 UniRig(2.3),展現出對未見類別與復雜形態的更好泛化。
這些結果充分證明了 2D 先驗驅動的思路 不僅能解決 kinematic part segmentation 的長期難題,還能有效延伸到自動 rigging,推動動畫與 3D 資產生成的全自動化。
結語
Stable Part Diffusion 4D (SP4D) 不僅是技術上的突破,也是一次跨學科合作的成果,并且被Neurips 2025 接受為 Spotlight。它展示了如何利用大規模 2D 先驗打開 3D 運動學建模與自動 rigging 的新局面,為動畫、游戲、AR/VR、機器人模擬等領域的自動化與智能化奠定了基礎。
標簽:
動畫
運動學
視頻擴散框架