2025 年 2 月 18 日,昆侖萬維宣布開源國內(nèi)首個面向 AI 短劇創(chuàng)作的視頻生成模型 SkyReels-V1,以下是關(guān)于它的詳細(xì)介紹:
- 數(shù)據(jù)基礎(chǔ):針對表演細(xì)節(jié)做了打標(biāo),對情緒、場景、表演訴求等進(jìn)行處理,利用 “千萬級別、高質(zhì)量” 的好萊塢級別數(shù)據(jù)進(jìn)行訓(xùn)練微調(diào)。
- 功能優(yōu)勢
- 影視化表情識別體系:可實現(xiàn) 11 種針對影視戲劇中的人物表情理解,如不屑、不耐煩、無助、厭惡等。
- 人物空間位置感知:基于人體三維重建技術(shù),能實現(xiàn)對視頻中多人的空間相對關(guān)系理解,助力生成影視級人物站位。
- 行為意圖理解:構(gòu)建超過 400 種行為語義單元,可實現(xiàn)對人物行為的精準(zhǔn)理解。
- 表演場景理解:能夠?qū)崿F(xiàn)人物 - 服裝 - 場景 - 劇情的關(guān)聯(lián)分析。
- 多模態(tài)生成支持:不僅支持文生視頻,還支持圖生視頻,是開源視頻生成模型中參數(shù)最大的支持圖生視頻的模型,在同等分辨率下各項指標(biāo)實現(xiàn)開源 SOTA。
- 推理速度:在自研推理優(yōu)化框架「SkyReels - Infer」的加持下,可實現(xiàn) 544p 分辨率,推理基于單臺 4090 用時 80s,還支持分布式多卡并行,支持 Context Parallel、CFG Parallel 和 VAE Parallel。
- 顯存優(yōu)化:采取 fp8 quantization 以及 parameter - level offload,滿足低顯存用戶級顯卡運(yùn)行需求。
- 延遲優(yōu)化:支持 flash attention、SageAttention,模型編譯優(yōu)化等,進(jìn)一步優(yōu)化延遲,基于開源 diffuser 庫,提升易用性。
- 推動行業(yè)發(fā)展:當(dāng)前全球 AI 視頻生成模型和產(chǎn)品存在不開源、用不到、費(fèi)用高、不好用等痛點,SkyReels - V1 的開源將面向 AI 短劇創(chuàng)作的技術(shù)成果回饋給開源社區(qū)和 AIGC 用戶,有望引導(dǎo)行業(yè)向更加開源、透明的方向發(fā)展。
- 降低創(chuàng)作門檻:創(chuàng)作者無需再為傳統(tǒng)影視制作中劇本創(chuàng)作、選演員、場景布置等環(huán)節(jié)耗費(fèi)大量時間與成本,只需通過普通電腦,依靠該開源模型,就能生成影視作品,使創(chuàng)作短劇不再是專業(yè)團(tuán)隊的專屬。
此外,為了實現(xiàn)更加精準(zhǔn)可控的人物視頻生成,昆侖萬維還同時開源了國內(nèi)首個 SOTA 級別基于視頻基座模型的表情動作可控算法 SkyReels - A1。 |