中國版Sora來了!清華打造!背后創業公司已融資數億元
來源:證券時報網作者:周春媚2024-04-27 19:46

時隔兩個月,清華團隊打造了一個中國版的Sora視頻大模型。

4月27日,在中關村論壇未來人工智能先鋒論壇上,中國首個長時長、高一致性、高動態性視頻大模型Vidu正式發布。這一模型由清華大學和大模型創業公司生數科技聯合發布,可以一鍵生成長度達16秒、分辨率為1080P的高清視頻內容。

證券時報記者獨家獲悉,清華大學人工智能研究院副院長、生數科技首席科學家朱軍在Vidu發布后發聲表示:“Vidu,we do, we did, we do together!感謝小伙伴們日以繼夜的堅持,在實驗室架構上開花結果?!睋榻B,這也是自OpenAI發布Sora以后,全球率先取得重大突破的視頻大模型。

Sora發布后,行業內一直有團隊宣稱要追趕和復現Sora,而Vidu團隊用兩個月的時間率先跑出來。記者梳理發現,生數科技在多模態大模型領域已經有較深的積累,也是目前多模態大模型賽道估值最高的初創公司之一。目前公司已完成三輪融資,融資額達數億元人民幣,投資方包括啟明創投、智譜AI、BV百度風投、錦秋基金等一眾機構。

對標Sora,生成視頻連貫高清

“畫室里的一艘船駛向鏡頭”,只需要輸入這樣一句簡單的指令,即可以生成效果逼真、鏡頭連貫的一段視頻。在生數科技發布的Vidu模型生成視頻樣片中,視頻的整體質感幾乎可與Sora相媲美。

據生數科技介紹,Vidu模型采用團隊原創的Diffusion與Transformer融合的架構U-ViT,支持一鍵生成長達16秒、分辨率高達1080P的高清視頻內容?!癠-ViT架構早在2022年9月就由團隊提出,早于Sora采用的DiT架構,是全球首個Diffusion與Transformer融合的架構?!鄙鷶悼萍急硎?。

記者注意到,今年3月生數科技完成新一輪融資后,公司就公開表示,雖然Sora的出現表明美國在多模態大模型領域具有領先性,“但中國也并非完全從零開始的階段”。據介紹,朱軍在2023年1月就提出了基于Transformer的多模態擴散大模型UniDiffuser,采用了U-ViT,該架構與Sora的架構路線完全一致,區別在于UniDiffuser主要應用于圖像生成任務,但也可以以此為基礎進行視頻任務的拓展。

正是基于在機器學習和多模態大模型的長期積累,團隊才能夠在短短的兩個月時間里突破了長視頻表示與處理的多項關鍵技術,成功研發推出Vidu視頻大模型。朱軍在Vidu模型發布現場表示,Vidu主要有以下方面的特點與優勢:

一是模擬真實物理世界,可以生成復雜、細節豐富的場景,光影效果與人物表情都能夠符合真實的物理規律。

二是富有想象力,可以虛構場景以及想象超現實主義的畫面。

三是具有多鏡頭語言,不再局限于固定鏡頭,能夠在遵循主體一致性的情況下實現遠景、近景、中景、特寫等不同鏡頭的動態切換,還可以實現長鏡頭、追焦等效果。

四是有出色的視頻時長,能支持16秒長度的視頻生成,保持鏡頭和主體的連貫一致。

五是能理解中國元素,可以更好地理解生成熊貓、龍等富有中國文化特色的形象。

Vidu生成的龍、熊貓等中國文化元素視頻

背后團隊來自清華,已融資數億元

Vidu的背后,是一家來自清華的明星創業公司生數科技。

公開資料顯示,生數科技成立于2023年3月,核心成員來自清華大學人工智能研究院,致力于自主研發世界領先的可控多模態通用大模型。公司的CEO本碩就讀于清華大學計算機系的唐家渝,首席科學家由清華人工智能研究院副院長朱軍擔任,CTO鮑凡則是清華大學計算機系博士生、朱軍教授的課題組成員,長期關注擴散模型領域研究。

記者注意到,今年3月,唐家渝曾在溝通會上向媒體表示,今年內公司的大模型一定能達到Sora目前版本的效果,“但很難說是三個月還是半年”。然而,Vidu卻提前交出了一份令人驚艷的考卷,這主要得益于團隊是國內最早布局多模態大模型的團隊之一,多年以來在這一領域形成了深厚的積累。

據唐家渝介紹,生數科技目前采取模型層和應用層兩條路走路的模式。一方面,構建覆蓋文本、圖像、視頻、3D 模型等多模態能力的底層通用大模型,面向B端提供模型服務能力;另一方面,面向圖像生成、視頻生成等場景打造垂類應用,按照訂閱等形式收費,應用方向主要是游戲制作、影視后期等內容創作場景。

記者梳理發現,生數科技自成立以來就備受資本關注。天眼查數據顯示,生數科技目前共完成3輪融資。2023年6月,完成近億元人民幣天使輪融資,投資方包括螞蟻集團、BV百度風投、卓源亞洲、卓源資本;2023年8月,完成數千萬人民幣天使+輪融資,投資方為錦秋基金;2024年3月,完成數億元人民幣A輪融資,投資方除了啟明創投、達泰資本、智譜AI等新機構以外,還有BV百度風投、卓源亞洲兩個老股東。

在三輪融資總計數億元人民幣的資本加持下,生數科技已成為目前國內多模態大模型中估值最高的初創公司之一。生數科技表示,Vidu的問世不僅是U-ViT融合架構在大規模視覺任務中的又一次成功驗證,也代表了生數科技在多模態原生大模型領域的持續創新能力和領先性。

責編:朱雨蒙

校對:冉燕青


責任編輯: 闕福生
聲明:證券時報力求信息真實、準確,文章提及內容僅供參考,不構成實質性投資建議,據此操作風險自擔
下載“證券時報”官方APP,或關注官方微信公眾號,即可隨時了解股市動態,洞察政策信息,把握財富機會。
網友評論
登錄后可以發言
發送
網友評論僅供其表達個人看法,并不表明證券時報立場
暫無評論
為你推薦
時報熱榜
換一換
    熱點視頻
    換一換
    一个人免费视频在线观看高清直播