今年初,由OpenAI發(fā)布的文生視頻大模型Sora震驚了世界。僅需輸入文字指令,便可生成長達一分鐘高清分辨率、畫面精致的動態(tài)視頻。Sora優(yōu)異的性能表現(xiàn)讓許多人感嘆。但同時,關于國內(nèi)人工智能技術發(fā)展狀況也不可避免地被提及國內(nèi)能否研發(fā)出中文版的Sora?

▲Sora生成視頻截圖。圖片來源:OpenAI官網(wǎng)
3月12日,南山轄區(qū)的北京大學深圳研究生院-兔展智能AIGC聯(lián)合實驗室正式發(fā)布了“Open-Sora”計劃旨在復現(xiàn)一個“開源版Sora”。該項目由2014年成立的南山企業(yè)深圳兔展智能創(chuàng)始人、CEO董少靈與北京大學信息工程學院助理教授、博士生導師袁粒領銜發(fā)起,期望通過產(chǎn)業(yè)公司和科研機構的強強聯(lián)手,以開源的方式對外傳播中國團隊的技術自信,號召全球社區(qū)一起做人類普惠的技術內(nèi)容。


復現(xiàn)“開源版Sora”全球用戶都可用
不久前,馬斯克對OpenAI提起了訴訟,指控OpenAI背離了創(chuàng)立初衷,從一個開源的非營利組織轉變?yōu)殚]源、追求商業(yè)利益的機構。截至目前,發(fā)布近一個月的Sora還尚未面向全部公眾開放,在其官方網(wǎng)站上也只有一份非常簡短的技術報告,并未涉及模型背后的原理——在董少靈看來,“OpenAI”正逐漸變成“CloseAI”。
“與之恰恰相反,我們Open-Sora Plan中的數(shù)據(jù)是完全開源的,全世界范圍內(nèi)的用戶都可以直接拿去用,甚至利用它們來盈利。”作為技術模塊的主要負責人,袁粒在發(fā)布現(xiàn)場向記者表示。據(jù)袁粒介紹,Open-Sora計劃的核心技術框架包括視頻編碼器與解碼器、Diffusion Transformer模型和條件注入模型三大模塊,目前基于已經(jīng)搭好的訓練框架,能夠支持動態(tài)輸入、多尺度、多分辨率的訓練,對于可變比例、可變時長的視頻已經(jīng)取得了較好的生成效果。

與“財大氣粗”的OpenAI相比,該團隊在條件和算力存在一定缺口的情況下選擇了更高效、低功耗的大模型訓練方式,例如用“2D+1D Diffusion Transformer”替代計算量更大的3D Diffusion Transformer,以及同步推進除了文本控制外的更多條件控制的視頻生成訓練。
該項目在GitHub上一經(jīng)發(fā)布,就立馬引起國際人工智能界相當一部分的關注。發(fā)布一周內(nèi)就有超5000名技術開發(fā)人員為該項目標星,融合了30余次開源創(chuàng)作者的拉取請求(Pull Request),獲得14萬余次訪問,代碼被克隆超800次,來自美國、英國、加拿大、德國、澳大利亞、迪拜、沙特阿拉伯、伊朗等多個國家的技術人員參與其中,積極貢獻。
在袁粒看來,“Open-Sora”作為一個開源的項目,其優(yōu)勢在于能夠集結全世界技術人員的力量,讓大家在自己擅長的領域發(fā)揮專業(yè)優(yōu)勢,同時也能夠獲得算力和數(shù)據(jù)方面的資源支持。目前,該計劃“初步驗證當前框架有效性”的第一階段目標已完成,第二階段團隊希望在有效框架基礎上訓練出能夠生成20秒以上720p清晰度視頻的模型,同時將“生成更加逼近Sora時長和效果的視頻”作為第三階段的拓展目標。
盡管目前由于較大的算力缺口和數(shù)據(jù)要求,能夠實現(xiàn)拓展目標的難度較大,但董少靈依然表示:“在技術方面中國并不比Sora弱,Sora能做的我們也能做,大家要樹立這樣的自信。”
不止步于娛樂視頻生產(chǎn),AI技術應賦能產(chǎn)業(yè)
Open-Sora背后的底層模型,是兔展智能在去年推出的基于視覺為核心的原創(chuàng)多模態(tài)大模型“兔靈”,這是一個視覺占七成、語言占三成的全新混合體。同是作為視覺大模型,目前外界對Sora的想象止步于娛樂向視頻的生產(chǎn),但兔展智能對于Open-Sora的展望卻遠不止于此,對董少靈來說,將Open-Sora背后的底層模型打造成深植于產(chǎn)業(yè)、賦能產(chǎn)業(yè)發(fā)展的中國本土的視覺大模型,讓產(chǎn)業(yè)的供給與用戶的需求更精準的匹配,才是更有價值的事情。

在董少靈的介紹里,“兔靈”是一個聚焦于設計領域的視覺大模型,能夠根植于工業(yè)設計、建筑設計、室內(nèi)設計、服裝設計等多個設計類細分行業(yè),在供給大于需求的時代讓客戶的個性化需求更加精準,同時節(jié)約設計成本、打通產(chǎn)業(yè)鏈,實現(xiàn)真正的“人工智能+”賦能行業(yè)。
發(fā)布會現(xiàn)場,董少靈對目前大模型已經(jīng)落地的項目進行了展示。其中在建筑設計方面,“兔靈”能夠通過文本描述引導生成三維建筑模型,自由調(diào)整建筑視角,并結合AI局部重繪的能力補全設計效果圖,這樣一來實現(xiàn)方案設計及效果圖制作提效97%,成本節(jié)約達14.6%。
“我們想做的絕不是‘下一代的抖音’,而是希望能將AI真正應用到行業(yè)中,更加精準地匹配產(chǎn)業(yè)鏈中的供給與需求。”董少靈向記者表示。在他的展望中,隨著Open-Sora計劃的不斷發(fā)展,“兔靈”大模型也將不斷獲得訓練,未來,不具備設計專業(yè)技能的普通人也能夠設計出個性化的物品,隨之而來的則是建筑、服裝、材料等各個行業(yè)產(chǎn)能的提高與產(chǎn)業(yè)鏈的完善。
本次Open-Sora開源計劃堅持“人類級使命”“奮斗者為本”“開放式創(chuàng)新”“真問題驅動”四大原則,共同探索產(chǎn)學研協(xié)同創(chuàng)新發(fā)展的新路徑。未來,兔展智能與北京大學深圳研究生院將在推動視覺大模型更好賦能中國產(chǎn)業(yè)發(fā)展方面攜手并進,為世界帶來更多中國聲音。
來源?|??蛇口消息報?綜合深圳商報?讀特新聞 SNG大灣區(qū)
編輯?|?喻夢婷?責編?|?楊澤楠??審核 |?盧東勃?王婷婷
轉載 | 創(chuàng)新南山