昆侖萬維發(fā)布Matrix-Zero世界模型,開啟空間智能新時(shí)代

2月14日,昆侖萬維正式推出Matrix-Zero世界模型,成為中國(guó)第一家同時(shí)推出3D場(chǎng)景生成、可交互視頻生成模型的探索空間智能的企業(yè)。

Matrix-Zero世界模型包含兩款子模型:

3D場(chǎng)景生成大模型

昆侖萬維自研3D場(chǎng)景生成大模型,支持將用戶輸入的圖片轉(zhuǎn)化為可自由探索的真實(shí)合理的3D場(chǎng)景,比World Labs生成場(chǎng)景的探索范圍更大更自由,而且包括動(dòng)態(tài)物理效果;

可交互視頻生成大模型

昆侖萬維自研可交互視頻生成大模型,提供以用戶輸入為核心驅(qū)動(dòng)的可交互空間智能視頻生成方案,支持根據(jù)用戶實(shí)時(shí)輸入生成互動(dòng)視頻效果,具備更精準(zhǔn)控制的action model。

圖像和視頻作為當(dāng)今人類獲取信息的主要方式,3D場(chǎng)景生成和視頻生成技術(shù)的發(fā)展有望徹底改變內(nèi)容生產(chǎn)的方式,大幅提升創(chuàng)作效率?,F(xiàn)有的3D AIGC工具(如TripoAI、Meshy等)主要聚焦于單個(gè)物體的生成,難以構(gòu)建完整且合理的3D場(chǎng)景。而傳統(tǒng)3D建模方法則成本高昂、耗時(shí)冗長(zhǎng),難以滿足大規(guī)模內(nèi)容生產(chǎn)的需求。

相比之下,結(jié)合AI驅(qū)動(dòng)的2D視頻生成與3D場(chǎng)景生成技術(shù),不僅能大幅提升生成效率和泛化能力,使其適應(yīng)更廣泛的應(yīng)用場(chǎng)景,還能增強(qiáng)結(jié)果的一致性與物理合理性,從而帶來更加真實(shí)、沉浸的交互體驗(yàn)。這種融合技術(shù)將重塑數(shù)字內(nèi)容創(chuàng)作模式,提升影視制作、游戲開發(fā)、具身智能等領(lǐng)域的生產(chǎn)效率與創(chuàng)新能力,推動(dòng)行業(yè)邁向更高水平的發(fā)展。

作為一項(xiàng)新興的前沿技術(shù),空間智能融合了視頻生成、三維建模等多種技術(shù),實(shí)現(xiàn)對(duì)物理空間的數(shù)字化重建。其核心目標(biāo)是將二維圖像轉(zhuǎn)換為可交互的三維場(chǎng)景,為用戶提供更加自然、直觀和沉浸式的體驗(yàn)。在數(shù)字時(shí)代的AI浪潮中,3D場(chǎng)景生成、視頻生成模型以及相關(guān)空間智能技術(shù),正以破竹之勢(shì)給諸多行業(yè)帶來顛覆性變革,特別是具身智能、影視制作、游戲娛樂等場(chǎng)景。

01 昆侖萬維自研3D場(chǎng)景生成大模型,敢為人先開拓空間智能時(shí)代

昆侖萬維Matrix-Zero的3D場(chǎng)景生成功能,支持將用戶輸入的圖片轉(zhuǎn)化為可自由探索的真實(shí)合理的3D場(chǎng)景,具備全局一致性、可自由探索、支持不同風(fēng)格圖片輸入、支持風(fēng)格遷移、支持動(dòng)態(tài)場(chǎng)景生成等亮點(diǎn)。

Matrix-Zero生成的內(nèi)容為全局一致的3D場(chǎng)景,我們輸入一張圖片「城堡的花園一角」,可以生成一副360度環(huán)視后場(chǎng)景保持不變的3D場(chǎng)景,最后一幀回到起始幀,不會(huì)出現(xiàn)生成結(jié)果前后不一致現(xiàn)象,能夠應(yīng)用在3D游戲場(chǎng)景的可控、快速建模,以及具身智能的模擬場(chǎng)景快速搭建。

Matrix-Zero更亮眼的地方在于,可以支持在場(chǎng)景中進(jìn)行任意方向的長(zhǎng)距離、大范圍的探索,為電影/短劇場(chǎng)景鏡頭生成提供了更多的可能性。

從行進(jìn)方向來看,能實(shí)現(xiàn)先環(huán)視再前進(jìn)、后退、前進(jìn)后右轉(zhuǎn)、360度俯視、180度回頭、持續(xù)左轉(zhuǎn)、環(huán)視場(chǎng)景、大范圍前進(jìn)等更大、更自由的角度探索。當(dāng)我們走進(jìn)一個(gè)大廳,視角和行進(jìn)方向可以絲滑切換。

又或者我們?cè)谕粋€(gè)3D場(chǎng)景中,先讓它180度回頭(右上圖),再環(huán)視一圈(右下圖),它可以流暢地切換探索方向。

無論輸入圖片是卡通風(fēng)格或?qū)憣?shí)風(fēng)格,Matrix-Zero均可生成合理3D場(chǎng)景。亦或?qū)ν粡堓斎雸D片,也可以支持不同風(fēng)格的場(chǎng)景生成。Matrix-Zero能夠絲滑地支持不同風(fēng)格圖片輸入和風(fēng)格遷移。

那么讓我們輸入一張「荷花池塘」圖片和一張「位于森林中的房子」圖片,Matrix-Zero即刻生成了寫實(shí)的荷塘場(chǎng)景,也可以輕松切換輸出場(chǎng)景風(fēng)格,生成卡通風(fēng)格的房子。

不僅如此,動(dòng)態(tài)場(chǎng)景生成也不在話下,光照效果,水花動(dòng)態(tài)、云霧動(dòng)態(tài)等,Matrix-Zero均可生成合理3D場(chǎng)景,且動(dòng)態(tài)符合物理規(guī)律,后續(xù)可用于生成符合真實(shí)物理規(guī)律的3D場(chǎng)景/視頻,構(gòu)建真正的世界模型。

讓我們來看看自然界中普遍存在的光照效果和水流動(dòng)態(tài),Matrix-Zero生成的效果怎么樣。輸入一張「小橋流水」圖片,Matrix-Zero能夠生成栩栩如生的光照和水流效果,擬人逼真。

能夠?qū)崿F(xiàn)這樣的逼真效果,得益于昆侖萬維自研3D場(chǎng)景生成大模型,包含兩個(gè)核心模塊:場(chǎng)景布局生成模塊和紋理生成模塊。幾何生成模塊借助可微渲染和擴(kuò)散模型技術(shù),能創(chuàng)造出和輸入圖片一致的3D場(chǎng)景布局;紋理生成模塊在圖片生成模型和視頻生成模型基礎(chǔ)上訓(xùn)練,當(dāng)用戶在場(chǎng)景中運(yùn)動(dòng)時(shí),昆侖自研3D場(chǎng)景生成大模型不斷對(duì)場(chǎng)景缺失區(qū)域進(jìn)行幾何和紋理的補(bǔ)全,從而確保用戶在任何位置、任何角度都能看到合理、一致的場(chǎng)景。

02 自研可交互視頻生成大模型,讓自由探索3D世界成為現(xiàn)實(shí)

此前,谷歌Genie(可交互生成環(huán)境)系列已經(jīng)向大眾展示了世界模型的能力和魅力。為達(dá)到更好的流暢性、一致性等,昆侖萬維可交互視頻大模型建立在先進(jìn)的生成式視頻模型之上,結(jié)合自主研發(fā)的用戶交互模塊,最終實(shí)現(xiàn)了一種以用戶輸入為核心驅(qū)動(dòng)的空間智能視頻生成方案。

該方法能夠在保證開放領(lǐng)域視頻生成能力的同時(shí),進(jìn)一步增強(qiáng)對(duì)視頻內(nèi)容中視角移動(dòng)的精確控制,使其更加符合用戶的交互需求和預(yù)期。通過這種方式,我們不僅可以生成符合用戶意圖的視頻內(nèi)容,還能夠優(yōu)化空間智能模型的適配性,從而拓展在虛擬環(huán)境、交互式應(yīng)用以及沉浸式體驗(yàn)中的應(yīng)用場(chǎng)景。

例如輸入一張「夜晚的街道」圖片,Matrix-Zero可以接受用戶任意的鍵盤移動(dòng)方向控制、鼠標(biāo)移動(dòng),生成對(duì)應(yīng)的視頻能夠?qū)崿F(xiàn)前后左右移動(dòng)和視角移動(dòng)。

我們?cè)佥斎胍粡垺干衬箞D片,Matrix-Zero仍可以實(shí)現(xiàn)更自由地3D世界探索。

在Matrix-Zero中,用戶輸入交互模型作為可交互視頻模型的核心部分,專門用于解析用戶輸入信息,并將其轉(zhuǎn)化為視頻調(diào)整信號(hào),以確保視頻內(nèi)容能夠準(zhǔn)確響應(yīng)用戶操作,使交互體驗(yàn)更加直觀和流暢。該模塊包含多個(gè)子系統(tǒng),用于處理不同類型的用戶輸入,使其能夠精準(zhǔn)地影響視頻的動(dòng)態(tài)變化。包括以下幾個(gè)關(guān)鍵部分:

· 離散運(yùn)動(dòng)控制模塊

該模塊用于解析用戶輸入的離散控制信號(hào),例如前進(jìn)、跳躍、后退等基本運(yùn)動(dòng)指令。系統(tǒng)會(huì)對(duì)這些輸入進(jìn)行解析,并將其轉(zhuǎn)化為對(duì)應(yīng)的運(yùn)動(dòng)軌跡,從而影響視頻中的對(duì)象行為,使其符合用戶的交互需求。

· 連續(xù)視角控制模塊

視角移動(dòng)模塊主要用于解析鼠標(biāo)或其他輸入設(shè)備的連續(xù)控制信號(hào),例如視角變化、方向調(diào)整等動(dòng)態(tài)操作。該模塊能夠響應(yīng)用戶的實(shí)時(shí)輸入,并對(duì)視頻內(nèi)容進(jìn)行相應(yīng)調(diào)整,確保視角變換的平滑性和一致性。

· 3D場(chǎng)景位置追蹤模塊

該模塊基于三維空間定位技術(shù),提升視角移動(dòng)時(shí)的位置穩(wěn)定性。通過精確的空間坐標(biāo)追蹤,系統(tǒng)能夠確保在不同場(chǎng)景下視角變換的自然性,并減少突兀的畫面跳轉(zhuǎn)問題,使視頻內(nèi)容更加連貫。

· 滑動(dòng)窗口機(jī)制優(yōu)化控制體驗(yàn)

該機(jī)制用于引入時(shí)間序列中的歷史輸入信息,使系統(tǒng)能夠更準(zhǔn)確地預(yù)測(cè)用戶的下一步操作,并優(yōu)化控制響應(yīng)的平滑度。通過滑動(dòng)窗口技術(shù),系統(tǒng)能夠提高交互的流暢性,并有效減少輸入延遲,提高整體用戶體驗(yàn)。

作為針對(duì)圖片對(duì)應(yīng)的3D世界中自由探索提出的視頻生成系統(tǒng),Matrix-Zero能夠在不同環(huán)境下高效地生成高質(zhì)量的視頻內(nèi)容,并確保視頻的流暢性、一致性和合理性。

03 緊握AI時(shí)代脈搏,成為中國(guó)探索空間智能的領(lǐng)跑者

昆侖萬維作為中國(guó)AI領(lǐng)軍企業(yè),始終踐行公司使命——實(shí)現(xiàn)通用人工智能,讓每個(gè)人更好地塑造和表達(dá)自我,堅(jiān)持在人工智能領(lǐng)域自主研發(fā),持續(xù)推出AI產(chǎn)品。

過去三年,昆侖萬維在視覺多模態(tài)、深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等關(guān)鍵技術(shù)方向取得了一系列成績(jī),同時(shí)構(gòu)建起了完整的AI矩陣:最懂金融、學(xué)術(shù)的天工AI搜索,全球首個(gè)AI音樂創(chuàng)作平臺(tái)Mureka,AI短劇平臺(tái)SkyReels,AI社交產(chǎn)品Linky,AI游戲等,形成了“AI前沿基礎(chǔ)研究——基座模型——AI矩陣產(chǎn)品/應(yīng)用”的產(chǎn)業(yè)鏈。

2025年1月,「天工大模型4.0」o1版和4o版正式上線天工APP和網(wǎng)頁(yè)。2025年2月8日,昆侖萬維旗下「天工AI」正式推出PC版重大更新——上線“DeepSeek R1 + 聯(lián)網(wǎng)搜索”功能。

勇立潮頭,敢為人先。今天,昆侖萬維Matrix-Zero系列模型的開發(fā)和迭代也代表了公司對(duì)未來AI技術(shù)的提前布局,進(jìn)一步賦能公司AI業(yè)務(wù)矩陣。交互生成模型的落地將變革可交互內(nèi)容引擎,大大提升公司AI多矩陣產(chǎn)品的生產(chǎn)力。

Matrix-Zero世界模型預(yù)計(jì)4月份上線,將對(duì)公司AI游戲生產(chǎn)、AI短劇生產(chǎn)和編輯等業(yè)務(wù)進(jìn)一步賦能,為用戶和開發(fā)者帶來新的平臺(tái)和工具。當(dāng)視頻模型發(fā)展到可以逼真模擬物理世界時(shí),游戲可能不再需要傳統(tǒng)的3D引擎,許多實(shí)驗(yàn)和模擬將可以在虛擬環(huán)境中進(jìn)行,而影視創(chuàng)作也將變得更加普及,甚至成為每個(gè)人的基本技能。雖然這些看似是未來的場(chǎng)景,但技術(shù)正一步步將它們變?yōu)楝F(xiàn)實(shí),視頻生成模型的火熱正是這一趨勢(shì)的重要體現(xiàn)。

未來大模型發(fā)展將更加關(guān)注智能體工具和用戶交互??臻g智能技術(shù)不僅為未來智能體研發(fā)提供了虛擬平臺(tái),也帶給用戶全新的與生成世界交互的體驗(yàn),大大提升了交互的多樣性??臻g智能技術(shù)的發(fā)展也將是通往具身智能乃至AGI路上的一個(gè)重要技術(shù)里程碑。我們?nèi)詫⒊掷m(xù)升級(jí)迭代,研發(fā)更先進(jìn)的AI平臺(tái)、打磨體驗(yàn)更好的AI產(chǎn)品,進(jìn)一步推動(dòng)人工智能的繁榮發(fā)展。

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2025-02-18
昆侖萬維發(fā)布Matrix-Zero世界模型,開啟空間智能新時(shí)代
昆侖萬維發(fā)布Matrix-Zero世界模型,開啟空間智能新時(shí)代

長(zhǎng)按掃碼 閱讀全文