近期,IEEE國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議( Conference on Computer Vision and Pattern Recognition)CVPR 2025公布論文錄用結(jié)果,社交平臺(tái)Soul App技術(shù)論文《Teller: Real-Time Streaming Audio-Driven Portrait Animation with Autoregressive Motion Generation》(《基于自回歸動(dòng)作生成的實(shí)時(shí)流式音頻驅(qū)動(dòng)人像動(dòng)畫系統(tǒng)》)被接收。
Soul App團(tuán)隊(duì)在論文中提出了一個(gè)新的面向?qū)崟r(shí)音頻驅(qū)動(dòng)人像動(dòng)畫(即Talking Head)的自回歸框架,解決了視頻畫面生成耗時(shí)長(zhǎng)的行業(yè)挑戰(zhàn)外,還實(shí)現(xiàn)了說(shuō)話時(shí)頭部生成以及人體各部位運(yùn)動(dòng)的自然性和逼真性。此次論文的入選,也證明了Soul App在推動(dòng)多模態(tài)能力構(gòu)建特別是視覺(jué)層面能力突破上取得了階段性成果。
CVPR是人工智能領(lǐng)域最具學(xué)術(shù)影響力的頂級(jí)會(huì)議之一,是中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)推薦的A類國(guó)際學(xué)術(shù)會(huì)議。在谷歌學(xué)術(shù)指標(biāo)2024年列出的全球最有影響力的科學(xué)期刊/會(huì)議中,CVPR位列總榜第2,僅次于Nature。
根據(jù)會(huì)議官方統(tǒng)計(jì),本次CVPR 2025會(huì)議總投稿13008篇,錄用2878篇,錄用率僅為22.1%。相較2023年(25.8%)、2024年(23.6%),錄用率的持續(xù)下降也凸顯了CVPR不斷嚴(yán)格的審核標(biāo)準(zhǔn),以及論文入選競(jìng)爭(zhēng)的逐年激烈。
對(duì)Soul而言,研究成果再次入選國(guó)際頂級(jí)會(huì)議,證明了團(tuán)隊(duì)在AI領(lǐng)域,特別是多模態(tài)方向的自研能力受到行業(yè)和學(xué)術(shù)界認(rèn)可。2024年,Soul多模態(tài)情感識(shí)別研究論文《Multimodal Emotion Recognition with Vision-language Prompting and Modality Dropout》(《基于視覺(jué)語(yǔ)言提示與模態(tài)暫退的多模態(tài)情感識(shí)別》),入選ACM國(guó)際多媒體會(huì)議(ACM International Conference on Multimedia,ACM MM 2024)上組織的多模態(tài)與可靠性情感計(jì)算研討會(huì)MRAC 24。而在人工智能領(lǐng)域頂級(jí)的國(guó)際學(xué)術(shù)會(huì)議之一——國(guó)際人工智能聯(lián)合會(huì)議組織的第二屆多模態(tài)情感識(shí)別挑戰(zhàn)賽(MER24)上,Soul技術(shù)團(tuán)隊(duì)還在SEMI(半監(jiān)督學(xué)習(xí))賽道獲得第一名。
作為較早思考將AI應(yīng)用于社交領(lǐng)域的平臺(tái),2016年Soul在上線后快速推出了基于AI算法的靈犀引擎,重構(gòu)關(guān)系網(wǎng)絡(luò)發(fā)現(xiàn)的新模式,受到了廣大用戶的熱烈反饋,也堅(jiān)定了平臺(tái)對(duì)AI持續(xù)投入的發(fā)展路線。2020年Soul開(kāi)始啟動(dòng)AIGC技術(shù)研發(fā)工作,在智能對(duì)話、語(yǔ)音、3D虛擬人等方面擁有前沿積累,并較早將重點(diǎn)聚焦在多模態(tài)方向。
自2023年推出自研語(yǔ)言大模型Soul X后,Soul已陸續(xù)上線了語(yǔ)音生成大模型、語(yǔ)音通話大模型、音樂(lè)生成大模型等語(yǔ)音大模型能力。目前,Soul AI大模型能力已整體升級(jí)為了多模態(tài)端到端大模型,支持文字對(duì)話、語(yǔ)音通話、多語(yǔ)種、多模態(tài)理解、真實(shí)擬人等特性,能夠?qū)崿F(xiàn)更接近生活日常的交互對(duì)話和“類真人”的情感陪伴體驗(yàn)。
在Soul看來(lái),AI融入社交場(chǎng)景,除了需要AI介入內(nèi)容表達(dá)以及關(guān)系的發(fā)現(xiàn)、建立、沉淀等環(huán)節(jié),提高社交效率和社交體驗(yàn),同時(shí)也需要AI作為交互對(duì)象向個(gè)體提供情緒價(jià)值。而這要求團(tuán)隊(duì)必須加快提升AI的感知能力和交互能力,即需要在語(yǔ)音、視覺(jué)、NLP的融合上下功夫,讓用戶能實(shí)時(shí)與具備形象、表情、記憶的 AI 多模態(tài)交互,而這也是更接近真實(shí)社交互動(dòng)的方式。
在近期接受媒體采訪中,Soul App CTO陶明這樣解釋團(tuán)隊(duì)關(guān)注視覺(jué)交互的邏輯,“從交互的信息復(fù)雜度來(lái)講,人和人面對(duì)面的溝通是信息傳播方式最快的,也是最有效的一種。所以我們認(rèn)為在線上人機(jī)交互的過(guò)程當(dāng)中,需要有這樣的表達(dá)方式。”
此次論文的研究成果正是Soul在融合視覺(jué)的多模態(tài)交互方向的積極探索。在論文中核心介紹了Soul團(tuán)隊(duì)為提高視頻生成效率以及生成效果的擬人性、自然度所提出的創(chuàng)新方法。
該論文的動(dòng)機(jī)是解構(gòu)diffusion-base的模型關(guān)鍵步驟,用LLM和1step-diffusion進(jìn)行重構(gòu),融合視頻模態(tài),使SoulX大模型成為同時(shí)生成文字、語(yǔ)音、視頻的Unified Model。
具體而言,將talking head任務(wù)分成FMLG(面部Motion生成)、ETM(高效身體Movement生成)模塊。FMLG基于自回歸語(yǔ)言模型,利用大模型的強(qiáng)大學(xué)習(xí)能力和高效的多樣性采樣能力,生成準(zhǔn)確且多樣的面部Motion。ETM則利用一步擴(kuò)散,生成逼真的身體肌肉、飾品的運(yùn)動(dòng)效果。
實(shí)驗(yàn)結(jié)果表明,相比擴(kuò)散模型,該方案的視頻生成效率大幅提升,且從生成質(zhì)量上來(lái)看,細(xì)微動(dòng)作、面部身體動(dòng)作協(xié)調(diào)度、自然度方面均有優(yōu)異表現(xiàn)。
在Soul多模態(tài)大模型能力方向基礎(chǔ)上,該方案的提出將有助于AI構(gòu)建實(shí)時(shí)生成的“數(shù)字世界”,并且能夠以生動(dòng)的數(shù)字形象與用戶進(jìn)行自然的交互。
此前,Soul基于自身的多模態(tài)大模型能力上線了語(yǔ)音交互功能,受到了用戶的熱烈討論和積極反饋。如今,從語(yǔ)音到視覺(jué)的模態(tài)升級(jí),也意味著交互方式的顛覆式改變。
后續(xù),Soul將把最新的AI能力盡快落地到站內(nèi)多元場(chǎng)景中,如即將上線的實(shí)時(shí)視頻通話能力將融入平臺(tái)的AI虛擬人情感化陪伴體系“虛擬伴侶”、多對(duì)多互動(dòng)場(chǎng)景“群聊派對(duì)”等功能中,進(jìn)一步提升平臺(tái)AI虛擬人的交互能力,以及人機(jī)交互的在場(chǎng)感和情感溫度,為用戶帶來(lái)有趣、溫暖的社交體驗(yàn)。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )