蘋果引領(lǐng)AI新潮流:StreamBridge端側(cè)視頻大語言模型框架,讓視頻實時AI響應

蘋果引領(lǐng)AI新潮流:StreamBridge端側(cè)視頻大語言模型框架,讓視頻實時AI響應

隨著科技的飛速發(fā)展,人工智能(AI)在各個領(lǐng)域的應用日益廣泛。近日,科技媒體marktechpost的一篇博文引起了我們的關(guān)注。據(jù)報道,蘋果公司與復旦大學聯(lián)手,推出了一種名為StreamBridge的端側(cè)視頻大語言模型(Video-LLMs)框架,該框架將助力AI理解直播流視頻,引領(lǐng)AI新潮流。

首先,我們來探討一下直播流視頻理解的挑戰(zhàn)與需求。傳統(tǒng)視頻大語言模型擅長處理靜態(tài)視頻,但在實時感知的場景下,如機器人技術(shù)、自動駕駛等,要求模型能快速理解直播視頻流內(nèi)容,并做出反應?,F(xiàn)有的模型在處理多輪實時理解和主動響應方面存在兩大難題。

為了解決這些問題,蘋果與復旦的研究者們開發(fā)了StreamBridge框架。該框架通過引入內(nèi)存緩沖區(qū)和輪次衰減壓縮策略,支持長上下文交互。這一創(chuàng)新不僅提升了模型的交互性能,還使其在處理最新視頻片段時保留了歷史視覺和對話上下文。

此外,該框架還引入了一個輕量化的獨立激活模型,無縫集成現(xiàn)有視頻大語言模型,實現(xiàn)了主動響應功能。這一創(chuàng)新不僅提升了模型的性能,還使其在無明確指令的情況下及時輸出反饋。

為了進一步提升流式視頻理解能力,研究團隊還推出了Stream-IT數(shù)據(jù)集。該數(shù)據(jù)集包含約60萬個樣本,融合了視頻與文本序列,支持多樣化的指令格式。這一創(chuàng)新為研究者們提供了豐富的資源,有助于提升流式視頻理解能力。

為了驗證StreamBridge框架的效果,我們在主流離線模型如LLaVA-OV-7B、Qwen2-VL-7B和Oryx-1.5-7B上進行測試。結(jié)果顯示,Qwen2-VL在OVO-Bench和Streaming-Bench上的平均分分別提升至71.30和77.04,超越了GPT-4o和Gemini 1.5 Pro等專有模型。這一成果證明了StreamBridge在流式視頻理解領(lǐng)域的強大潛力。

Oryx-1.5也取得了顯著進步,而LLaVA-OV性能略有下降。然而,通過對Stream-IT數(shù)據(jù)集的微調(diào),所有模型的表現(xiàn)均得到了提升。這進一步證明了StreamBridge在實時視頻理解領(lǐng)域的優(yōu)勢。

總的來說,StreamBridge端側(cè)視頻大語言模型框架的推出,將為AI領(lǐng)域帶來新的突破。它將助力AI理解直播流視頻,使機器人技術(shù)、自動駕駛等實時感知場景的性能得到顯著提升。作為引領(lǐng)AI新潮流的成果,StreamBridge將為未來帶來更多可能性,讓我們拭目以待!

以上便是關(guān)于StreamBridge端側(cè)視頻大語言模型框架的詳細介紹。蘋果公司與復旦大學的研究者們通過這一創(chuàng)新成果,再次證明了他們在AI領(lǐng)域的領(lǐng)先地位。隨著StreamBridge的廣泛應用,我們期待看到更多令人興奮的科技成果涌現(xiàn)。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2025-05-13
蘋果引領(lǐng)AI新潮流:StreamBridge端側(cè)視頻大語言模型框架,讓視頻實時AI響應
蘋果引領(lǐng)AI新潮流:StreamBridge端側(cè)視頻大語言模型框架,讓視頻實時AI響應 隨著科技的飛速發(fā)展,人工智能(AI)在各個領(lǐng)域的應用日益廣泛...

長按掃碼 閱讀全文