四虎影视精品永久在线观看,中文字幕婷婷日韩欧美亚洲 ,婷婷成人综合激情在线视频播放,中文在线а√天堂,伊人久久大香线蕉成人

MiniGPT4-Video:讓大模型分析視頻內(nèi)容,依然有難度

作者:金旺
2024-04-26

MiniGPT4-Video有待繼續(xù)調(diào)優(yōu)。

Sora的發(fā)布,讓文生視頻成了過去幾個(gè)月里最熱門的一個(gè)話題,與此同時(shí),行業(yè)里也涌現(xiàn)出了不少與視頻內(nèi)容分析相關(guān)的多模態(tài)大模型應(yīng)用。

MiniGPT4-Video就是最近面世的與視頻相關(guān)的多模態(tài)大模型應(yīng)用之一。

該應(yīng)用由KAUST和哈佛大學(xué)研究團(tuán)隊(duì)在今年4月發(fā)表的論文中提出,是一個(gè)專為視頻理解設(shè)計(jì)的多模態(tài)大模型框架。

這一研究團(tuán)隊(duì)在論文中指出,在MiniGPT4-Video出現(xiàn)之前,行業(yè)中已經(jīng)有諸多多模態(tài)大模型的研究項(xiàng)目,諸如MiniGPT、Video-ChatGPT等,但這些研究項(xiàng)目各有缺陷,例如Video-ChatGPT在對視頻中內(nèi)容進(jìn)行轉(zhuǎn)換過程中,往往會(huì)造成信息丟失,而且無法充分利用視頻中的動(dòng)態(tài)時(shí)間信息。

他們提出的MiniGPT4-Video是通過將每四個(gè)相鄰視覺標(biāo)記連接,減少了標(biāo)記數(shù)量,同時(shí)也降低了信息損失對應(yīng)用帶來的影響。

與此同時(shí),他們通過為視頻的每一幀添加字幕,從而將每一幀表示為由視頻編碼器提取的視覺標(biāo)記與由LLM標(biāo)記器提取的文本標(biāo)記的組合,這讓大模型能夠更全面地理解視頻內(nèi)容,從而同時(shí)響應(yīng)視覺和文本查詢信息。

眾所周知,對于多模態(tài)大模型而言,數(shù)據(jù)最為關(guān)鍵。

據(jù)悉,為了訓(xùn)練MiniGPT4-Video,該研究團(tuán)隊(duì)用到了三個(gè)數(shù)據(jù)集:

第一個(gè)數(shù)據(jù)集是包含了15938個(gè)濃縮電影視頻字幕的視頻作為數(shù)據(jù)集(CMD),在這個(gè)數(shù)據(jù)集中,每個(gè)視頻長度為1-2分鐘;

第二個(gè)數(shù)據(jù)集是牛津大學(xué)發(fā)布的一個(gè)擁有200萬視頻量的開源數(shù)據(jù)集Webvid,為了和CMD數(shù)據(jù)保持一致,該研究團(tuán)隊(duì)將這一數(shù)據(jù)集中的數(shù)據(jù)也都裁剪到了1-2分鐘;

第三個(gè)數(shù)據(jù)集是一個(gè)擁有13224個(gè)視頻、100000個(gè)問答對話和注解的數(shù)據(jù)集,這個(gè)數(shù)據(jù)集中的數(shù)據(jù)質(zhì)量很高,不僅針對視頻內(nèi)容提供了平均57個(gè)單詞組成的問題答案,這些問題還涵蓋多種問題類型,例如視頻摘要、基于描述的QA,以及時(shí)間、空間、邏輯關(guān)系方面的推理。

由此研發(fā)出的這樣一個(gè)MiniGPT4-Video模型,究竟能有什么用?

該研究團(tuán)隊(duì)在研究過程中,一共測試了MiniGPT4-Video三項(xiàng)能力:視頻ChatGPT能力、開放式問題回答能力、選擇題回答能力。

作為通過視頻數(shù)據(jù)訓(xùn)練的多模態(tài),MiniGPT4-Video最核心的能力其實(shí)是開放式問題的回答能力。

就這一能力,至頂網(wǎng)分別找了三個(gè)視頻進(jìn)行了實(shí)際測試——一個(gè)是由Pika生成的3秒煎肉視頻、一個(gè)是42秒的機(jī)器人演示視頻、一個(gè)是50秒的《老友記》節(jié)選片段。

先說測試結(jié)果,將三個(gè)視頻分別上傳,并對MiniGPT4-Video進(jìn)行提問——“這個(gè)視頻談了什么?”后,最終只有第二個(gè)視頻給出了完整的答案,給出的答案與視頻內(nèi)容基本一致。

由此可見,現(xiàn)在的MiniGPT4-Video在做視頻內(nèi)容解析時(shí),不僅對視頻長度有要求,對視頻質(zhì)量同樣有較高的要求,第二個(gè)視頻之所以能有不錯(cuò)的輸出結(jié)果,主要是因?yàn)橐曨l內(nèi)容邏輯性更強(qiáng),而且有一些字幕介紹。

不過,針對第二個(gè)視頻,我們就同一問題進(jìn)行了多次提問,給出的答案并不一致,這是生成式AI的特性,第二次給出的答案還將視頻中的機(jī)器人識別成了人,整體描述也出現(xiàn)了錯(cuò)誤。

現(xiàn)在看來,MiniGPT4-Video在實(shí)際使用時(shí),仍會(huì)存在各種各樣的問題,還有待研究團(tuán)隊(duì)繼續(xù)調(diào)優(yōu)。

本文章選自《AI啟示錄》雜志,閱讀更多雜志內(nèi)容,請掃描下方二維碼

《AI啟示錄》雜志