MiniGPT4-Video：讓大模型分析視頻內(nèi)容，依然有難度

作者：金旺

2024-04-26

“

MiniGPT4-Video有待繼續(xù)調(diào)優(yōu)。

Sora的發(fā)布，讓文生視頻成了過去幾個(gè)月里最熱門的一個(gè)話題，與此同時(shí)，行業(yè)里也涌現(xiàn)出了不少與視頻內(nèi)容分析相關(guān)的多模態(tài)大模型應(yīng)用。

MiniGPT4-Video就是最近面世的與視頻相關(guān)的多模態(tài)大模型應(yīng)用之一。

該應(yīng)用由KAUST和哈佛大學(xué)研究團(tuán)隊(duì)在今年4月發(fā)表的論文中提出，是一個(gè)專為視頻理解設(shè)計(jì)的多模態(tài)大模型框架。

這一研究團(tuán)隊(duì)在論文中指出，在MiniGPT4-Video出現(xiàn)之前，行業(yè)中已經(jīng)有諸多多模態(tài)大模型的研究項(xiàng)目，諸如MiniGPT、Video-ChatGPT等，但這些研究項(xiàng)目各有缺陷，例如Video-ChatGPT在對視頻中內(nèi)容進(jìn)行轉(zhuǎn)換過程中，往往會(huì)造成信息丟失，而且無法充分利用視頻中的動(dòng)態(tài)時(shí)間信息。

他們提出的MiniGPT4-Video是通過將每四個(gè)相鄰視覺標(biāo)記連接，減少了標(biāo)記數(shù)量，同時(shí)也降低了信息損失對應(yīng)用帶來的影響。

與此同時(shí)，他們通過為視頻的每一幀添加字幕，從而將每一幀表示為由視頻編碼器提取的視覺標(biāo)記與由LLM標(biāo)記器提取的文本標(biāo)記的組合，這讓大模型能夠更全面地理解視頻內(nèi)容，從而同時(shí)響應(yīng)視覺和文本查詢信息。

眾所周知，對于多模態(tài)大模型而言，數(shù)據(jù)最為關(guān)鍵。

據(jù)悉，為了訓(xùn)練MiniGPT4-Video，該研究團(tuán)隊(duì)用到了三個(gè)數(shù)據(jù)集：

第一個(gè)數(shù)據(jù)集是包含了15938個(gè)濃縮電影視頻字幕的視頻作為數(shù)據(jù)集（CMD），在這個(gè)數(shù)據(jù)集中，每個(gè)視頻長度為1-2分鐘；

第二個(gè)數(shù)據(jù)集是牛津大學(xué)發(fā)布的一個(gè)擁有200萬視頻量的開源數(shù)據(jù)集Webvid，為了和CMD數(shù)據(jù)保持一致，該研究團(tuán)隊(duì)將這一數(shù)據(jù)集中的數(shù)據(jù)也都裁剪到了1-2分鐘；

第三個(gè)數(shù)據(jù)集是一個(gè)擁有13224個(gè)視頻、100000個(gè)問答對話和注解的數(shù)據(jù)集，這個(gè)數(shù)據(jù)集中的數(shù)據(jù)質(zhì)量很高，不僅針對視頻內(nèi)容提供了平均57個(gè)單詞組成的問題答案，這些問題還涵蓋多種問題類型，例如視頻摘要、基于描述的QA，以及時(shí)間、空間、邏輯關(guān)系方面的推理。

由此研發(fā)出的這樣一個(gè)MiniGPT4-Video模型，究竟能有什么用？

該研究團(tuán)隊(duì)在研究過程中，一共測試了MiniGPT4-Video三項(xiàng)能力：視頻ChatGPT能力、開放式問題回答能力、選擇題回答能力。

作為通過視頻數(shù)據(jù)訓(xùn)練的多模態(tài)，MiniGPT4-Video最核心的能力其實(shí)是開放式問題的回答能力。

就這一能力，至頂網(wǎng)分別找了三個(gè)視頻進(jìn)行了實(shí)際測試——一個(gè)是由Pika生成的3秒煎肉視頻、一個(gè)是42秒的機(jī)器人演示視頻、一個(gè)是50秒的《老友記》節(jié)選片段。

先說測試結(jié)果，將三個(gè)視頻分別上傳，并對MiniGPT4-Video進(jìn)行提問——“這個(gè)視頻談了什么？”后，最終只有第二個(gè)視頻給出了完整的答案，給出的答案與視頻內(nèi)容基本一致。

由此可見，現(xiàn)在的MiniGPT4-Video在做視頻內(nèi)容解析時(shí)，不僅對視頻長度有要求，對視頻質(zhì)量同樣有較高的要求，第二個(gè)視頻之所以能有不錯(cuò)的輸出結(jié)果，主要是因?yàn)橐曨l內(nèi)容邏輯性更強(qiáng)，而且有一些字幕介紹。

不過，針對第二個(gè)視頻，我們就同一問題進(jìn)行了多次提問，給出的答案并不一致，這是生成式AI的特性，第二次給出的答案還將視頻中的機(jī)器人識別成了人，整體描述也出現(xiàn)了錯(cuò)誤。

現(xiàn)在看來，MiniGPT4-Video在實(shí)際使用時(shí)，仍會(huì)存在各種各樣的問題，還有待研究團(tuán)隊(duì)繼續(xù)調(diào)優(yōu)。

本文章選自《AI啟示錄》雜志，閱讀更多雜志內(nèi)容，請掃描下方二維碼

四虎影视精品永久在线观看,中文字幕婷婷日韩欧美亚洲 ,婷婷成人综合激情在线视频播放,中文在线а√天堂,伊人久久大香线蕉成人

MiniGPT4-Video：讓大模型分析視頻內(nèi)容，依然有難度

MiniGPT4-Video：讓大模型分析視頻內(nèi)容，依然有難度