
GPT-4:GPT的一小步,多模態(tài)AI的一大步

除了能更好的完成ChatGPT的工作,它還能讀懂圖片的深層含義。
在ChatGPT風(fēng)靡全球數(shù)月后,OpenAI終于發(fā)布了它的大型多模態(tài)模型(large multimodal model)GPT-4,它不僅能與用戶(hù)一起生成、編輯,完成創(chuàng)意的迭代和技術(shù)寫(xiě)作任務(wù),更重要的是,它還能讀懂圖片。
OpenAI稱(chēng),GPT-4“比以往任何時(shí)候都更有創(chuàng)造性”,可以“更準(zhǔn)確地解決問(wèn)題”。官方在這次的發(fā)布過(guò)程中也提到一些合作方,包括Duolingo、Stripe、Khan Academy等。其中,引入GPT-4之后,改變最為明顯的就是一款叫“Be My Eyes”的應(yīng)用。
Be My Eyes在全世界擁有600多萬(wàn)名志愿者和視障與盲人用戶(hù),志愿者可以幫助用戶(hù)介紹攝像頭拍攝的畫(huà)面。GPT-4成為這個(gè)平臺(tái)上的第一個(gè)虛擬志愿者,用戶(hù)可以向這個(gè)虛擬志愿者傳送圖像,提供即時(shí)識(shí)別、解釋?zhuān)⑶乙詫?duì)話(huà)的形式提供協(xié)助。
以往的GPT-3.5無(wú)法將上述操作變成現(xiàn)實(shí),因?yàn)樗痪邆渥R(shí)別圖片的能力。這也是GPT-4作為一個(gè)大型多模態(tài)模型,與ChatGPT的GPT-3.5最大的不同之處。
簡(jiǎn)單來(lái)說(shuō),GPT-3.5能夠在一定程度上理解并使用人類(lèi)的語(yǔ)言,而GPT-4則是具備以人類(lèi)的視角理解圖像的能力。
官方給出的一些案例也令人驚艷,它可以幫你解釋一些迷因梗圖,或指出圖片中不自然的地方,或是根據(jù)簡(jiǎn)單的幾幅圖片給出說(shuō)明,甚至可以看圖總結(jié)論文、回答試卷中的問(wèn)題。
GPT-4清楚解釋了上面這幅梗圖的含義
GPT-4指出了圖中不自然的地方
GPT-4分別解釋了圖中每一格的畫(huà)面內(nèi)容
GPT-4分別回答了圖片中的問(wèn)題
多模態(tài)對(duì)GPT-4這樣的生成式AI來(lái)說(shuō)意義重大,除了Be My Eyes的例子,未來(lái)還可望應(yīng)用到一些設(shè)計(jì)工具和圖像處理產(chǎn)品上,連OCR(光學(xué)字符識(shí)別)技術(shù)也要甘拜下風(fēng)了。
視頻翻譯產(chǎn)品Targum Video的創(chuàng)辦人Altryne也表示,GPT-4的圖像理解能力已經(jīng)甩開(kāi)現(xiàn)有模型數(shù)里地。
不過(guò)遺憾的是,OpenAI還沒(méi)有把圖像輸入能力開(kāi)放給公眾體驗(yàn),目前我們可以通過(guò)付費(fèi)訂閱ChatGPT Plus或Quora Poe來(lái)嘗鮮。那么不會(huì)“看圖說(shuō)話(huà)”的GPT-4比GPT-3.5強(qiáng)在哪里呢?我們也通過(guò)Quora的Poe詢(xún)問(wèn)了一下GPT-4“本人”:
總的來(lái)說(shuō),相比GPT-3.5,GPT-4擁有更豐富的知識(shí),對(duì)人類(lèi)語(yǔ)言的理解能力也更準(zhǔn)確,可以更好的理解整體對(duì)話(huà)的主題,不像以前那樣一不小心就“歪樓”,非英語(yǔ)的語(yǔ)言理解能力也有所增強(qiáng),生成的文本也會(huì)更連貫,可讀性更高。
根據(jù)官方公布的數(shù)據(jù),GPT-4不僅具備理解圖片的能力,語(yǔ)言處理能力也有很大進(jìn)步,GPT-4的中文能力已經(jīng)超越GPT-3.5的英文能力了。
不過(guò)OpenAI CEO Sam Altman在Twitter上表示,GPT-4“仍然有局限性”,而且“第一次使用時(shí)似乎比你花更多時(shí)間使用它時(shí)更令人印象深刻”。
也就是說(shuō),僅從使用體驗(yàn)出發(fā),GPT-4在語(yǔ)言能力上的改變更多體現(xiàn)在一些細(xì)微之處,不會(huì)像ChatGPT剛出現(xiàn)時(shí)那樣驚為天人,不過(guò)對(duì)于多模態(tài)AI的實(shí)現(xiàn)來(lái)說(shuō),GPT-4的出現(xiàn)確也讓人類(lèi)再次邁出具有歷史意義的一大步。
本文章選自《AI啟示錄》雜志,閱讀更多雜志內(nèi)容,請(qǐng)掃描下方二維碼
