
站在搜索肩膀上的夸克大模型,讓AI“幻覺”無處可逃

怎么通俗理解AI幻覺呢,就像“秦始皇騎摩托車”,說白了是驢唇不對馬嘴的感覺。
AI幻覺指的是人工智能系統(tǒng)在處理信息時產(chǎn)生的錯誤或歪曲現(xiàn)象,尤其是在解釋和生成數(shù)據(jù)時出現(xiàn)的非現(xiàn)實性結(jié)果。
怎么通俗理解AI幻覺呢,就像“秦始皇騎摩托車”,說白了是驢唇不對馬嘴的感覺。
在AI領(lǐng)域,雖然AI模型的訓(xùn)練和優(yōu)化在不斷增強(qiáng),但是基于數(shù)據(jù)的不斷增加,算法的局限性以及復(fù)雜系統(tǒng)的不可預(yù)測等因素,勢必出現(xiàn)訓(xùn)練數(shù)據(jù)的不足或偏差,從而產(chǎn)生AI幻覺。
比如,文本生成模型編造出的虛假新聞或文章,語音識別系統(tǒng)誤解指令或生成不合邏輯的回應(yīng),如果這些錯誤出現(xiàn)在自動駕駛、醫(yī)療診斷上,造成的就不僅僅是經(jīng)濟(jì)損失,有可能對人的生命造成威脅。
近期,在CMMLU權(quán)威大模型性能評測中,阿里巴巴智能信息事業(yè)群發(fā)布全棧自研、千億級參數(shù)的夸克大模型成績位列榜首。評測顯示,夸克大模型整體能力已經(jīng)超過GPT-3.5,在寫作、考試等部分場景中優(yōu)于GPT-4?梢哉f憑借過硬的研發(fā)能力及數(shù)據(jù)、行業(yè)、平臺等優(yōu)勢成為新晉“學(xué)霸”。
(夸克技術(shù)負(fù)責(zé)人蔣冠軍)
那么如何解決大模型幻覺問題,夸克技術(shù)負(fù)責(zé)人蔣冠軍給出自己的思考和實踐。
夸克技術(shù)負(fù)責(zé)人蔣冠軍表示要解決大模型幻覺問題,一方面要先解決知識正確性,另一方面是算法的優(yōu)化。
算法優(yōu)化方面,憑借語義理解、邏輯推理、內(nèi)容生成等技術(shù)優(yōu)勢,夸克大模型在CMMLU權(quán)威榜單的最新評測結(jié)果中,取得排名第一的優(yōu)異成績。在國內(nèi)專業(yè)考試測試中,夸克大模型高考成績接近滿分,并以486分的高水平通過臨床執(zhí)業(yè)醫(yī)師資格考試,是名副其實的“學(xué)霸”。
知識能力方面,夸克大模型具備了對不良、虛假信息識別、回答和指引的出色能力。夸克大模型擁有廣泛的知識覆蓋、上下文理解、創(chuàng)造性表達(dá)、信息搜集和整合、多語言支持等,同時具備外接專業(yè)知識增強(qiáng)、檢索增強(qiáng)能力,進(jìn)一步提升跨領(lǐng)域、時效性的知識和語言理解能力。此外,夸克大模型還具有撰寫各類文本的強(qiáng)大文學(xué)創(chuàng)作能力,以及準(zhǔn)確、合理、連貫的對話回復(fù)能力。
大模型站在搜索引擎上,讓AI“幻覺”無處可逃
清華大學(xué)新聞學(xué)院教授、博士生導(dǎo)師沈陽認(rèn)為人工智能的基本原理是概率模型,概率模型一定會犯錯誤。
如大模型無法解決的“幻覺”問題,就無法保證結(jié)果的準(zhǔn)確性和事實性。比如你問他美國電影的007的男主角和女主角是誰?AI說,男主角是小帥,女主角是小美。這個信息怎么來的?可能是大量短視頻里的信息,誤導(dǎo)了大模型。
如何確保收集更全面、多樣化的數(shù)據(jù),從而減少大模型的錯誤率和知識的正確性,一個重要的措施就是要跟搜索引擎進(jìn)行連接。
搜索引擎跟大模型的結(jié)合是天然之配。包括大模型中最重要的玩家像谷歌、百度,最核心的技術(shù)就是搜索。
沈陽教授談到,未來將會沒有搜索引擎的概念,只會有大模型的概念。搜索引擎和大模型之間的邏輯關(guān)系如下:
搜索引擎的數(shù)據(jù)量很大,天然具有各種網(wǎng)絡(luò)公開數(shù)據(jù)。
搜索引擎在內(nèi)容安全上,已經(jīng)經(jīng)歷了長時間的考驗。
搜索引擎中用戶提供了大量的查詢需求,這些查詢需求和用戶的點擊、返回的結(jié)果,本身就是一種交互,對這些交互做一些改造。那么結(jié)合大模型的話,可以把搜到的結(jié)果做聚合和整合,就可以實現(xiàn)信息理解和交互。
蔣冠軍談到夸克結(jié)合搜索,對于大模型錯誤率的降低有很大的幫助。
對于夸克而言,基于搜索技術(shù)能力的積累,在解決幻覺問題時,也就是模型輸出錯誤問題時,還是相對有優(yōu)勢的。
“我們現(xiàn)在的夸克大模型在科普問答,我們純模型的幻覺率是25%。這個值在國內(nèi)相對是比較領(lǐng)先的,很多大模型公司宣傳時,從來不會講它的錯誤率,因為錯誤率比較高。” 蔣冠軍談到。
夸克基于搜索知識體系的整體積累,結(jié)合知識圖譜、搜索內(nèi)容和在醫(yī)療、教育、法律行業(yè)上的數(shù)據(jù)積累,通過知識外化的方式,能夠把通用知識的錯誤率降到15%以下。像醫(yī)療、法律等行業(yè),現(xiàn)在的搜索結(jié)果都是醫(yī)生三審三校的內(nèi)容,內(nèi)容質(zhì)量很高,夸克也做了很多知識圖譜和知識數(shù)據(jù)的積累和建設(shè)。像優(yōu)質(zhì)內(nèi)容行業(yè)的知識錯誤率,能降到5%以下。5%基本上達(dá)到較高的可用性。
同時夸克本身就具備強(qiáng)大的搜索引擎,搜索引擎本身就是海量的網(wǎng)頁數(shù)據(jù),夸克的數(shù)據(jù)庫里就有千億級網(wǎng)頁。這意味著需要有一個非常好的離線系統(tǒng)或工程系統(tǒng),去處理大規(guī)模的網(wǎng)頁數(shù)據(jù),去做對齊、去重、分析等工作。這個能力的話,跟大模型所需要的能力是非常匹配的,因為大模型就是要大算力,傳統(tǒng)搜索引擎就具備大算力。
這樣實現(xiàn)了夸克大模型能力在數(shù)據(jù)、行業(yè)、知識正確性、平臺等四方面優(yōu)勢。首先,夸克大模型擁有最全面的中文數(shù)據(jù)庫,能更好地理解、評估、提煉中文知識體系;第二,夸克自建及擁有各類題庫、知識點、醫(yī)療知識圖譜、書籍及出版物等資料,沉淀了非常豐富的數(shù)據(jù)及用戶場景;第三,在通用知識、寫作增強(qiáng)等方面,夸克建立了從內(nèi)容、搜索再到推理的一套可辨別知識真?zhèn)蔚募夹g(shù)體系。第四,夸克組建了數(shù)百人的研發(fā)團(tuán)隊,在搜索、教育、醫(yī)療等垂直領(lǐng)域中進(jìn)行大模型的預(yù)訓(xùn)練與精調(diào)。
蔣冠軍認(rèn)為,在解決幻覺問題的過程中,垂直模型比通用模型會優(yōu)先發(fā)展。這是因為通用模型遇到的問題非常多,包括幻覺問題、安全問題、準(zhǔn)備性問題。但是進(jìn)入到垂直模型,垂直到B端,進(jìn)入到具體的公司,就會有一個垂直業(yè)務(wù)的具體行業(yè)需求,那么很多問題可以解決。比如醫(yī)療行業(yè)中的大模型應(yīng)用,既可以通過醫(yī)學(xué)相關(guān)的知識推理和醫(yī)學(xué)知識的具體信息來得到相對準(zhǔn)確的答案,也可以拒絕回答而讓醫(yī)生來給出更合理的建議。
大模型應(yīng)用夸克搜索,健康內(nèi)容更精準(zhǔn)
12月25日,夸克App推出健康大模型應(yīng)用“夸克健康助手”,融合醫(yī)學(xué)知識圖譜和生成式對話能力,用戶可以在部分搜索結(jié)果中,看到由夸克健康助手回答的AIGC內(nèi)容。與傳統(tǒng)搜索結(jié)果相比,提供了更加全面和準(zhǔn)確的健康信息。
針對AIGC等全新搜索內(nèi)容形態(tài),夸克成立了夸克健康專家團(tuán),與全國頂級公立三甲醫(yī)院的專家共建大模型內(nèi)容生態(tài),確保內(nèi)容層面的專業(yè)性、正確性和科學(xué)性。此外,夸克還會招募健康大模型精調(diào)師,持續(xù)地結(jié)合用戶需求和熱門病癥,提供最新的健康知識。
基于夸克大模型和全網(wǎng)權(quán)威觀點匯總,用戶在夸克App中搜索健康內(nèi)容的正確率超過行業(yè)平均水平。為了給用戶提供更加精準(zhǔn)的專業(yè)知識,經(jīng)過精調(diào)和知識增強(qiáng)的夸克大模型,以486分的高分通過臨床執(zhí)業(yè)醫(yī)師資格考試。同時在健康內(nèi)容上的幻覺率已經(jīng)降低至5%以內(nèi),成為國產(chǎn)大模型中的“學(xué)霸”。
實現(xiàn)了用戶在夸克中搜索健康信息的正確率超過行業(yè)平均水平,多樣化的信息呈現(xiàn)方式和優(yōu)質(zhì)搜索內(nèi)容將更加便捷和實用。
面向未來,夸克大模型應(yīng)用于搜索、智能工具和資產(chǎn)管理助手等場景,一系列AI原生應(yīng)用將為年輕人工作、學(xué)習(xí)、生活提供更全面的服務(wù)。
本文章選自《AI啟示錄》雜志,閱讀更多雜志內(nèi)容,請掃描下方二維碼
