
【AI啟示錄】專訪|IEEE專家委員胡凝:消解AI幻覺“陰影”,洞見“超級個體”價值錨點

IEEE數(shù)字金融與經(jīng)濟標準委員會專家委員、桐元軟件CEO 胡凝認為,在努力解決大模型幻覺的技術(shù)挑戰(zhàn)的同時,AI正加速塑造以創(chuàng)意和交付為核心價值的“超級個體”時代,并帶來了能耗與信息繭房等新的社會議題。
當前,大模型的“幻覺”問題備受關(guān)注,被視為技術(shù)落地的“陰影”。AI幻覺就像難以根治的“頑疾”,困擾著AI落地的每一個環(huán)節(jié)。然而,在這場技術(shù)與可靠性的較量背后,未來個體的生存法則,或許早已悄然改變,指向了新的價值"坐標系"。
模型“幻覺”的消解路徑
與AI幻覺的較量,注定是一場“人機博弈”的持久戰(zhàn)。
AI在自然語言理解、內(nèi)容生成等領(lǐng)域擁有了令人驚嘆的能力飛躍,但如影隨形的“幻覺”問題,始終像一團陰影,籠罩在AI可靠性與可信度提升的道路上,是將其從實驗室推向更廣闊應(yīng)用場景時,必須直面的“深淵”。
Vectara的分析報告《DeepSeek-R1 hallucinates more than DeepSeek-V3》顯示,DeepSeek-R1在特定評估基準下的幻覺率高達14.3%,與其基座版本DeepSeek-V3那相對克制的3.9%相比,簡直“畫風突變”。
圖片截取自:Vectara報告《DeepSeek-R1 hallucinates more than DeepSeek-V3》
專注于信任度評估的Vijil也發(fā)布報告稱,在其針對幻覺的專項測試中,DeepSeek-R1的"通過率"約為68.42%。換句話說,仍有約31.58%的回答存在幻覺。
圖片截取自:VIJIL信托報告
評估數(shù)據(jù)的背后,指向了大模型在控制幻覺方面的潛在挑戰(zhàn)。這場關(guān)于AI幻覺率的“羅生門”,無疑給模型的穩(wěn)定性和可靠性打上了一個問號。
細究這一“頑疾”的根源,胡凝認為,以DeepSeek為代表的推理模型,與傳統(tǒng)基礎(chǔ)模型相比,在核心的“思維鏈”構(gòu)造上存在著本質(zhì)差異,這決定了其產(chǎn)生幻覺的關(guān)鍵癥結(jié)也有所不同。
IEEE數(shù)字金融與經(jīng)濟標準委員會專家委員、桐元軟件CEO 胡凝
事實上,對推理模型而言,為了實現(xiàn)模擬復(fù)雜的邏輯過程,會將思維鏈分解為多步驟的中間推理環(huán)節(jié)。這一設(shè)計本身是為了實現(xiàn)更精細的控制和更明確的執(zhí)行指令。然而,風險也恰恰潛藏于此——每一步的“思考”和計算都可能引入微小誤差,并在鏈條的延伸中積累、放大,最終導(dǎo)致結(jié)論南轅北轍。
“DeepSeek使用MoE結(jié)合推理來節(jié)省算力,但如果對于領(lǐng)域?qū)<叶ㄎ怀霈F(xiàn)錯誤,點亮的知識結(jié)構(gòu)和原始語義不符,則會出現(xiàn)‘張冠李戴’的幻覺問題。”胡凝如是說。
與此相對的是,基礎(chǔ)模型采用了更為內(nèi)隱和整體的推理方式,其內(nèi)部狀態(tài)相對集約。更關(guān)鍵的在于,其賴以訓練的數(shù)據(jù)規(guī)模通常極為龐大且多樣化,這使得它們在面對新穎或模糊查詢時,擁有了更強的泛化能力,并在推理過程中具備了一定的動態(tài)修正潛力。
當然,如同所有AI模型面臨的挑戰(zhàn),基礎(chǔ)模型同樣無法完全避免“幻覺”現(xiàn)象。“其產(chǎn)生誘因或許更多地根植于從海量數(shù)據(jù)中習得的模式本身固有的偏差或噪聲,而非簡單的邏輯斷裂。”胡凝強調(diào)
數(shù)據(jù)的特性與處理方式本身,也是影響模型幻覺表現(xiàn)的另一個核心要素。
對此,胡凝指出,推理模型在訓練時,往往依賴于針對特定領(lǐng)域或任務(wù)構(gòu)建的高度相關(guān)的局部知識語料。而問題在于,如果這些語料在人工篩選、標注或結(jié)構(gòu)化過程中本身就內(nèi)含了邏輯跳躍或隱性錯誤,模型在學習時便可能將這些“瑕疵”內(nèi)化。
除了數(shù)據(jù)內(nèi)容本身的潛在瑕疵,推理模型的訓練方式及其數(shù)據(jù)特性,也影響著模型的表現(xiàn)。
推理模型在訓練階段有時會為了優(yōu)化特定的“正確推理步驟”而進行“剪枝”,而一旦“剪枝”過度,便犧牲了模型在面對復(fù)雜、開放式問題時進行多路徑探索和驗證的靈活性。
“從數(shù)據(jù)量級上看,用于推理任務(wù)的數(shù)據(jù)集與基礎(chǔ)模型進行通用預(yù)訓練時接觸的海量知識相比,規(guī)模往往小得多。而這可能導(dǎo)致推理模型在覆蓋各種推理場景的多樣性和邊緣案例的全面性上存在先天不足,限制了其在特定情景下的魯棒性。”胡凝強調(diào)。
相比之下,基礎(chǔ)模型得益于其海量多樣化的訓練數(shù)據(jù),更容易習得更全面和穩(wěn)健的語言規(guī)律和知識體系。但即便如此,在其更整體化的推理過程中,如果某個中間步驟產(chǎn)生了貌似符合邏輯的“幻覺”,這個錯誤的“基石”也可能隨著推理鏈條的展開而進一步被強化和放大。
因此,“消滅”AI幻覺目前沒有一勞永逸的“靈丹妙藥”,其注定是一項系統(tǒng)性的、需要多條戰(zhàn)線協(xié)同推進的復(fù)雜工程。
這場“較量”力求從多個維度同時發(fā)力:
一方面,要深入改進模型本身的結(jié)構(gòu)和算法,提升其內(nèi)在的邏輯一致性和魯棒性。另一方面,不斷提升訓練數(shù)據(jù)的質(zhì)量控制和多樣化水平。
更重要的是,需要引入外部的“裁判”和“知識庫”,通過RAG(檢索增強生成)等技術(shù),讓模型在生成內(nèi)容時能夠“查證”和“核驗”,而不僅僅是依賴“涌現(xiàn)”。
同時,持續(xù)優(yōu)化和創(chuàng)新RLHF等強化學習微調(diào)技術(shù),以更精細地引導(dǎo)模型生成符合事實和人類認知的內(nèi)容。
此外,亦要發(fā)展更先進的評估方法和提升模型的可解釋性,幫助我們理解模型為何會“腦補”,才能更好地對癥下藥。
“超級個體”的三重價值
隨著AI技術(shù)的普惠化與能力的持續(xù)增強,胡凝預(yù)見,一個以“超級個體”為標志的新時代即將到來加速。
然而,這并不意味著個體之間將趨于同質(zhì)化。
恰恰相反,“超級個體”之間的差異化將更為明顯。胡凝指出,這種差異不再是簡單的體力或基礎(chǔ)技能的差異,而是更深層次的能力分層,其主要體現(xiàn)在個人對AI工具的整合能力、獨特思維模式的培養(yǎng),以及專業(yè)領(lǐng)域深度三個方面。
如果探究細化胡凝提出三個維度,可以發(fā)現(xiàn)其是構(gòu)筑個體核心競爭壁壘、在AI時代塑造獨特價值的關(guān)鍵所在。
“AI工具的整合與協(xié)同能力”。其不僅僅是會使用AI工具,更是理解不同AI工具的優(yōu)勢與局限,并能像指揮“交響樂團”一樣,將其無縫地融入到自己的工作流、學習過程和價值創(chuàng)造鏈中。這種能力考驗的是個體的學習適應(yīng)性、系統(tǒng)思維以及將前沿技術(shù)轉(zhuǎn)化為實際生產(chǎn)力的智慧。其是將AI從“工具”升級為“協(xié)作伙伴”的關(guān)鍵。
“獨特思維模式的培養(yǎng)”。在信息爆炸、AI能快速生成標準化內(nèi)容的時代,真正有價值的是那些無法被輕易復(fù)制、帶有強烈個人烙印的思維方式。這包括批判性思維、創(chuàng)新性思維、跨領(lǐng)域聯(lián)想能力、以及構(gòu)建自己獨特認知框架的能力。這種“人之所以為人”的深度思考和結(jié)構(gòu)化認知,是應(yīng)對復(fù)雜問題和產(chǎn)生原創(chuàng)見解的核心引擎。
“專業(yè)領(lǐng)域的深度與專精”。AI更多是一個“放大器”。其能極大提升效率、拓展能力邊界,但其所“放大”的內(nèi)容,歸根結(jié)底取決于個體在特定專業(yè)領(lǐng)域內(nèi)的積累和造詣。沒有深厚的專業(yè)基礎(chǔ),AI即便強大,也如同無本之木、無源之水。只有在某一領(lǐng)域達到精深,才能有效地利用AI去解決該領(lǐng)域的難題,產(chǎn)生突破性的成果。
然而,這僅僅是構(gòu)筑個體核心競爭力的第一階段。
真正拉開“超級個體”之間差距,使其具備上述“三重”差異化價值的,并非AI工具本身,而是與個體深度綁定的、能夠反映和放大個人特質(zhì)的AI輔助系統(tǒng)——即個性化Agent。胡凝強調(diào),個性化Agent可以記錄個體的思考過程、學習偏好,并據(jù)此提供量身定制的輔助,使創(chuàng)造性思維和專業(yè)技能得到指數(shù)級放大。
這與紅杉 AI 峰會閉門會上紅杉合伙人Konstantine 提出的設(shè)想有著遞進式的呼應(yīng)。Konstantine 認為,未來的 AI,不只是彼此通信,而是組成一個可以交換價值的系統(tǒng)網(wǎng)絡(luò)。”
AI工具普及 用創(chuàng)意和“交付”建立價值“護城河”
紅杉資本近期那場為期6小時、云集150位頂尖AI創(chuàng)始人的閉門峰會,恰好從商業(yè)視角,為胡凝的結(jié)構(gòu)預(yù)判提供了注腳和證實。紅杉所描繪的,是具備身份、行動和信任契約的AI“代理人”,正在組成一個能夠彼此協(xié)作、完成復(fù)雜任務(wù)的“智能體經(jīng)濟網(wǎng)絡(luò)”。這或許就是胡凝所言,沖破組織邊界、由“網(wǎng)絡(luò)節(jié)點”構(gòu)成的未來協(xié)作圖景。
在智能體網(wǎng)絡(luò)里,個體或是AI賦能下的“超級個體”——正轉(zhuǎn)型為任務(wù)的“編排者”和資源的“調(diào)度者”。而人的價值,則不再是設(shè)計指令讓AI服從,而變成了設(shè)計并啟動這個網(wǎng)絡(luò)的協(xié)作流程。
超級個體崛起之下,經(jīng)濟的底層邏輯也將被顛覆。
胡凝認為,其將從依賴規(guī)模走向依賴“創(chuàng)意”和“注意力”。獨一無二的思維和創(chuàng)造力,會成為新時代的“硬通貨”。
而這種路徑,目前已經(jīng)逐漸顯現(xiàn),“下一輪 AI,賣的不是工具,而是收益”紅杉資本的考量直戳人心。更多客戶不再為AI這個“工具”本身買單,他們只掏錢買AI實際“干出來”的、寫進報表里的“成果”。
這一趨勢下,胡凝的判斷給出了“解法”:當AI工具普及,其邊際價值遞減,真正的價值護城河,在于用AI創(chuàng)造出的、別人難以輕易復(fù)制的獨特“成果”。創(chuàng)意和如何實現(xiàn)創(chuàng)意,成了新的稀缺資源。
進一步的,他還提出了未來超級個體的三條“生存之道”。
第一條路:提供他人難以復(fù)制的創(chuàng)造性內(nèi)容和服務(wù),而實現(xiàn)路徑則是把創(chuàng)意變成能端到端交付的“成果型產(chǎn)品”。
“成果型產(chǎn)品”的定義逐漸明確,其能跑完一個完整任務(wù)流程,結(jié)果可被度量和歸因,并且能越跑越好。創(chuàng)意不能是空中樓閣,而是能用AI或其他資源打包交付的“硬通貨”,市場只為可驗證的“交付”買單。
第二條路:成為特定知識領(lǐng)域的信任節(jié)點和驗證者。用戶不再是簡單“使用”工具,而是將任務(wù)“委托”給智能體,然后等待結(jié)果。這一過程中,誰能持續(xù)、可靠地交付高質(zhì)量結(jié)果,誰就在這個委托網(wǎng)絡(luò)中積累了寶貴的“交付記錄”。這些記錄構(gòu)成了新時代的“信任背書”,更能成為驗證信息、值得托付的“信任節(jié)點”。
第三條路:設(shè)計和優(yōu)化AI系統(tǒng)本身。而這項工作的核心,已經(jīng)不只是調(diào)參數(shù)、設(shè)計prompt,而是調(diào)“結(jié)構(gòu)”。紅杉的觀點是,AI的瓶頸不在模型,而在如何把模型融入流程和工具鏈的“架構(gòu)工程”。
這也正是胡凝所指的“設(shè)計和優(yōu)化”工作的精髓。
值得注意的是,胡凝也提到了能耗和信息繭房等伴生難題。AI能耗問題會形成新的資源競爭態(tài)勢,計算資源、電力和冷卻設(shè)施將成為限制性因素,可能導(dǎo)致"計算資源階層"的出現(xiàn)。
同時,AI形成的信息繭房將對社會產(chǎn)生深遠沖擊。個性化agent在強化個人認知和能力的同時,也可能放大確認偏見,導(dǎo)致社會認知分化加劇。
“當每個人都沉浸在由AI精心打造的信息環(huán)境中,社會共識形成變得更加困難,可能出現(xiàn)"平行現(xiàn)實"現(xiàn)象——不同群體生活在截然不同的信息生態(tài)系統(tǒng)中,彼此間的基本事實認知都無法達成一致。”胡凝強調(diào),這種信息分層將進一步加劇社會極化,挑戰(zhàn)民主決策和社會治理的基礎(chǔ)。
解決這一問題需要開發(fā)“‘認知多樣性(破繭房)’和“跨繭房對話”的系統(tǒng)或相關(guān)的協(xié)議,確保超級個體在獲得個性化增強的同時,仍能接觸到多元觀點和共享現(xiàn)實,維持社會凝聚力和集體決策能力。
“認知多樣性(破繭房),可維護和鼓勵社會中存在不同的觀點、思維方式和知識體系,并主動打破個體被困在單一信息環(huán)境中的狀態(tài);“跨繭房對話”則是要建立機制促進持有不同觀點、處于不同信息繭房中的個體之間進行交流和對話,增進相互理解。
也是在此基礎(chǔ)上,胡凝從企業(yè)角度談及,未來的企業(yè)將不再是主要的生產(chǎn)或服務(wù)提供者,而是轉(zhuǎn)向為以個性化Agent為中心的生態(tài)系統(tǒng)和基礎(chǔ)設(shè)施提供者,以及環(huán)境培育者。
具體而言,包括構(gòu)建支持個性化認知模型訓練的平臺、開發(fā)用于映射和理解個體思維模式的工具,以及建立促進不同Agent之間有效協(xié)作的協(xié)議和標準。
本文章選自《AI啟示錄》雜志,閱讀更多雜志內(nèi)容,請掃描下方二維碼
