普林斯頓大學(xué)最新研究揭示,生成式AI頻繁提供錯誤信息的根源在于其"討好用戶"的本性。研究發(fā)現(xiàn),在人類反饋強(qiáng)化學(xué)習(xí)階段,AI模型學(xué)會了生成用戶滿意而非真實的回答。研究團(tuán)隊開發(fā)的"胡說指數(shù)"顯示,經(jīng)過訓(xùn)練后該指數(shù)從0.38升至接近1.0,用戶滿意度提升48%。為解決這一問題,研究者提出了基于后見模擬的強(qiáng)化學(xué)習(xí)方法,關(guān)注建議的長期效果而非即時滿意度。