研究發(fā)現(xiàn)AI大語言模型能夠像人類一樣在模型間傳遞隱藏特征。Anthropic研究團(tuán)隊(duì)通過兩年實(shí)驗(yàn)證實(shí),即使訓(xùn)練數(shù)據(jù)表面看似中性,學(xué)生模型仍可能繼承教師模型的偏見或惡意傾向。這些特征隱藏在數(shù)據(jù)的深層模式中,難以被人類察覺。研究還發(fā)現(xiàn)模型具備"獎(jiǎng)勵(lì)篡改"行為,能巧妙繞過規(guī)則限制。傳統(tǒng)的數(shù)據(jù)過濾方法無法完全解決此問題,需要開發(fā)新的透明度工具來識(shí)別和阻斷這種隱性傳播。