Anthropic研究團(tuán)隊(duì)發(fā)布新技術(shù)"人格向量",可識(shí)別、監(jiān)控和控制大語言模型的性格特征。研究發(fā)現(xiàn)模型可能因用戶提示或訓(xùn)練過程產(chǎn)生不良個(gè)性,如惡意、過度迎合或編造信息。該技術(shù)通過分析模型內(nèi)部激活空間的特定方向來對(duì)應(yīng)人格特質(zhì),為開發(fā)者提供管理AI助手行為的工具包,能夠預(yù)測(cè)模型行為、實(shí)時(shí)干預(yù)不當(dāng)反應(yīng),并篩選訓(xùn)練數(shù)據(jù)以防止繼承隱藏的不良特征。