硅谷科技巨頭多年來(lái)一直宣傳AI智能體愿景,但現(xiàn)有技術(shù)仍然有限。強(qiáng)化學(xué)習(xí)環(huán)境被視為訓(xùn)練AI智能體的關(guān)鍵技術(shù)突破。這些環(huán)境模擬真實(shí)工作場(chǎng)景,讓智能體學(xué)習(xí)復(fù)雜任務(wù)。頂級(jí)AI實(shí)驗(yàn)室正大量需求此類(lèi)環(huán)境,催生了Mechanize、Prime Intellect等初創(chuàng)公司。數(shù)據(jù)標(biāo)注巨頭Scale AI、Surge也在轉(zhuǎn)型。據(jù)報(bào)道,Anthropic考慮明年投資超10億美元。盡管前景看好,但專(zhuān)家對(duì)強(qiáng)化學(xué)習(xí)環(huán)境的可擴(kuò)展性存在分歧。
強(qiáng)化學(xué)習(xí)正在重新成為AI領(lǐng)域的焦點(diǎn)技術(shù)。雖然該技術(shù)起源于20世紀(jì)70年代,但直到最近與大語(yǔ)言模型結(jié)合后才展現(xiàn)出巨大潛力。從人類(lèi)反饋強(qiáng)化學(xué)習(xí)到可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí),這些方法使AI模型獲得了推理能力。然而,關(guān)鍵問(wèn)題仍待解答:強(qiáng)化學(xué)習(xí)能否在難以驗(yàn)證的領(lǐng)域?qū)崿F(xiàn)突破?大規(guī)模擴(kuò)展會(huì)帶來(lái)什么結(jié)果?盡管存在挑戰(zhàn),強(qiáng)化學(xué)習(xí)不受人類(lèi)能力限制,有望創(chuàng)造超越人類(lèi)的新型智能。
谷歌DeepMind發(fā)布Gemini 2.5 Deep Think,這是一款新的創(chuàng)意問(wèn)題解決AI模型。該模型能夠同時(shí)考慮多個(gè)想法并選擇最佳答案來(lái)解決復(fù)雜問(wèn)題。Deep Think通過(guò)延長(zhǎng)"思考時(shí)間",探索不同假設(shè)以找到創(chuàng)意解決方案。新模型在編程、科學(xué)知識(shí)和推理能力基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,特別擅長(zhǎng)迭代開(kāi)發(fā)、數(shù)學(xué)研究和復(fù)雜編程問(wèn)題。該工具將在Gemini應(yīng)用中向Ultra訂閱用戶(hù)提供,月費(fèi)250美元。
OpenAI正致力于打造能夠執(zhí)行復(fù)雜任務(wù)的AI智能體,這一努力源于其數(shù)學(xué)推理團(tuán)隊(duì)MathGen的突破性工作。通過(guò)結(jié)合大語(yǔ)言模型、強(qiáng)化學(xué)習(xí)和測(cè)試時(shí)計(jì)算技術(shù),OpenAI開(kāi)發(fā)出了o1推理模型,該模型在國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽中獲得金牌。盡管當(dāng)前AI智能體在主觀性任務(wù)上仍有局限,但OpenAI相信推理能力的提升將最終實(shí)現(xiàn)通用智能體的目標(biāo)。
卡內(nèi)基梅隆大學(xué)發(fā)布了他們的一項(xiàng)最新研究,他們對(duì)20多個(gè)開(kāi)源推理模型進(jìn)行了后訓(xùn)練,涵蓋數(shù)學(xué)推理、科學(xué)問(wèn)答、代碼生成、指令遵循等多個(gè)維度,最終發(fā)現(xiàn),數(shù)學(xué)能力優(yōu)異的模型,在其他任務(wù)上表現(xiàn)平平,甚至還不如未加強(qiáng)數(shù)學(xué)推理能力的原始模型
MIT研究人員開(kāi)發(fā)出自適應(yīng)語(yǔ)言模型(SEAL)框架,讓大型語(yǔ)言模型能夠持續(xù)學(xué)習(xí)并通過(guò)更新自身內(nèi)部參數(shù)進(jìn)行適應(yīng)。SEAL教會(huì)模型生成自己的訓(xùn)練數(shù)據(jù)和更新指令,永久吸收新知識(shí)并掌握新任務(wù)。該框架采用雙循環(huán)系統(tǒng)和強(qiáng)化學(xué)習(xí)算法,讓模型學(xué)會(huì)創(chuàng)建個(gè)性化學(xué)習(xí)指南。在知識(shí)整合測(cè)試中準(zhǔn)確率達(dá)47%,在少樣本學(xué)習(xí)中成功率達(dá)72.5%。這對(duì)企業(yè)AI應(yīng)用具有重要意義,特別適用于動(dòng)態(tài)環(huán)境中的AI智能體,但仍存在災(zāi)難性遺忘等局限性。
中國(guó)AI初創(chuàng)公司MiniMax發(fā)布最新開(kāi)源大語(yǔ)言模型MiniMax-M1,采用Apache 2.0許可證,支持商業(yè)應(yīng)用。該模型擁有100萬(wàn)輸入token和8萬(wàn)輸出token的超大上下文窗口,采用創(chuàng)新的混合專(zhuān)家架構(gòu)和強(qiáng)化學(xué)習(xí)技術(shù)。訓(xùn)練成本僅53.47萬(wàn)美元,計(jì)算效率比DeepSeek R1高75%。在數(shù)學(xué)競(jìng)賽等基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為企業(yè)提供了高性能、低成本的AI解決方案。
Epoch AI 分析指出,以推理為核心的 AI 模型(如 OpenAI 的 o3)近年來(lái)雖取得顯著進(jìn)步,但因強(qiáng)化學(xué)習(xí)階段所需的龐大運(yùn)算和高昂研究成本,未來(lái)性能提升可能放緩,預(yù)計(jì)到2026年將趨向封頂。
本文介紹推理模型如何通過(guò)鏈?zhǔn)酵评砗投嗦窂教剿魍獠啃畔,展示其在?fù)雜問(wèn)題求解中(如數(shù)學(xué)、規(guī)劃和動(dòng)態(tài)決策方面)的卓越優(yōu)勢(shì),從而推動(dòng)生成式 AI 技術(shù)向更高水平發(fā)展。
人工智能代理能否像90年代的個(gè)人電腦一樣成為企業(yè)運(yùn)營(yíng)的基礎(chǔ)?專(zhuān)家們正在熱議這個(gè)問(wèn)題。盡管AI代理在決策和執(zhí)行任務(wù)方面顯示出潛力,但能源消耗、學(xué)習(xí)效率和數(shù)據(jù)可靠性等挑戰(zhàn)仍然存在。本文探討了AI代理在商業(yè)應(yīng)用中的價(jià)值和準(zhǔn)備程度,指出企業(yè)需要在追逐熱點(diǎn)與戰(zhàn)略部署之間做出明智選擇。
阿里巴巴旗下的 Qwen 團(tuán)隊(duì)推出了 QwQ-32B,這是一款擁有 320 億參數(shù)的推理模型,旨在通過(guò)強(qiáng)化學(xué)習(xí)提升復(fù)雜問(wèn)題解決任務(wù)的表現(xiàn)。該模型在 Hugging Face 和 ModelScope 上以開(kāi)源權(quán)重形式發(fā)布,適用于商業(yè)和研究用途,企業(yè)可以立即將其應(yīng)用于產(chǎn)品和應(yīng)用程序中。
DeepSeek作為人工智能領(lǐng)域的新興力量,其快速崛起引發(fā)了對(duì)AI創(chuàng)新未來(lái)、開(kāi)源主導(dǎo)地位和傳統(tǒng)AI商業(yè)模式可持續(xù)性的討論。文章探討了DeepSeek的成功因素,包括其高效的模型設(shè)計(jì)、創(chuàng)新的訓(xùn)練方法以及開(kāi)源策略,分析了其對(duì)AI行業(yè)格局的潛在影響,并探討了現(xiàn)有AI公司如何應(yīng)對(duì)這一不斷變化的局面。
香港大學(xué)和加州大學(xué)伯克利分校的一項(xiàng)新研究顯示,在沒(méi)有人工標(biāo)注數(shù)據(jù)的情況下,語(yǔ)言模型和視覺(jué)語(yǔ)言模型能夠更好地泛化。這一發(fā)現(xiàn)挑戰(zhàn)了大型語(yǔ)言模型社區(qū)的主流觀點(diǎn),即模型需要手工標(biāo)注的訓(xùn)練樣本。研究表明,過(guò)度依賴(lài)人工示例反而可能對(duì)模型的泛化能力產(chǎn)生負(fù)面影響。
AI方案并不是供應(yīng)鏈領(lǐng)域的新技術(shù),其中很多要素在某些場(chǎng)景下已經(jīng)被使用了幾十年。只是最近以來(lái),更多新興案例開(kāi)始快速涌現(xiàn)。
在AI界,對(duì)于如何進(jìn)一步推動(dòng)AI的發(fā)展,存在兩種主要觀點(diǎn)。第一種觀點(diǎn)認(rèn)為,計(jì)算能力是AI進(jìn)步的唯一瓶頸。另一種觀點(diǎn)卻認(rèn)為,數(shù)據(jù)才是關(guān)鍵。