YouTube在其直播活動中發(fā)布了多項面向Shorts創(chuàng)作者的生成式AI工具,包括定制版Veo 3 Fast視頻生成模型、新的混音工具和AI編輯功能。Veo 3 Fast能以480p分辨率低延遲生成帶聲音的視頻片段,支持圖像動畫化、視頻風(fēng)格轉(zhuǎn)換等功能。新的語音轉(zhuǎn)歌曲混音工具可將對話轉(zhuǎn)為配樂,AI編輯功能則能將原始素材自動制作成初稿。這些工具將陸續(xù)在多個市場推出。
中國生數(shù)科技旗下AI產(chǎn)品Vidu發(fā)布新版本更新,推出"參考圖像生成"功能,用戶可上傳最多7張參考圖片,通過AI模型的語義理解技術(shù)將多張圖像合成為高度一致的新圖像。該功能支持快速編輯照片、替換物體、調(diào)整光照等操作,為攝影師、營銷人員提供便捷的AI圖像編輯工具,在保持視覺一致性方面與谷歌等競品形成競爭。
通用人工智能(AGI)備受關(guān)注,但實現(xiàn)時間仍存爭議。專家預(yù)測AGI將在5-20年內(nèi)實現(xiàn),但面臨數(shù)據(jù)質(zhì)量、安全性和組織準(zhǔn)備等挑戰(zhàn)。IT領(lǐng)導(dǎo)者需要建立AI就緒的數(shù)據(jù)基礎(chǔ),制定治理框架,通過低風(fēng)險試點項目逐步推進(jìn)。AGI將重塑組織結(jié)構(gòu)和工作方式,要求企業(yè)在技術(shù)能力提升的同時注重道德責(zé)任和風(fēng)險管控。
谷歌發(fā)布Gemini 2.5 Flash Image升級版,支持語音和文本提示生成圖像,可替換照片中的人物、更改服裝或合并真實圖像與新背景。該工具目前僅在Gemini移動應(yīng)用中提供。測試顯示其處理速度極快,能在幾秒內(nèi)完成復(fù)雜的圖像編輯任務(wù),包括自動補(bǔ)全缺失的身體部位和衣物細(xì)節(jié)。谷歌集成了SynthID水印技術(shù)識別AI生成圖像,并設(shè)置了內(nèi)容安全防護(hù)措施。
英偉達(dá)作為美國最大科技公司,正推進(jìn)光學(xué)數(shù)據(jù)傳輸系統(tǒng)計劃。其Quantum-X和Spectrum-X光學(xué)網(wǎng)絡(luò)交換機(jī)將于明年發(fā)布,單端口速度達(dá)1.6Tbps,功耗更低、延遲更小。該技術(shù)采用光信號替代電信號傳輸,配合臺積電COUPE計劃,性能有望達(dá)到12.8Tbps。博通、IBM、AMD等公司也在布局光子學(xué)技術(shù),預(yù)計將在AI計算、光通信、自動駕駛等領(lǐng)域產(chǎn)生變革性影響。
文章分析了2035年可能改變游戲規(guī)則的十大產(chǎn)業(yè):包括量子計算和神經(jīng)形態(tài)計算等新一代計算機(jī)技術(shù)、太空商業(yè)化、個性化基因醫(yī)療、空間計算與腦機(jī)接口、城市農(nóng)業(yè)、空中交通管理、海水淡化技術(shù)、沉浸式娛樂、器官按需制造和人形機(jī)器人。作者強(qiáng)調(diào)這些不是小眾領(lǐng)域,而是將成為全球重要的大規(guī)模應(yīng)用技術(shù),需要各國在基礎(chǔ)設(shè)施、應(yīng)用研究和人才培養(yǎng)方面提前布局。
微軟在其AI化產(chǎn)品戰(zhàn)略中,現(xiàn)已將Copilot AI功能直接集成到Excel單元格內(nèi)。該功能于周一向Microsoft 365 Copilot測試用戶開放,新增的COPILOT函數(shù)允許用戶在特定單元格中執(zhí)行AI生成任務(wù)。用戶可通過等號操作符調(diào)用該函數(shù),在括號內(nèi)輸入提示語并指定上下文單元格地址。該功能支持情感分析、數(shù)據(jù)分類、外部信息查詢等多種應(yīng)用場景,還可與其他Excel函數(shù)嵌套使用。目前需要Microsoft 365 Copilot訂閱和測試版權(quán)限才能使用。
隨著ChatGPT等AI聊天機(jī)器人成為"互聯(lián)網(wǎng)入口",傳統(tǒng)SEO面臨顛覆。企業(yè)開始關(guān)注如何在AI生成的答案中獲得更好展示。Evertune等初創(chuàng)公司應(yīng)運(yùn)而生,通過每月運(yùn)行數(shù)百萬次提示來幫助企業(yè)監(jiān)測品牌在AI回答中的表現(xiàn)。同時,Perplexity出價345億美元收購Chrome瀏覽器,OpenAI發(fā)布GPT-5模型,顯示AI搜索領(lǐng)域競爭加劇。
三家AI巨頭同時發(fā)布重磅新模型。OpenAI推出首批開放權(quán)重模型OSS 120b和OSS 20b,具備Apache許可證,大模型推理能力與o4-mini相當(dāng),小模型可在智能手機(jī)運(yùn)行。Anthropic發(fā)布Claude Opus 4.1,在代碼編程和推理任務(wù)上顯著提升。Google DeepMind推出Genie 3世界模型,可實時生成可交互的720p游戲世界,被視為通向AGI的重要步驟。
谷歌正式推出其最強(qiáng)大的Gemini 2.5深度思考AI模型,但僅向每月250美元的AI Ultra訂閱用戶開放。該模型基于Gemini 2.5 Pro,通過增加"思考時間"和并行分析來處理復(fù)雜查詢。深度思考模型在多個基準(zhǔn)測試中表現(xiàn)優(yōu)異,在人類最終考試中得分34.8%,遠(yuǎn)超其他模型的20-25%。該模型特別擅長數(shù)學(xué)推理、科學(xué)分析和編程,響應(yīng)時間需要數(shù)分鐘,每日使用次數(shù)有限制。
最新調(diào)查顯示,32%的受訪者表示有興趣使用AI進(jìn)行心理治療而非人類治療師。專家認(rèn)為,AI聊天機(jī)器人具有超強(qiáng)耐心,在快節(jié)奏社會中頗具吸引力。年輕人因習(xí)慣單向網(wǎng)絡(luò)關(guān)系而更易接受AI治療。研究表明AI在預(yù)測自殺傾向方面準(zhǔn)確率達(dá)70%,但也存在風(fēng)險,包括過度肯定和缺乏真實人際連接。專家建議應(yīng)謹(jǐn)慎整合AI與傳統(tǒng)心理治療,既發(fā)揮技術(shù)優(yōu)勢又保持人性化關(guān)懷。
谷歌正在將其基于人工智能的圖片轉(zhuǎn)視頻技術(shù)推廣到更多應(yīng)用程序中。這項技術(shù)能夠?qū)㈧o態(tài)圖片轉(zhuǎn)換為動態(tài)視頻內(nèi)容,利用先進(jìn)的AI算法分析圖片內(nèi)容并生成流暢的視頻效果。此舉標(biāo)志著谷歌在AI視覺處理領(lǐng)域的進(jìn)一步布局,預(yù)計將為用戶提供更豐富的多媒體創(chuàng)作體驗。
谷歌Gemini嵌入模型正式發(fā)布并在權(quán)威MTEB基準(zhǔn)測試中排名第一,現(xiàn)已集成到Gemini API和Vertex AI中。該模型支持語義搜索和檢索增強(qiáng)生成等應(yīng)用,采用Matryoshka表示學(xué)習(xí)技術(shù),支持100多種語言。阿里巴巴開源的Qwen3-Embedding模型緊隨其后,為企業(yè)提供了專有模型與開源替代方案之間的新選擇。
OpenAI推出ChatGPT Agent,標(biāo)志著人工智能進(jìn)入數(shù)字勞動力時代。與傳統(tǒng)AI不同,智能體AI具備真正的"自主性",能夠設(shè)定目標(biāo)、做出決策并執(zhí)行復(fù)雜任務(wù)。市場規(guī)模將從2024年的50億美元增長至2030年的500億美元。目前已涌現(xiàn)七類數(shù)字工作者:業(yè)務(wù)任務(wù)、對話服務(wù)、研究分析、開發(fā)編程等智能體,它們正在重塑消費者體驗和企業(yè)運(yùn)營模式。
以色列魏茨曼科學(xué)研究所、英特爾實驗室和d-Matrix研究人員開發(fā)出新算法,能顯著降低大語言模型服務(wù)成本。該算法基于投機(jī)解碼技術(shù),無需專門的草稿模型即可將令牌生成速度提升2.8倍。研究提出三種方法:令牌級交集、字符串級精確匹配和字符串級拒絕采樣,解決了不同模型詞匯表匹配問題。算法已集成到Hugging Face框架中,開發(fā)者僅需一行代碼即可使用。
語音AI解決方案提供商Krisp發(fā)布了VIVA語音隔離AI模型和軟件開發(fā)工具包,專為語音AI智能體設(shè)計。VIVA每月處理超過10億分鐘的語音音頻,能在20毫秒內(nèi)處理音頻,將對話輪轉(zhuǎn)準(zhǔn)確性提升3.5倍,減少50%的通話中斷。該工具可過濾背景噪音和笑聲,避免AI誤判,提升轉(zhuǎn)錄準(zhǔn)確性和用戶體驗。
AI第四代生成式AI標(biāo)志著技術(shù)范式轉(zhuǎn)變,正在用戶體驗、應(yīng)用自動化和平臺三個層面為企業(yè)帶來重大價值和顛覆。企業(yè)應(yīng)關(guān)注商業(yè)價值而非技術(shù)本身,需要從業(yè)務(wù)問題出發(fā)量化價值。未來五年將在認(rèn)知任務(wù)處理上取得巨大進(jìn)展,但需要創(chuàng)新思維應(yīng)對勞動力轉(zhuǎn)型。六大顛覆性支柱包括下一代AI能力、數(shù)據(jù)平臺、機(jī)器人技術(shù)、量子計算、企業(yè)用戶體驗和云架構(gòu)等。
本文分析了AI向AGI發(fā)展的七大路徑中的S曲線路徑,該路徑預(yù)測AI發(fā)展將經(jīng)歷三個階段:2025-2030年AI多模態(tài)模型和智能體技術(shù)快速發(fā)展;2030-2035年進(jìn)入停滯平臺期,引發(fā)AI寒冬擔(dān)憂;2035-2040年技術(shù)突破重新啟動,自改進(jìn)AI系統(tǒng)和混合認(rèn)知架構(gòu)推動AGI最終實現(xiàn)。
谷歌周四宣布,通過Gemini應(yīng)用為其Veo 3 AI視頻生成器增加圖像生成視頻功能。該功能此前已在5月I/O開發(fā)者大會上推出的AI視頻工具Flow中提供。目前Veo 3視頻生成功能已在150多個國家推出,僅限Google AI Ultra和Pro用戶使用,每日限制生成3個視頻。用戶可上傳照片并添加音頻描述來生成視頻。發(fā)布7周來,用戶已創(chuàng)建超過4000萬個視頻,所有視頻都帶有可見和不可見的數(shù)字水印。
微軟研究團(tuán)隊提出"AI綠色推理"新模式,將AI計算集群直接部署在風(fēng)電場等可再生能源站點,繞過電網(wǎng)瓶頸直接利用綠色能源。該方案通過Heron軟件路由器動態(tài)管理工作負(fù)載,根據(jù)實時電力供應(yīng)情況智能分配計算任務(wù)。研究顯示,目前可在風(fēng)電場部署超過600萬個高端GPU。這種模塊化數(shù)據(jù)中心架構(gòu)不僅緩解傳統(tǒng)電網(wǎng)壓力,還能有效利用未充分使用的可再生能源,為云計算提供商提供可持續(xù)發(fā)展的新路徑。