谷歌發(fā)布的Gemini 2.5 Flash Image AI圖像編輯模型被用戶昵稱為"納米香蕉"。該模型在添加圖像元素和保持人物一致性方面表現(xiàn)出色,處理速度快且自動添加水印。但存在明顯局限:只能生成方形圖像、會降低照片分辨率、難以處理復雜編輯任務如移除反射等。谷歌表示正在改進相關問題。該功能免費提供,付費用戶可獲得更多使用額度。
隨著AI服務成本上升和數(shù)據(jù)隱私擔憂加劇,越來越多用戶開始嘗試本地部署大語言模型。硬件性能提升和軟件工具優(yōu)化使得在個人設備上運行AI模型變得可行。通過量化技術降低模型精度要求,配合llama.cpp等開源工具,用戶可在消費級硬件上運行各類專業(yè)模型。雖然本地模型在通用性上仍遜色于云端大模型,但在特定場景下已能滿足需求,且在隱私保護和成本控制方面優(yōu)勢明顯。
OpenAI和微軟發(fā)布了兩款新的語音人工智能模型。OpenAI的gpt-realtime被稱為其最強語音模型,可生成更自然的語音并能在句中改變語調(diào)和語言。微軟推出的MAI-Voice-1模型已集成到Copilot助手中,具有高硬件效率,單個GPU即可在一秒內(nèi)生成一分鐘音頻。兩家公司還發(fā)布了MAI-1-preview模型,采用專家混合架構提高效率。
Google正式發(fā)布Gemini 2.5 Flash Image模型,該模型此前在測試版中被稱為nanobanana。新模型為企業(yè)創(chuàng)意項目提供更多選擇,能夠快速修改圖像外觀并提供比以往模型更強的控制能力。該模型在保持人物相似度和編輯一致性方面表現(xiàn)出色,支持多輪編輯、照片融合等功能,并已集成到Gemini應用中供付費和免費用戶使用。
谷歌升級Gemini聊天機器人,推出新的AI圖像模型Gemini 2.5 Flash Image,讓用戶能更精確地控制照片編輯。該模型基于自然語言請求進行圖像編輯,同時保持面部、動物等細節(jié)的一致性,解決了競爭對手工具的常見問題。新工具在LMArena等基準測試中表現(xiàn)出色,專為消費者使用場景設計,支持多輪對話和多參考融合功能,并配備安全防護措施防止不當內(nèi)容生成。
本文詳細介紹了如何使用Llama.cpp在個人電腦上本地運行大語言模型。內(nèi)容涵蓋了Llama.cpp的安裝配置、模型部署、性能優(yōu)化、量化壓縮、推測解碼、工具調(diào)用等核心功能。文章指出雖然訓練大模型需要巨額投資,但運行已訓練好的模型在普通硬件上是完全可行的。通過Llama.cpp,用戶可以獲得無限制的本地AI服務,避免數(shù)據(jù)上傳云端,同時享受更好的性能和更多定制選項。
企業(yè)普遍認為AI模型需要大量算力,但Hugging Face專家認為應該更智能地使用AI。五個關鍵策略包括:為特定任務選擇合適規(guī)模的模型而非通用大模型;將效率設為默認選項,避免不必要的高成本計算模式;通過批處理和精度調(diào)整優(yōu)化硬件利用;推廣能耗透明度評級系統(tǒng);重新思考"更多算力更好"的觀念,專注于智能架構和優(yōu)質(zhì)數(shù)據(jù)而非簡單擴大GPU集群規(guī)模。
Anthropic宣布為企業(yè)客戶增加Claude單次提示詞的信息處理量,以吸引更多開發(fā)者使用其AI編程模型。Claude Sonnet 4現(xiàn)支持100萬token上下文窗口,可處理75萬詞或7.5萬行代碼的請求,是此前限制的5倍,超過OpenAI GPT-5的40萬token。該功能也將通過Amazon Bedrock和Google Cloud等云合作伙伴提供。更大的上下文窗口有助于AI模型更好地處理軟件工程問題和長期自主編程任務。
谷歌宣布大幅擴展Gemini AI模型家族,高性能的Gemini 2.5 Pro經(jīng)過數(shù)月調(diào)優(yōu)后正式退出預覽版,面向開發(fā)者開放。同時推出預覽版高效模型Gemini 2.5 Flash-Lite,成本僅為2.5 Flash的三分之一。所有2.5模型均支持可調(diào)節(jié)的思考預算功能,為開發(fā)者提供更好的成本控制。Flash和Flash-Lite已集成到搜索功能中,根據(jù)查詢復雜度智能選擇合適模型。
Google 推出 Gemini 2.5 Flash 模型,基于 Gemini 2.5 Pro 代碼,但運行更快、成本更低。新模型引入動態(tài)思考技術,可根據(jù)查詢復雜度調(diào)整推理深度,提高響應速度并降低成本。Google 還將 Gemini 2.5 Pro 應用于 Deep Research 工具,顯著提升了其準確性和實用性。這些進展有望降低生成式 AI 的高昂成本,推動其更廣泛應用。
xAI 公司推出了旗艦模型 Grok 3 的 API,提供 Grok 3 和 Grok 3 Mini 兩個版本。Grok 3 定價較高,但具有圖像分析和問答能力。盡管馬斯克此前宣稱 Grok 模型不受限制,但實際表現(xiàn)較為中立。xAI 承諾將 Grok 調(diào)整為政治中立,但長期影響尚不明確。
Google 推出最新的 Gemini 2.5 Pro (實驗版) AI 模型,并以罕見的速度向免費用戶開放。該模型支持模擬推理,提高了準確性,并在 LMSYS 聊天機器人競技場排行榜上名列前茅。免費用戶可在網(wǎng)頁上試用,但有使用限制,無法上傳文件,且有未明確的token和使用次數(shù)限制。
OpenAI 推出的 4o 圖像生成器引發(fā)了一場 AI 動畫熱潮。這一發(fā)展不僅展示了 AI 輔助視覺創(chuàng)作的能力和局限性,還引發(fā)了版權問題的討論。與之前主要聚焦于藝術詮釋和風格轉(zhuǎn)換的 Dall.E 模型不同,4o 圖像生成器似乎旨在解決特定的專業(yè)痛點,尤其是在文本渲染和多圖像一致性方面。隨著各大 AI 平臺開發(fā)出各自的專長,這一領域變得日益擁擠,同時也揭示了生成式 AI 的進展和持續(xù)挑戰(zhàn)。
Databricks 與 Palantir 簽署合作協(xié)議,開發(fā)出更優(yōu)的大語言模型微調(diào)方法,并與 Anthropic 達成為期五年的戰(zhàn)略聯(lián)盟,將 Claude 大語言模型整合到其數(shù)據(jù)湖平臺中。此次合作將為企業(yè)客戶提供更強大的 AI 能力,包括軍工級安全性、高效的模型訓練以及全面的數(shù)據(jù)治理,助力企業(yè)打造專屬 AI 應用。
開源軟件巨頭 Red Hat 發(fā)布一系列新功能,加強其平臺作為企業(yè) AI 系統(tǒng)基礎的地位。通過改進 Red Hat AI 套件,包括 Red Hat Enterprise Linux AI 和 OpenShift AI,提供更高效的 AI 訓練和推理能力,簡化混合云環(huán)境下的部署體驗,并確保企業(yè)數(shù)據(jù)的安全訪問和整合。
本文探討了是否真正需要追求通用人工智能(AGI)的問題。文章提出了幾個觀點:AGI可能過于復雜且成本高昂;現(xiàn)有AI技術已經(jīng)足夠強大,我們更需要關注如何整合和應用;AGI可能帶來意想不到的風險。作者認為,目前我們應該專注于充分利用現(xiàn)有AI能力,而不是盲目追求AGI。
DeepSeek發(fā)布了改進版DeepSeek-V3大語言模型,采用MIT開源許可證。新版本在編程能力上有所提升,可在高端Mac Studio上運行。模型具有671億參數(shù),但只激活約37億參數(shù),提高了效率。這一更新標志著DeepSeek在開源AI領域的重要進展,為開發(fā)者提供了更多靈活性和應用可能。
在北京參加中國發(fā)展高層論壇期間,蘋果 CEO Tim Cook 對中國自主研發(fā)的 AI 聊天機器人 DeepSeek 給予高度評價。DeepSeek 迅速登頂 App Store 榜首,其性能表現(xiàn)可與全球頂尖模型相媲美。Cook 此行還關注了教育科技應用、清潔能源等多個領域,展現(xiàn)了蘋果對中國市場的持續(xù)重視。
OpenAI 發(fā)布三款全新專有語音模型,包括 gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts。這些模型基于 GPT-4o 開發(fā),提供更準確的轉(zhuǎn)錄和語音合成能力,支持 100 多種語言,可通過 API 集成到第三方應用中。新模型在英語轉(zhuǎn)錄準確率方面表現(xiàn)出色,錯誤率僅為 2.46%,并支持語音定制和情感表達。
LexisNexis 在開發(fā)其 AI 法律助手 Protégé 時,采用了創(chuàng)新的多模型方案。通過精簡大語言模型并結合小型模型,他們成功打造出一款能夠適應律所工作流程、支持法律文件撰寫和校對的智能助手。這種方案不僅提高了響應速度,還降低了運營成本,展現(xiàn)了 AI 在法律科技領域的實用價值。