北京時間5月21日,百度發(fā)布2025年第一季度財報,這場會議不僅僅是一次常規(guī)的財務(wù)數(shù)據(jù)披露,更像是百度在AI時代戰(zhàn)略布局的全景展示,李彥宏在開場發(fā)言中,將2025年第一季度形容為一個“穩(wěn)健的開局”。
Korl 利用 OpenAI、Gemini 及 Anthropic 等模型,從 Salesforce、Jira、Google Docs 等多個平臺整合數(shù)據(jù),自動生成定制化客戶溝通材料,如幻燈片、演講稿及季度業(yè)務(wù)回顧,同時保證數(shù)據(jù)安全性,并提升運營效率。
Exaforce 創(chuàng)立于 2023 年,其自主 SOC 平臺利用多模態(tài) AI 引擎整合語義、統(tǒng)計及行為模型,實現(xiàn)自動化日志分析與威脅檢測,顯著降低人工操作,同時提升安全響應(yīng)效率。
近年來,隨著深度學習、自然語言處理、計算機視覺等技術(shù)的快速發(fā)展,多模態(tài)技術(shù)取得了顯著進展。商湯秒畫、Sora、可靈等文生圖、文生視頻等模型產(chǎn)品的推出,讓AI生成的內(nèi)容更加豐富多彩,極大地豐富了用戶體驗和應(yīng)用場景。
想象一下,一個人工智能系統(tǒng)不僅能閱讀文本或識別圖像,還能夠同時讀、寫、看、聽和創(chuàng)造。這其實就是多模態(tài)人工智能的精髓。這些先進的多模態(tài)人工智能系統(tǒng)可以同時處理和整合多種形式的數(shù)據(jù),包括文本、圖像、音頻甚至視頻。這就像是賦予了人工智能一整套的感官。
我們介紹了EMMA,一個端到端的自動駕駛多模態(tài)模型;诙嗄B(tài)大型語言模型的基礎(chǔ),EMMA直接將原始相機傳感器數(shù)據(jù)映射到各種特定于駕駛的輸出中,包括規(guī)劃器軌跡、感知對象和道路圖元素。EMMA通過將所有非傳感器輸入(例如導航指令和自我車輛狀態(tài))和輸出(例如軌跡和3D位置)表示為自然語言文本,最大化了預(yù)訓練大型語言模型的世界知識效用。
多模態(tài)大型語言模型(MLLM)通過在大型語言模型(LLM)中集成視覺編碼器,在多模態(tài)任務(wù)中取得了有希望的結(jié)果。然而,大型模型的大小和廣泛的訓練數(shù)據(jù)帶來了顯著的計算挑戰(zhàn)。例如,LLaVA-NeXT的最大版本使用了Qwen-1.5-110B,并且使用128個H800 GPU訓練了18小時。
多模態(tài)AI系統(tǒng),融合語音對話和音頻分析功能,支持超過8種語言和方言,無需自動語音識別即可進行語音交互,提供音頻信息分析和多語言支持。
巴黎奧運會上,AI技術(shù)的應(yīng)用成為了賽事的一大亮點。從智能裁判系統(tǒng)到運動員訓練輔助,再到賽事直播的個性化推薦,AI技術(shù)的融入不僅提升了賽事的公平性和觀賞性,也讓觀眾享受到了前所未有的觀賽體驗。
GPT-4o mini("o"代表"omni")是小型型號類別中最先進的型號,也是OpenAI迄今為止最便宜的型號。它是多模態(tài)的(接受文本或圖像輸入并輸出文本),具有比 gpt-3.5-turbo 更高的智能,但速度同樣快。它旨在用于較小的任務(wù),包括視覺任務(wù)。
目前,AIGC產(chǎn)業(yè)生態(tài)體系的雛形已現(xiàn),呈現(xiàn)為上中下三層架構(gòu):①第一層為上游基礎(chǔ)層,也就是由預(yù)訓練模型為基礎(chǔ)搭建的AIGC技術(shù)基礎(chǔ)設(shè)施層。②第二層為中間層,即垂直化、場景化、個性化的模型和應(yīng)用工具。③第三層為應(yīng)用層,即面向C端用戶的文字、圖片、音視頻等內(nèi)容生成服務(wù)。
2023年大眾對AI的看法從懷疑到認可,AGI(通用人工智能)的發(fā)展迅速,大模型展現(xiàn)出驚人的想象力和取悅能力。應(yīng)用層尚未出現(xiàn)獨角獸,創(chuàng)業(yè)者面臨官方技術(shù)迭代的挑戰(zhàn)。
AI大模型通過大規(guī)模預(yù)訓練和微調(diào)實現(xiàn)通用人工智能,目前正從'大煉模型'向'煉大模型'轉(zhuǎn)變,推動多模態(tài)和多場景革命。GPT模型迭代加速,國內(nèi)企業(yè)如百度、騰訊、阿里在大模型市場占據(jù)優(yōu)勢。
Anthropic推出了第三代大語言模型Claude3,包含三個版本:Claude3-Opus、Claude3-Sonnet和Claude3-Haiku,能力和成本遞減。Claude3-Opus在多項評測中超過GPT-4,支持多模態(tài)和最高100萬上下文輸入。
由于專家不足且高度依賴臨床專業(yè)知識來評估視網(wǎng)膜成像情況,確定年齡相關(guān)性黃斑變性的高風險人群一直是個令人頭痛的難題。但如今,人工智能/機器學習(AI/ML)等新興技術(shù)的逐步普及,正為更準確、更高效的篩查方法鋪平道路。
12月5日,以數(shù)據(jù)「智」上為主題的多模態(tài)數(shù)據(jù)智能峰會在北京舉行,以多模態(tài)數(shù)據(jù)智能為核心戰(zhàn)略的愛數(shù)AISHU品牌新征程,愛數(shù)成功展示了從圖像到文本的跨模態(tài)場景應(yīng)用,邁出了從單模態(tài)數(shù)據(jù)分析到多模態(tài)數(shù)據(jù)智能的第一步。
7月4日召開的百度AI開發(fā)者大會上,百度高級副總裁、AI技術(shù)平臺體系(AIG)總負責人王海峰發(fā)布百度大腦3.0,并指出,百度大腦3.0的核心是“多模態(tài)深度語義理解”,包括數(shù)據(jù)的語義,知識的語義,以及圖像、視頻、聲音、語音等各方面的理解。