2025-07-10 20:34:32
7月9日,馬斯克旗下xAI發(fā)布Grok 4系列大模型,宣稱其為世界上最聰明的AI,超越博士水平,訂閱費最高達3000美元/年。Grok 4在多項基準測試中領先,馬斯克此前宣稱要用Grok 4重寫人類知識庫,但這一說法遭到了業(yè)界質疑。方舟投資認為,基礎模型的企業(yè)市場的規(guī)模達到15萬億到20萬億美元,有兩三家公司將脫穎而出,xAI就是其一。
每經記者|宋欣悅 每經編輯|蘭素英
當地時間7月9日,馬斯克旗下xAI的下一代大模型Grok 4系列正式發(fā)布。
馬斯克在發(fā)布會上強調,Grok 4是目前世界上最聰明的AI。他還稱,Grok 4在所有學科上都超越了博士水平,沒有例外。不過,Grok 4的訂閱費相當昂貴,最高達3000美元/年(約合人民幣21530元)。
大模型性能評估平臺Artificial Analysis的全套基準測試成績表明,Grok 4已經成為當前領先的AI模型,總成績達到了73分,領先于o3、Gemini 2.5 Pro、Claude 4 Opus等模型。
但馬斯克對于Grok 4的野心遠不止于此,他此前表示,要用具有高級推理能力的Grok 4重寫人類知識庫,補充缺失的內容,糾正錯誤的知識,再基于新的“干凈而準確”的知識庫重新訓練AI。不過,這一說法也遭到了業(yè)界人士的質疑。
被稱為“木頭姐”的凱西·伍德(Cathie Wood)表示,Grok雖然起步較晚,但在性能上很快追趕上o3 pro等頭部模型,這得益于訓練集群的合理布局。在Grok 4亮相前一周,xAI剛剛完成新一輪百億美元融資。截至目前,xAI累計融資額已超過200億美元。
圖片來源:xAI直播發(fā)布會截圖
當地時間7月9日,原定于太平洋時間晚上8點的Grok 4線上發(fā)布會,延遲了幾乎整整一小時。發(fā)布會開始不久,馬斯克便高調宣稱,“這(Grok 4)是世界上最強的AI”。
他強調,Grok 4在所有主要學科上的表現都已超越博士水平。雖然它目前尚不具備發(fā)明新理論或提出原創(chuàng)技術的能力,但馬斯克認為,這只是時間問題。他大膽預言,Grok有望在今年年底具備發(fā)明新技術的能力,到明年則幾乎能夠擁有發(fā)現新物理規(guī)律的實力。
據介紹,本次發(fā)布的Grok 4系列模型包括Grok 4和Grok 4 Heavy兩個版本,均為推理模型。其中,Grok 4為單智能體模型,而Grok 4 Heavy為多智能體版本,支持多個智能體并行思考,能夠調用更大規(guī)模的計算資源以完成更復雜、更精密的任務。
大模型性能評估平臺Artificial Analysis的全套基準測試成績表明,Grok 4已經成為當前領先的AI大模型,總成績達到了73分,領先于o3-pro、Gemini 2.5 Pro等模型。
圖片來源:Artificial Analysis
此外,在“人類終極考試”(HLE,Humanity's Last Exam)中,Grok 4系列模型也取得了亮眼的成績。最新版“人類終極考試”包含2500道專家級難度的問題,涵蓋數學、物理等多個領域。
據xAI介紹,今年早些時候,大多數模型在該測試中的準確率得分在10%以下。而Grok 4在不使用任何工具的情況下,得分為25.4%,超過了Gemini 2.5 Pro的21.6%和o3的21%。若使用工具,Grok 4的成績進一步提升至38.6%,Grok 4 Heavy的成績更是達到了44.4%,幾乎是Gemini 2.5 Pro的兩倍。
圖片來源:xAI直播截圖
除了“人類終極考試”,Grok 4和Grok 4 Heavy在其他基準測試中同樣表現突出。Grok 4系列在GPQA測試中得分均接近90%,在AIME25數學競賽題上,Grok 4 Heavy更是取得了滿分的成績。
在以高難度著稱的ARC-AGI通用人工智能測試中,Grok 4在v2 Semi Private挑戰(zhàn)中獲得15.9%的分數,幾乎是第二名Claude Opus 4得分的兩倍。
圖片來源:xAI直播截圖
除了在基準測試上表現亮眼外,Grok 4語音能力也得到了增強。據介紹,Grok 4的語音模式相較于上一代,端到端的延遲更低,還支持五種音色。
目前,Grok 4已經上線,不過需要付費使用,且訂閱費相當昂貴。據xAI官網,付費模式分為年付和月付兩種。Grok 4的訂閱年費為300美元(約合人民幣2153元),而要想使用更強大的Grok 4 Heavy版本,則需要訂閱SuperGrok Heavy套餐,年費高達3000美元(約合人民幣21530元)。
圖片來源:xAI官網
下一步,xAI預計還將發(fā)布代碼模型、多模態(tài)智能體以及視頻生成模型。
Grok?4的推出伴隨著不小的爭議。直播前夕,Grok?3曾因傳播不當言論引發(fā)外界批評。有聲音認為,xAI若不能在未來幾周內提供更具結構性的模型安全機制,并公布更透明的訓練方式,Grok?4或很難擺脫“高性能之下的高風險”。
對此,馬斯克強調,Grok?4的目標是“成為盡可能追求真相的AI”。
在馬斯克看來,許多模型的訓練數據本身就充斥著錯誤與垃圾信息。他此前宣稱,要用具有高級推理能力的Grok 4重寫人類知識庫,補充缺失的內容,糾正錯誤的知識,再基于新的“干凈而準確”的知識庫重新訓練AI。
圖片來源:X
不過,有觀點指出,馬斯克正試圖打造一個能夠體現自己觀點的模型。Cohere聯(lián)合創(chuàng)始人尼克·弗羅斯特(Nick Frosst)直言,“他(馬斯克)正努力打造一個反映其個人信念的模型。這肯定會讓模型對用戶來說更差,除非用戶恰好認同他的所有信念,且只希望模型復述這些內容?!?/p>
從技術層面看,馬斯克的構想或同樣存在一些問題。谷歌DeepMind研究副總裁奧里奧爾·文亞爾斯(Oriol Vinyals)指出,如果從訓練數據中剔除所有錯誤,模型可能會喪失檢測和修復新錯誤的能力。
圖片來源:X
盡管外界頻有爭議,但資本市場卻給出了一些積極的反饋。
作為業(yè)內頭號馬斯克“鐵粉”的網紅基金經理、有著“木頭姐”之稱的凱西·伍德(Cathie Wood)在最新一期播客節(jié)目中表示,Grok雖然起步較晚,但在性能上很快追趕上o3 pro等頭部模型,這得益于訓練集群的合理布局,確保了訓練的高效。
據悉,Grok 4的整個訓練過程就動用了全球最大的AI訓練農場“巨像”超算集群,20萬個GPU一起開工。
而且,Grok 4發(fā)布的前一周,xAI又完成了百億美元融資。目前,xAI累計融資額已超過200億美元。4月底有報道稱,xAI控股公司正在與投資者洽談,計劃為其整合后的xAI及社交媒體業(yè)務X平臺籌集約200億美元資金。若交易達成,該公司估值將突破1200億美元。
充裕的資金也為xAI的算力布局提供了堅實保障。xAI在田納西州孟菲斯建成的超算集群“巨像”(Colossus)已經部署了20萬塊GPU,硬件成本高達70億美元,功耗達300兆瓦,相當于25萬戶家庭的用電量。此外,xAI還計劃建一個擁有100萬塊GPU的新設施。
凱西·伍德稱,AI基礎模型及相關市場規(guī)模龐大,而xAI有望在這一領域脫穎而出。她指出,借助星鏈等渠道,xAI獲得了強大的分發(fā)優(yōu)勢。而隨著xAI旗下模型持續(xù)迭代,X平臺的信息價值也將同步提升。X可被視為一個以揭示真相為目標的信息平臺,而xAI則專注于通過AI技術揭示真相。兩者的協(xié)同合作,能讓xAI觸達更廣泛的用戶群體,進而形成數據優(yōu)勢?!?/p>
方舟投資認為,基礎模型的企業(yè)市場規(guī)模將達到15萬億到20萬億美元。目前,該公司投資了xAI、OpenAI和Anthropic。凱西·伍德表示,他們相信,這三家公司在技術上處于領先地位,雖然未來可能會涌現更多專注于不同領域的語言模型并做得更好,但這三家公司目前仍具有顯著的競爭優(yōu)勢。
如需轉載請與《每日經濟新聞》報社聯(lián)系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP