馬斯克xAI新模型Grok 4.2公測，通過趣味測試，回答風(fēng)格與馬斯克高度契合-新車-電動(dòng)新物種

馬斯克xAI新模型Grok 4.2公測，通過趣味測試，回答風(fēng)格與馬斯克高度契合

發(fā)布時(shí)間：2026-02-18 20:04 來源：快訊作者：唐云澤

馬斯克旗下的xAI公司近日在爭議聲中推出了Grok 4.2公測Beta版，盡管團(tuán)隊(duì)近期經(jīng)歷高層動(dòng)蕩，但新模型的發(fā)布依然引發(fā)廣泛關(guān)注。與當(dāng)前主流大模型動(dòng)輒數(shù)萬億參數(shù)不同，Grok 4.2僅采用500B參數(shù)架構(gòu)，這種"輕量化"設(shè)計(jì)使其在性能表現(xiàn)上呈現(xiàn)兩極分化態(tài)勢——部分用戶盛贊其創(chuàng)新功能，另一派則批評其邏輯推理能力不足。

面對質(zhì)疑聲浪，馬斯克在社交平臺展開密集公關(guān)行動(dòng)。他不僅連續(xù)轉(zhuǎn)發(fā)數(shù)十條正面評價(jià)，更親自發(fā)文強(qiáng)調(diào)："當(dāng)前版本仍存在諸多缺陷，但團(tuán)隊(duì)正在每日修復(fù)。公測結(jié)束后，Grok 4.2將展現(xiàn)出比前代快數(shù)倍的推理速度。"據(jù)技術(shù)文檔披露，該模型具備每周自我迭代的獨(dú)特能力，未來將形成常態(tài)化更新機(jī)制。這種動(dòng)態(tài)優(yōu)化模式被視為對抗OpenAI等競爭對手的關(guān)鍵策略。

測試數(shù)據(jù)顯示，Grok 4.2在弱智吧風(fēng)格測試題中表現(xiàn)亮眼。當(dāng)被問及"50米外洗車店該開車還是步行"時(shí)，模型準(zhǔn)確識別出距離因素與交通方式的非關(guān)聯(lián)性，給出符合邏輯的解答。但專業(yè)開發(fā)者指出，在復(fù)雜數(shù)學(xué)證明和跨領(lǐng)域知識整合等任務(wù)中，500B參數(shù)的局限性開始顯現(xiàn)。Reddit社區(qū)討論顯示，部分用戶認(rèn)為馬斯克宣稱的"橫掃榜單"可能源于特定測試環(huán)境的優(yōu)化。

模型偏見問題再度引發(fā)爭議。盡管馬斯克承諾打造無偏見系統(tǒng)，但實(shí)際測試發(fā)現(xiàn)Grok 4.2在涉及性別議題時(shí)，回答傾向與創(chuàng)始人公開立場高度吻合。例如在"Caitlyn Jenner"測試中，模型展現(xiàn)出與ChatGPT、Gemini截然不同的價(jià)值判斷，該結(jié)果在社交平臺引發(fā)新一輪倫理討論。支持者則強(qiáng)調(diào)，這種"個(gè)性化"特征恰恰體現(xiàn)了模型的人文關(guān)懷。

技術(shù)細(xì)節(jié)的缺失加劇了外界猜測。xAI至今未公布完整訓(xùn)練數(shù)據(jù)構(gòu)成和底層架構(gòu)說明，僅在排行榜披露部分基準(zhǔn)測試結(jié)果。這種透明度不足導(dǎo)致討論集中于用戶體驗(yàn)層面，而非技術(shù)突破本身。AI工程師Mark Krechman透露，當(dāng)前版本屬于"精簡試驗(yàn)品"，中大型版本正在研發(fā)中，該說法獲得馬斯克本人轉(zhuǎn)發(fā)確認(rèn)。

在模型發(fā)布同期，xAI還推出Grok imagine視頻生成工具，目前僅限iOS用戶使用。這項(xiàng)新功能被視為拓展多模態(tài)能力的重要布局，但具體市場反響仍有待觀察。隨著公測持續(xù)推進(jìn)，Grok 4.2能否在每周迭代中實(shí)現(xiàn)性能躍升，將成為檢驗(yàn)馬斯克技術(shù)承諾的關(guān)鍵指標(biāo)。

更多>同類內(nèi)容