- +1
DeepSeek V4炸場(chǎng)背后:硅谷在“造墻”,中國(guó)在“修路”

4月24日上午,姍姍來(lái)遲的DeepSeek V4終于顯露真身。
當(dāng)天,DeepSeek-V4-Pro即登頂Hugging Face開(kāi)源模型榜,兩個(gè)“核彈級(jí)創(chuàng)新”被津津樂(lè)道:
一是百萬(wàn)級(jí)的超長(zhǎng)上下文,但KV cache只有V3.2的10%,被亞馬遜工程師盛贊將解決HBM短缺問(wèn)題;
二是對(duì)國(guó)產(chǎn)芯片的適配,在研發(fā)過(guò)程中與華為緊密合作,并第一時(shí)間適配了昇騰、寒武紀(jì)等國(guó)產(chǎn)芯片。

巧合的是,Hugging Face開(kāi)源模型榜排名第二的,正是4月20日深夜發(fā)布并開(kāi)源的Kimi K2.6。
如果是在太平洋對(duì)岸,兩個(gè)萬(wàn)億參數(shù)模型的“撞檔”,免不了為了估值、商業(yè)版圖互相攻訐,國(guó)內(nèi)卻上演了截然不同的一幕:沒(méi)有互揭老底的戲碼、沒(méi)有暗流涌動(dòng)的公關(guān)戰(zhàn),甚至在技術(shù)底層進(jìn)行了“換防”。
“不尋常”的背后,暗藏了中美在AI技術(shù)路線(xiàn)上的分歧:硅谷瘋正在狂“豎起高墻”,試圖用閉源守住既得利益;國(guó)大模型廠(chǎng)商則選擇“拆掉圍墻”,在開(kāi)源的土壤上走向了協(xié)同進(jìn)化。
01 硅谷深陷“權(quán)力的游戲”
不同于國(guó)內(nèi)大模型百花齊放的開(kāi)源路線(xiàn),OpenAI、Anthropic、谷歌Gemini為代表的硅谷AI頭羊,無(wú)不是閉源的擁躉。
當(dāng)前沿的技術(shù)創(chuàng)新被鎖死在各自的數(shù)據(jù)中心里,面對(duì)算力成本的重壓和資本市場(chǎng)的期待,以開(kāi)放與協(xié)作著稱(chēng)的“硅谷精神”漸漸消亡,玩家們不可避免地陷入了零和博弈的“權(quán)力游戲”。
過(guò)去兩年里,技術(shù)“暗戰(zhàn)”已經(jīng)演變成公開(kāi)互撕,最典型的手段就是互相“搶風(fēng)頭”:在競(jìng)爭(zhēng)對(duì)手發(fā)布新產(chǎn)品的關(guān)鍵節(jié)點(diǎn),迅速拋出自家的重磅更新來(lái)遏制對(duì)方的聲量,已經(jīng)成為硅谷的常規(guī)操作。
早在2024年5月,OpenAI和谷歌就曾同時(shí)發(fā)布AI新品,一方說(shuō)GPT-4o全球領(lǐng)先,一方說(shuō)Gemini家族能覆蓋全生態(tài)全路徑。最后兩家公司的CEO都坐不住了,公開(kāi)在社交媒體上嘲諷對(duì)方。
不只是和谷歌的“纏斗”,OpenAI與Anthropic的較量也進(jìn)入了白熱化:就在4月16日,Anthropic剛發(fā)布了新模型Claude Opus 4.7,OpenAI在兩個(gè)多小時(shí)后便宣布Codex大幅更新,喊出了“Codex for(almost) everything”的口號(hào)。明眼人都看得出來(lái),時(shí)間上的撞檔絕非巧合,而是OpenAI針對(duì)Anthropic精心策劃的一場(chǎng)“狙擊”。
除了輿論場(chǎng)上的“文斗”,互相“揭老底”的“武斗”也成了硅谷的常態(tài)。
Anthropic在4月7日高調(diào)宣布年化收入達(dá)到300億美元,成功超越OpenAI的250億美元。
一個(gè)禮拜后,OpenAI首席營(yíng)收官在給全體員工的內(nèi)部信中直言不諱地指出:Anthropic對(duì)外宣稱(chēng)的300億美元年化營(yíng)收存在嚴(yán)重水分,因?yàn)樗捎玫氖恰翱傤~法”,把分給亞馬遜、谷歌等云服務(wù)商的抽成,也全額算進(jìn)了自己的總營(yíng)收里,導(dǎo)致年化收入被高估了約80億美元。
內(nèi)部信中給對(duì)手拆臺(tái)的做法,在科技行業(yè)并不常見(jiàn),目的無(wú)非是想告訴投資人——Anthropic的增長(zhǎng)神話(huà)是注水的。
而一旦敵意滋生,會(huì)無(wú)孔不入地影響每一個(gè)決策。
Anthropic因拒絕刪除合同中的特定安全條款與五角大樓“鬧掰”后,OpenAI幾個(gè)小時(shí)后就高調(diào)宣布已與美國(guó)國(guó)防部達(dá)成合作。

在2026年的“超級(jí)碗”上,Anthropic重金投放了一條廣告,內(nèi)容是“廣告正在進(jìn)入AI領(lǐng)域,但不會(huì)進(jìn)入Claude?!笨梢哉f(shuō)是對(duì)著剛開(kāi)始測(cè)試廣告功能的OpenAI“貼臉開(kāi)大”.......
為何昔日的“同門(mén)兄弟”,走到了水火不容的地步?
根源在于閉源商業(yè)模式的固有邏輯:閉源的生存根基在于構(gòu)建護(hù)城河,而構(gòu)建護(hù)城河的前提就是阻斷技術(shù)擴(kuò)散,壟斷最先進(jìn)的生產(chǎn)力。再加上技術(shù)路線(xiàn)不兼容、產(chǎn)品敘事對(duì)立,自然而然地形成了一個(gè)納什均衡:誰(shuí)先“停火”,誰(shuí)的品牌敘事就會(huì)坍塌,最終在內(nèi)耗的泥潭里越陷越深。
02 開(kāi)源陣營(yíng)的“協(xié)同進(jìn)化”
將視線(xiàn)轉(zhuǎn)回國(guó)內(nèi),劇本的走向完全不同。
時(shí)間回到一年多前,DeepSeek-R1的橫空出世,為狂奔的大模型創(chuàng)業(yè)賽踩了一腳剎車(chē),進(jìn)入決賽圈的大模型“六小虎”首當(dāng)其沖。和硅谷最大的區(qū)別,DeepSeek沒(méi)有扮演吃掉池子里所有魚(yú)的“鯊魚(yú)”,而是像鯰魚(yú)一樣激活了整個(gè)中國(guó)大模型生態(tài),大家紛紛擁抱開(kāi)源。
直接的例子就是和DeepSeek的成長(zhǎng)軌跡高度重合的月之暗面 都是2023年起步的初創(chuàng)團(tuán)隊(duì),都保持著人數(shù)極少但人才密度極高的團(tuán)隊(duì)結(jié)構(gòu),并且都是Scaling Law的堅(jiān)定信徒。
2025年7月,月之暗面發(fā)布了全球第一個(gè)萬(wàn)億參數(shù)的開(kāi)源模型Kimi K2,在技術(shù)報(bào)告里毫不掩飾的說(shuō)采用了DeepSeek開(kāi)源的MLA架構(gòu)。對(duì)于大模型來(lái)說(shuō),處理超長(zhǎng)文本最大的噩夢(mèng)是顯存墻,而MLA架構(gòu)的顛覆性在于,巧妙將KV Cache的壓縮率做到了驚人的93%以上。
有了DeepSeek貢獻(xiàn)的“業(yè)界標(biāo)準(zhǔn)”,月之暗面在內(nèi)的大模型團(tuán)隊(duì)不需要重復(fù)造輪子,快速降低了推理成本。
故事并未止步于此。
翻看DeepSeek V4的技術(shù)文檔,詳細(xì)描述了模型的架構(gòu),其中一個(gè)重要升級(jí)是把大部分模塊的優(yōu)化器從AdamW換成了Muon,實(shí)現(xiàn)了更快的收斂速度、更優(yōu)的訓(xùn)練穩(wěn)定性。

在Kimi K2.6的技術(shù)文檔中,同樣提到了Muon優(yōu)化器,在相同的訓(xùn)練量下實(shí)現(xiàn)了2倍的效率提升。
兩個(gè)模型都提到的Muon優(yōu)化器,最早由獨(dú)立研究者Keller Jordan在2024年底的博客里提出。同樣被AdamW困擾的月之暗面團(tuán)隊(duì),在2025年初對(duì)Muon進(jìn)行了關(guān)鍵的工程化改進(jìn),增加了Weight Decay、RMS控制等能力,并命名為MuonClip。
月之暗面在Kimi K2上率先驗(yàn)證了Muon優(yōu)化器的穩(wěn)定性,實(shí)現(xiàn)了預(yù)訓(xùn)練全程“零Loss Spike”。DeepSeek在訓(xùn)練V4大模型時(shí),同樣采用了被驗(yàn)證過(guò)的Muon優(yōu)化器。
需要說(shuō)明的是,開(kāi)源大模型的“協(xié)同進(jìn)化”并未陷入同質(zhì)化,正在走向一條“和而不同”的道路。
比如DeepSeek-V4聚焦基礎(chǔ)模型的核心能力攻堅(jiān),進(jìn)一步筑牢了全球開(kāi)源大模型的性能天花板,為全行業(yè)提供了性能比肩閉源旗艦的基礎(chǔ)底座;Kimi K2.6深耕Agent工程化落地,解決了大模型長(zhǎng)程自主執(zhí)行的痛點(diǎn),為大模型進(jìn)入真實(shí)生產(chǎn)場(chǎng)景打通了關(guān)鍵路徑。
整個(gè)過(guò)程中,沒(méi)有曠日持久的商業(yè)談判,沒(méi)有劍拔弩張的專(zhuān)利博弈。在開(kāi)源陣營(yíng)里,技術(shù)創(chuàng)新正在像水一樣自由流動(dòng),誰(shuí)做得好,大家就用誰(shuí)的。
在開(kāi)源生態(tài)中汲取養(yǎng)分,在技術(shù)路線(xiàn)上互補(bǔ)。中國(guó)的大模型廠(chǎng)商,用行動(dòng)向世界示范了硅谷之外的另一種可能。
03 美國(guó)在“造墻”,中國(guó)在“修路”
贊嘆開(kāi)源協(xié)同進(jìn)化的同時(shí),必須直面一個(gè)商業(yè)現(xiàn)實(shí)。
目前OpenAI和Anthropic的年化收入均達(dá)到了百億美元以上,而國(guó)內(nèi)頭部大模型廠(chǎng)商的營(yíng)收,剛跨過(guò)年化一億美元的大門(mén)。
OpenAI在二級(jí)市場(chǎng)的估值約8800億美元,Anthropic的估值已經(jīng)飆升到了1萬(wàn)億美元左右,而Kimi和DeepSeek新一輪融資的估值,分別為180億美元和200億美元。
有人高呼中國(guó)大模型廠(chǎng)商的市值被低估了,也有人認(rèn)為:“能否將技術(shù)口碑轉(zhuǎn)化為真金白銀,是擺在中國(guó)廠(chǎng)商面前的生死大考?!币粫r(shí)間,關(guān)于開(kāi)源“性?xún)r(jià)比”的討論甚囂塵上。
想要看清終局,或可以從大模型的競(jìng)爭(zhēng)階段著手:

第一階段是“拼參數(shù)、拼Benchmark”。到了2026年4月末,這個(gè)階段基本結(jié)束,各家在榜單上的跑分已經(jīng)拉不開(kāi)實(shí)質(zhì)性差距。
第二階段是“拼訓(xùn)練效率、拼推理成本、拼架構(gòu)創(chuàng)新”。正是當(dāng)下所處的賽段,也是算力成本倒逼下的必然結(jié)果。
第三階段將是“拼Agent體系、拼生態(tài)、拼開(kāi)發(fā)者”。當(dāng)Token從免費(fèi)流量變成執(zhí)行任務(wù)的“燃料”時(shí),生態(tài)的繁榮度將決定生死。
國(guó)內(nèi)的開(kāi)源大模型處于什么生態(tài)位呢?我們找到了兩組直觀的對(duì)比數(shù)據(jù)。
一個(gè)是訓(xùn)練成本。
2025年8月發(fā)布的GPT-5,訓(xùn)練成本超過(guò)5億美元;同期的Kimi K2 Thinking,訓(xùn)練成本約460萬(wàn)美元;DeepSeek沒(méi)有公布V4系列模型的訓(xùn)練成本,但V3模型僅花費(fèi)了557.6萬(wàn)美元......國(guó)內(nèi)大模型廠(chǎng)商只用了不到OpenAI零頭的資源,訓(xùn)練出了同等水平的模型。
另一個(gè)是調(diào)用量。
進(jìn)入2026年后,多模型聚合平臺(tái)OpenRouter的數(shù)據(jù)顯示:在OpenClaw代表的Agent產(chǎn)品的帶動(dòng)下,全球的Token消耗量呈現(xiàn)出了指數(shù)級(jí)增長(zhǎng),中國(guó)的“開(kāi)源夢(mèng)之隊(duì)”,憑借“好用又便宜”的口碑,調(diào)用量已經(jīng)連續(xù)多周超越美國(guó)。
原因并不難解釋。
中國(guó)開(kāi)源陣營(yíng)已經(jīng)跑通了“正反饋飛輪”:A公司開(kāi)源底層技術(shù),B公司采用并進(jìn)行工程優(yōu)化,再將優(yōu)化的結(jié)果和經(jīng)驗(yàn)反哺給整個(gè)生態(tài)。如果說(shuō)閉源模型的進(jìn)化是建立在海量算力堆砌上的線(xiàn)性增長(zhǎng),等待開(kāi)源路線(xiàn)的,將是技術(shù)創(chuàng)新相互碰撞帶來(lái)的指數(shù)級(jí)擴(kuò)散。
按照摩根大通的研報(bào),2025-2030年間中國(guó)AI推理token消耗量將實(shí)現(xiàn)約330%的年復(fù)合增長(zhǎng)率,將從2025年的10萬(wàn)億token,激增至2030年的3900萬(wàn)億token,增長(zhǎng)規(guī)模達(dá)370倍。
也就是說(shuō),2026年仍處于AI爆發(fā)的初期,未來(lái)5年里還有數(shù)百倍的增長(zhǎng)機(jī)會(huì),遠(yuǎn)未到蓋棺定論的時(shí)候。
恰恰是對(duì)長(zhǎng)遠(yuǎn)機(jī)會(huì)的自信,在硅谷巨頭們拼命造墻時(shí),中國(guó)的大模型廠(chǎng)商選擇用協(xié)同補(bǔ)位的方式,不斷夯實(shí)通往AGI的路。
04 寫(xiě)在最后
這場(chǎng)轟轟烈烈的AI浪潮,誰(shuí)會(huì)笑到最后?答案不僅關(guān)乎模型,還關(guān)系到算力的自主可控。如果把模型比作“原子彈”的話(huà),擺脫外部技術(shù)封鎖的國(guó)產(chǎn)算力,就是將原子彈送上天的“火箭”。
讓人欣慰的是,國(guó)產(chǎn)模型和國(guó)產(chǎn)算力的融合越來(lái)越緊密:DeepSeek V4的技術(shù)文檔中,將昇騰NPU與英偉達(dá)GPU并列寫(xiě)入了硬件驗(yàn)證清單;月之暗面在最新的論文中將大模型推理的預(yù)填充和解碼運(yùn)行在了不同芯片上,為國(guó)產(chǎn)芯片大規(guī)模參與模型推理打開(kāi)了大門(mén)。
2025年初,DeepSeek R1為國(guó)產(chǎn)大模型爭(zhēng)取到了上牌桌的機(jī)會(huì);到了2026年,中國(guó)的開(kāi)源大模型陣營(yíng),正在協(xié)同合作中不斷創(chuàng)造更多定義牌桌規(guī)則的硬資本。
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪(fǎng)問(wèn)http://renzheng.thepaper.cn。





- 報(bào)料熱線(xiàn): 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




