- +1
在騰訊拆墻的人

出品 | 智械島
作者 | 沈懷錚(上海)
馬化騰說騰訊慢了,慢了9個月到1年,這話是年會上當著所有人的面說的。
劉熾平接著又補了一刀,說過去的混元是高中生背題,成績單好看,上了考場就露餡。
慢了,是因為有墻。
模型和產(chǎn)品之間有墻,訓模型的人不懂業(yè)務(wù)場景,做產(chǎn)品的人等不起迭代周期。
研發(fā)和工程之間有墻,研究歸研究,落地歸落地,兩條線各跑各的。
混元團隊和騰訊生態(tài)之間有墻,自家業(yè)務(wù)接入自家模型,比接入外部方案還費勁。
背題能刷出好看的成績單,是因為考題是封閉的。而真實場景是開放的,墻不拆,模型永遠走不進現(xiàn)實。
所以姚順雨到了騰訊,做的第一件事不是把模型調(diào)得更快,是拆墻,先拆墻,再趕路。
拆墻本身就是一種慢,它不直接產(chǎn)生速度,只是在清除那些讓速度無法持續(xù)的障礙。
馬化騰說完慢88天后,Hy3 preview上線,不到三個月,姚順雨把一個自家業(yè)務(wù)都不敢接的混元,重新捏成了一個能用的東西。
一、自家模型,坐不上自家的主桌
姚順雨到騰訊做的第一件事,是查問題。
晚點報道過,這位新任首席AI科學家和同事、實習生聊到深夜,一個模塊一個模塊地排查混元長期表現(xiàn)不佳的原因,然后把診斷結(jié)果直接報給了劉熾平。
那段時間,混元在騰訊內(nèi)部的位置可以用一句話概括:自家業(yè)務(wù)都坐不上主桌。
微信、游戲、廣告、企服,都需要AI能力,但混元接不??;一些核心業(yè)務(wù)寧可繞開自研模型,自己找方案。
一個大廠自研的模型,在自己家里當客人,這道墻比任何跑分都更致命。
姚順雨到任后,先拆了離地基最近的那面墻:數(shù)據(jù)。
過去混元的SFT數(shù)據(jù)沒有去重,重復(fù)、冗余的數(shù)據(jù)能到上千萬條。工期一緊,數(shù)據(jù)審核就被排到最后。
姚順雨拉起一個20多人的預(yù)訓練數(shù)據(jù)團隊,專做最臟最累的數(shù)據(jù)審核,幾個月把冗余數(shù)據(jù)控制在一萬多條。
然后是Infra,姚順雨主導重建了強化學習管線,讓萬卡集群能穩(wěn)定跑起來。
同期,成立十年的騰訊AI Lab被撤銷,核心人員并入混元,統(tǒng)一匯報。
AI Lab曾是騰訊AI體系里獨立于混元的存在,研究歸研究,產(chǎn)品歸產(chǎn)品,兩套體系各自運行。
這面組織墻存在了十年,姚順雨直接拆了。
二、所有人都在沖榜,
姚順雨在問模型到底學會了沒有
Hy3 preview發(fā)布那天,行業(yè)正處在一輪密集交卷的高潮。前有阿里、Kimi、小米,后有GPT-5.5和DeepSeek V4。
一個295B的模型被扔進這個池子,幾乎聽不見水花。
但有一個動作被很多人忽略了:發(fā)布前,CL-bench論文先放了出來。這篇論文測的是上下文學習能力,最好模型的解題率只有23.7%,核心短板不在“讀不全、找不到”,而在“學不會、用不對、執(zhí)行不了”。
這是一個被行業(yè)長期回避的問題。上下文窗口越做越長,大海撈針測試接近滿分,但一進真實場景就掉鏈子。
姚順雨的判斷是:這個問題不解決,Agent永遠只能是demo。
所以Hy3 preview的首個動作,就是把“上下文學習和指令遵循”寫進了核心能力清單第一條。
沒追SWE-Bench Verified,沒追Terminal-Bench 2.0。放出來的是AdvancedIF、AA-LCR和自己搞的CL-bench。
這是姚順雨做研究的底層邏輯,ReAct在探索推理和行動怎么協(xié)同,CL-bench在追問模型能不能從上下文里真學會點什么,Hy3 preview是這兩個方向在產(chǎn)品上的第一次合攏。
當行業(yè)在追熱點,這個人在追問題本身。
三、能做,但還不夠穩(wěn)
Hy3 preview是1月底開訓、4月上線的,不到三個月,從零到可用。
不是參數(shù)的魔法,是重建了預(yù)訓練和強化學習的整套基礎(chǔ)設(shè)施。用騰訊內(nèi)部的話說,混元團隊在過去幾個月做的事情,比過去兩年加起來都重。
但Preview終究是Preview,代碼能力大致追到智譜去年12月的水平,差了約四個月。
在WorkBuddy上實測,能穩(wěn)跑495步的復(fù)雜工作流,但換個場景,抓金融數(shù)據(jù)、算相關(guān)性、寫資產(chǎn)配置報告,就會在數(shù)據(jù)獲取階段反復(fù)碰壁,最后交出來的分析只有幾行要點,不是成文的段落。
騰訊內(nèi)部對這版模型的定位是“混元重建的第一步”。
注意這個措辭,不是追趕的一步,不是超越的一步,是重建的第一步。姚順雨說希望通過開源自社區(qū)拿真實反饋,幫正式版提升實用性。
混元定下的三條原則里,有一條叫“評測真實性”:跳出容易被刷榜的公開數(shù)據(jù)集,自建50多套內(nèi)部評測,用真實考題、人工評測、產(chǎn)品眾測來驗證。
翻譯過來就是:別再背題了,去真實世界做事。
四、知道差多少,所以不裝
很多人拿Hy3 preview和DeepSeek V4比。這種比較對姚順雨其實不公平。
V4是在已經(jīng)跑通的體系上做極限突破,不急著商業(yè)化,專注向上捅天花板。Hy3 preview是推倒重來,在廢墟上先搭一個能用的框架。二者不在一個階段。
但有一點值得比。DeepSeek開源,坦誠得要命,技術(shù)報告里直接寫“落后GPT-5.4三到六個月”。姚順雨這次也開源了Hy3 preview,在國產(chǎn)廠商紛紛閉源的當口,說的是拿真實反饋,磨實用能力。
潛臺詞是:知道還差多少,所以不裝。
今年1月的AGI-Next峰會上,姚順雨說生產(chǎn)力Agent才剛剛開始,即使今天所有模型訓練都停止,把現(xiàn)有模型部署到企業(yè)里,已經(jīng)能帶來10倍甚至100倍的收益。
真正的戰(zhàn)場不在訓練端,在落地端。
騰訊手里有中國最大的社交生態(tài)、最多的用戶觸點、最密的產(chǎn)品矩陣。但這些牌要打得出來,地基得先搭穩(wěn)。
姚順雨三個月搭了一個預(yù)覽版的地基,證明了一件事:騰訊的AI能干真活了。
至于能干到什么份上,Hy3 preview給不了答案。
墻拆完以后,考驗才真正開始。騰訊內(nèi)部的墻姚順雨拆得動,但還有一些墻不在手上。
行業(yè)進度不等人,競爭對手不減速,市場耐心有限度。
Hy3 preview只證明了方法論通了,新團隊能打仗了,重建方向是對的。更大的模型還在訓,正式版才是這套方法論能不能站住的第一場硬仗。
五、結(jié)語
姚順雨說過,自己最喜歡的工作是ReAct。
那個框架的核心邏輯是:推理完就行動,行動完再觀察,觀察完再推理,一個不停歇的循環(huán)。
現(xiàn)在他就卡在這個循環(huán)里,交了一個預(yù)覽版的答卷。
接下來是觀察,拿開源社區(qū)的反饋,騰訊業(yè)務(wù)的實測數(shù)據(jù),看哪里裂了、哪里歪了,再進行下一輪推理和行動。
27歲,執(zhí)掌一個大廠的AI命脈。外界看到的是光環(huán),姚順雨面對的卻是墻。
舊的墻拆了,新的墻還會長出來。組織有慣性,文化有惰性,大廠尤其如此。
拆墻不是一次性的事。一個人,對著一個千億帝國的內(nèi)部結(jié)構(gòu),只能一堵一堵地拆。
而拆墻這件事,從來不在某個版本號里宣告完工。
本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報業(yè)有限公司




