9999精品视频,一区二区色,91福利在线免费播放,人妻在线综合综合网,人妻丰满精品一区,九九九精品九九九精品,久久精品店,国产午夜久久,五月天人妻超碰

  • +1

在騰訊拆墻的人

2026-05-08 15:16
來源:澎湃新聞·澎湃號·湃客
聽全文
字號

出品 | 智械島

作者 | 沈懷錚(上海)

馬化騰說騰訊慢了,慢了9個月到1年,這話是年會上當著所有人的面說的。

劉熾平接著又補了一刀,說過去的混元是高中生背題,成績單好看,上了考場就露餡。

慢了,是因為有墻。

模型和產(chǎn)品之間有墻,訓模型的人不懂業(yè)務(wù)場景,做產(chǎn)品的人等不起迭代周期。

研發(fā)和工程之間有墻,研究歸研究,落地歸落地,兩條線各跑各的。

混元團隊和騰訊生態(tài)之間有墻,自家業(yè)務(wù)接入自家模型,比接入外部方案還費勁。

背題能刷出好看的成績單,是因為考題是封閉的。而真實場景是開放的,墻不拆,模型永遠走不進現(xiàn)實。

所以姚順雨到了騰訊,做的第一件事不是把模型調(diào)得更快,是拆墻,先拆墻,再趕路。

拆墻本身就是一種慢,它不直接產(chǎn)生速度,只是在清除那些讓速度無法持續(xù)的障礙。

馬化騰說完慢88天后,Hy3 preview上線,不到三個月,姚順雨把一個自家業(yè)務(wù)都不敢接的混元,重新捏成了一個能用的東西。

一、自家模型,坐不上自家的主桌

姚順雨到騰訊做的第一件事,是查問題。

晚點報道過,這位新任首席AI科學家和同事、實習生聊到深夜,一個模塊一個模塊地排查混元長期表現(xiàn)不佳的原因,然后把診斷結(jié)果直接報給了劉熾平。

那段時間,混元在騰訊內(nèi)部的位置可以用一句話概括:自家業(yè)務(wù)都坐不上主桌。

微信、游戲、廣告、企服,都需要AI能力,但混元接不??;一些核心業(yè)務(wù)寧可繞開自研模型,自己找方案。

一個大廠自研的模型,在自己家里當客人,這道墻比任何跑分都更致命。

姚順雨到任后,先拆了離地基最近的那面墻:數(shù)據(jù)。

過去混元的SFT數(shù)據(jù)沒有去重,重復(fù)、冗余的數(shù)據(jù)能到上千萬條。工期一緊,數(shù)據(jù)審核就被排到最后。

姚順雨拉起一個20多人的預(yù)訓練數(shù)據(jù)團隊,專做最臟最累的數(shù)據(jù)審核,幾個月把冗余數(shù)據(jù)控制在一萬多條。

然后是Infra,姚順雨主導重建了強化學習管線,讓萬卡集群能穩(wěn)定跑起來。

同期,成立十年的騰訊AI Lab被撤銷,核心人員并入混元,統(tǒng)一匯報。

AI Lab曾是騰訊AI體系里獨立于混元的存在,研究歸研究,產(chǎn)品歸產(chǎn)品,兩套體系各自運行。

這面組織墻存在了十年,姚順雨直接拆了。

二、所有人都在沖榜,

姚順雨在問模型到底學會了沒有

Hy3 preview發(fā)布那天,行業(yè)正處在一輪密集交卷的高潮。前有阿里、Kimi、小米,后有GPT-5.5和DeepSeek V4。

一個295B的模型被扔進這個池子,幾乎聽不見水花。

但有一個動作被很多人忽略了:發(fā)布前,CL-bench論文先放了出來。這篇論文測的是上下文學習能力,最好模型的解題率只有23.7%,核心短板不在“讀不全、找不到”,而在“學不會、用不對、執(zhí)行不了”。

這是一個被行業(yè)長期回避的問題。上下文窗口越做越長,大海撈針測試接近滿分,但一進真實場景就掉鏈子。

姚順雨的判斷是:這個問題不解決,Agent永遠只能是demo。

所以Hy3 preview的首個動作,就是把“上下文學習和指令遵循”寫進了核心能力清單第一條。

沒追SWE-Bench Verified,沒追Terminal-Bench 2.0。放出來的是AdvancedIF、AA-LCR和自己搞的CL-bench。

這是姚順雨做研究的底層邏輯,ReAct在探索推理和行動怎么協(xié)同,CL-bench在追問模型能不能從上下文里真學會點什么,Hy3 preview是這兩個方向在產(chǎn)品上的第一次合攏。

當行業(yè)在追熱點,這個人在追問題本身。

三、能做,但還不夠穩(wěn)

Hy3 preview是1月底開訓、4月上線的,不到三個月,從零到可用。

不是參數(shù)的魔法,是重建了預(yù)訓練和強化學習的整套基礎(chǔ)設(shè)施。用騰訊內(nèi)部的話說,混元團隊在過去幾個月做的事情,比過去兩年加起來都重。

但Preview終究是Preview,代碼能力大致追到智譜去年12月的水平,差了約四個月。

在WorkBuddy上實測,能穩(wěn)跑495步的復(fù)雜工作流,但換個場景,抓金融數(shù)據(jù)、算相關(guān)性、寫資產(chǎn)配置報告,就會在數(shù)據(jù)獲取階段反復(fù)碰壁,最后交出來的分析只有幾行要點,不是成文的段落。

騰訊內(nèi)部對這版模型的定位是“混元重建的第一步”。

注意這個措辭,不是追趕的一步,不是超越的一步,是重建的第一步。姚順雨說希望通過開源自社區(qū)拿真實反饋,幫正式版提升實用性。

混元定下的三條原則里,有一條叫“評測真實性”:跳出容易被刷榜的公開數(shù)據(jù)集,自建50多套內(nèi)部評測,用真實考題、人工評測、產(chǎn)品眾測來驗證。

翻譯過來就是:別再背題了,去真實世界做事。

四、知道差多少,所以不裝

很多人拿Hy3 preview和DeepSeek V4比。這種比較對姚順雨其實不公平。

V4是在已經(jīng)跑通的體系上做極限突破,不急著商業(yè)化,專注向上捅天花板。Hy3 preview是推倒重來,在廢墟上先搭一個能用的框架。二者不在一個階段。

但有一點值得比。DeepSeek開源,坦誠得要命,技術(shù)報告里直接寫“落后GPT-5.4三到六個月”。姚順雨這次也開源了Hy3 preview,在國產(chǎn)廠商紛紛閉源的當口,說的是拿真實反饋,磨實用能力。

潛臺詞是:知道還差多少,所以不裝。

今年1月的AGI-Next峰會上,姚順雨說生產(chǎn)力Agent才剛剛開始,即使今天所有模型訓練都停止,把現(xiàn)有模型部署到企業(yè)里,已經(jīng)能帶來10倍甚至100倍的收益。

真正的戰(zhàn)場不在訓練端,在落地端。

騰訊手里有中國最大的社交生態(tài)、最多的用戶觸點、最密的產(chǎn)品矩陣。但這些牌要打得出來,地基得先搭穩(wěn)。

姚順雨三個月搭了一個預(yù)覽版的地基,證明了一件事:騰訊的AI能干真活了。

至于能干到什么份上,Hy3 preview給不了答案。

墻拆完以后,考驗才真正開始。騰訊內(nèi)部的墻姚順雨拆得動,但還有一些墻不在手上。

行業(yè)進度不等人,競爭對手不減速,市場耐心有限度。

Hy3 preview只證明了方法論通了,新團隊能打仗了,重建方向是對的。更大的模型還在訓,正式版才是這套方法論能不能站住的第一場硬仗。

五、結(jié)語

姚順雨說過,自己最喜歡的工作是ReAct。

那個框架的核心邏輯是:推理完就行動,行動完再觀察,觀察完再推理,一個不停歇的循環(huán)。

現(xiàn)在他就卡在這個循環(huán)里,交了一個預(yù)覽版的答卷。

接下來是觀察,拿開源社區(qū)的反饋,騰訊業(yè)務(wù)的實測數(shù)據(jù),看哪里裂了、哪里歪了,再進行下一輪推理和行動。

27歲,執(zhí)掌一個大廠的AI命脈。外界看到的是光環(huán),姚順雨面對的卻是墻。

舊的墻拆了,新的墻還會長出來。組織有慣性,文化有惰性,大廠尤其如此。

拆墻不是一次性的事。一個人,對著一個千億帝國的內(nèi)部結(jié)構(gòu),只能一堵一堵地拆。

而拆墻這件事,從來不在某個版本號里宣告完工。

    本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2026 上海東方報業(yè)有限公司

            巴南区| 石林| 元谋县| 定结县| 金昌市| 阿图什市| 思茅市| 左贡县| 万源市| 祁门县| 久治县| 屏山县| 华安县| 侯马市| 从化市| 绍兴市| 娄烦县| 康保县| 偃师市| 开鲁县| 胶州市| 德昌县| 藁城市| 江川县| 科技| 肥东县| 五指山市| 泰和县| 陆良县| 离岛区| 怀仁县| 清新县| 津南区| 六枝特区| 叶城县| 广平县| 洮南市| 郓城县| 太仆寺旗| 鹤峰县| 布尔津县|