27歲掌舵騰訊大模型，非典型天才定義AI下半場

2025-12-23 16:35

來源：澎湃新聞·澎湃號·政務(wù)

2015年，以安徽省理科第三名的成績考入清華大學(xué)交叉信息研究院“姚班”；2019年，遠(yuǎn)赴美國普林斯頓大學(xué)深造，專攻自然語言處理與強(qiáng)化學(xué)習(xí)；2024年，加入OpenAI，為其首批智能體產(chǎn)品Operator、Deep research的開發(fā)作出了核心貢獻(xiàn)；2025年，出任騰訊首席AI科學(xué)家，同時兼任AI Infra部及大語言模型部負(fù)責(zé)人，掌舵騰訊AI基礎(chǔ)設(shè)施與大模型研發(fā)的核心業(yè)務(wù)。

這是姚順雨的十年。從17歲到27歲，他用十年活成了大眾眼中“學(xué)霸流”小說中的男主模板。但在他看來，他想做的就兩條線——簡單通用的方法、有實(shí)際價值的任務(wù)?！斑@些任務(wù)往往是如何在真實(shí)數(shù)字世界創(chuàng)造新的價值。這是一塊處女地，是一個巨大的寶藏。我只是恰好挖掘到了一些東西?！币樣暾f。

姚順雨

“乖”學(xué)生在攀登

在姚順雨刷屏的這幾天，我們接收到了不少關(guān)于他的信息：16歲拿到全國信息學(xué)奧林匹克競賽（NOI）銀牌；在高考考場上睡著了，丟了十幾分，錯失“狀元”；參與聯(lián)合創(chuàng)辦清華大學(xué)學(xué)生說唱社，在網(wǎng)易云發(fā)布了20余首說唱作品；以最年輕入選者身份躋身《麻省理工科技評論》“35歲以下科技創(chuàng)新35人”中國區(qū)名單……

看起來像一個“對抗路”天才，但姚順雨本人不這么想，回望來時路，他用“非常乖”來形容自己，所走過的每一步都是按部就班、順其自然。“在姚班，大家會希望去美國讀博，我就去考了普林斯頓大學(xué)。博士畢業(yè)后，OpenAI是做研究最好的地方，我就加入了OpenAI。”他說。但顯然，這一路走來，也沒有真的如此輕描淡寫。

在公開信息中，“智能體”（Agent），是姚順雨研究生涯中最重要的關(guān)鍵詞。不過，最初進(jìn)入清華姚班時，他學(xué)習(xí)的是理論計(jì)算科學(xué)?！爱?dāng)時，我覺得很多重要理論問題已經(jīng)解決得差不多了，比如將某個圖算法的復(fù)雜度從n的2.83次方優(yōu)化到n的2.82次方，這種改進(jìn)在現(xiàn)實(shí)中意義不大?！敝钡?016年的一節(jié)課上，老師在講授多模態(tài)嵌入時，展示了一個例子：“king（國王）”的向量 ? “man（男人）”的向量 + “queen（王后）”的向量 ≈ “woman（女人）”的向量。這讓姚順雨第一次意識到，深度學(xué)習(xí)在語義表示上居然能做出如此驚艷的計(jì)算。但當(dāng)時“姚班”在深度學(xué)習(xí)領(lǐng)域的師資有限，他沒能第一時間投入相關(guān)學(xué)習(xí)。2018年，按照“姚班”傳統(tǒng)，姚順雨前往麻省理工學(xué)院進(jìn)行海外交流，開始從計(jì)算機(jī)視覺切入，系統(tǒng)開展深入學(xué)習(xí)研究。2019年，他考入普林斯頓大學(xué)攻讀博士學(xué)位，專攻計(jì)算機(jī)視覺專業(yè)。

但是，經(jīng)過此前的學(xué)習(xí)，姚順雨認(rèn)為計(jì)算機(jī)視覺很難實(shí)現(xiàn)通用的智能，直覺告訴他，語言將是一個更核心、更有潛力的方向。于是，他開始尋求轉(zhuǎn)換方向，并與普林斯頓大學(xué)副教授卡提克·納拉辛漢（Karthik Narasimhan）相遇。

卡提克有一個著名的代表性成果——生成式預(yù)訓(xùn)練（GPT）開山之作，即GPT-1論文第二作者。此前，卡提克曾經(jīng)利用循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）在一個小規(guī)模文字游戲中訓(xùn)練智能體進(jìn)行簡單的動態(tài)交互。在經(jīng)過一番頭腦風(fēng)暴后，兩人認(rèn)為完全可以利用更強(qiáng)大的模型，如GPT-2，來進(jìn)行更復(fù)雜的語言游戲訓(xùn)練，以探討智能體中新的可能性。

這在當(dāng)時并不是一個討巧的方向。智能體研究尚屬冷門，更多人選擇以問答、翻譯等主流任務(wù)進(jìn)行研究。但姚順雨認(rèn)為，要下注不用的方向才能產(chǎn)生超越。他更希望探索新的、根本性的研究，創(chuàng)造完全不同的產(chǎn)品形態(tài)，即便失敗了，起碼探索了不一樣的東西。對他而言，這也會“更有意思”。

姚順雨（前排右一）參與嘻哈單曲《水木道》MV拍攝

追求智能體“泛化”

從廣義AI背景出發(fā)，智能體是一個非常古老的概念。任何能進(jìn)行自我決策、與環(huán)境交互，并試圖優(yōu)化獎勵的系統(tǒng)都可以被稱為智能體。姚順雨曾嘗試梳理廣義智能體的發(fā)展脈絡(luò)——

在“符號主義”盛行階段，業(yè)內(nèi)強(qiáng)調(diào)規(guī)則推理，并嘗試通過專家系統(tǒng)將所有規(guī)則寫出來，結(jié)果發(fā)現(xiàn)這根本難以覆蓋復(fù)雜世界，從而導(dǎo)致了第一次AI寒冬。

進(jìn)入深度強(qiáng)化學(xué)習(xí)階段后，以神經(jīng)網(wǎng)絡(luò)驅(qū)動的智能體在視頻游戲、圍棋等環(huán)境中取得重要突破，最具代表性的便是阿爾法狗（AlphaGo），但即便它能夠打敗柯潔等人類圍棋高手，也存在一個缺陷，圍棋智能體只能下圍棋，它沒辦法玩別的游戲。這意味著，智能體仍然無法實(shí)現(xiàn)泛化。

當(dāng)智能體步入大語言模型驅(qū)動時，則出現(xiàn)了新的特點(diǎn)。由于語言本身就是人類為了泛化而發(fā)明的工具，天然攜帶推理基因，能夠跨環(huán)境遷移，包括編程、互聯(lián)網(wǎng)、電腦操作等更接近真實(shí)世界的數(shù)字環(huán)境。

換而言之，姚順雨認(rèn)為語言是實(shí)現(xiàn)通用智能體的“先天圣體”。不過，要讓語言模型真正“活”起來，也沒有那么容易。

在姚順雨的研究中，GPT是一柄利刃。如今，GPT早已耳熟能詳，但在姚順雨剛切入研究時，另一種語言預(yù)訓(xùn)練模型BERT才是主流。但姚順雨發(fā)現(xiàn)，BERT欠缺在開放行為空間的決策能力，而GPT則明顯更符合他的研究調(diào)性?；诓粩噙M(jìn)階迭代的GPT等新模型技術(shù)，姚順雨也在不斷進(jìn)步。起初，他按照頭腦風(fēng)暴的點(diǎn)子，在文字游戲上發(fā)力，不久后就意識到，文字游戲局限性太強(qiáng)，要想有進(jìn)一步突破，還需要更加開放的環(huán)境。從此，他就一直在建立語言智能體與世界之間的互動上拓展維度。他提出的思維樹（Tree of Thoughts）框架改進(jìn)決策模型，構(gòu)建了CoALA模塊化認(rèn)知架構(gòu)；提出的ReAct方法首次引入“推理—行動”結(jié)合的智能體范式，為創(chuàng)建具備通用性、可擴(kuò)展性的語言智能體奠定了基礎(chǔ)。

“我自己最喜歡的工作是ReAct?！币樣瓯硎?，ReAct的核心理念是讓大語言模型在行動前先進(jìn)行可解釋的內(nèi)在推理，繼而基于推理結(jié)論去決策與操作。這一思路不但增強(qiáng)了模型的可控性，也極大拓展了其在各類實(shí)際領(lǐng)域中的適用能力。如今，ReAct已成為世界范圍內(nèi)構(gòu)建語言智能體的最主流方法，被學(xué)術(shù)界與工業(yè)界廣泛采納。

“我一直追求‘簡單且通用’的方法，很多人花大力氣設(shè)計(jì)復(fù)雜架構(gòu)，只在某個任務(wù)上奏效，我希望找到能泛化到多任務(wù)的簡單解法?！币樣暾f。他表示，最終的智能邊界，是由不同交互方式?jīng)Q定的，而不是由單一模型決定的，其中的想象空間非常大。“語言無法推理一切，有必要將多模態(tài)能力納入語言智能體框架中?！痹谝樣暄壑校F(xiàn)在的智能體就像一個數(shù)字化實(shí)習(xí)生，在繼續(xù)突破的路上，還大有可為。

“歡迎來到下半場”

2024年8月，姚順雨加入OpenAI，擔(dān)任研究科學(xué)家，專注于將大型語言模型從理論研究推向?qū)嶋H應(yīng)用，主導(dǎo)開發(fā)了OpenAI 首個發(fā)布的智能體模型及產(chǎn)品，同時參與了Deep Research項(xiàng)目。作為冉冉升起的新星，姚順雨的表現(xiàn)備受矚目，因此，當(dāng)2025年9月第一次傳出他將加盟騰訊的消息時，就引起了關(guān)注，近日騰訊的公告又讓他持續(xù)刷屏。雖然“億元薪資”被辟謠，但加盟騰訊已成定局。

近年來，騰訊在人工智能上重點(diǎn)發(fā)力，尤其圍繞混元大模型訓(xùn)練，以及海量業(yè)務(wù)場景的深度實(shí)踐，積累了系統(tǒng)化的工程能力。今年，為優(yōu)化人工智能戰(zhàn)略布局，騰訊新成立了AI Infra部、AI Data部、數(shù)據(jù)計(jì)算平臺部，全面強(qiáng)化其大模型的研發(fā)體系與核心能力。姚順雨挑大梁的AI Infra部，將負(fù)責(zé)大模型訓(xùn)練和推理平臺技術(shù)能力建設(shè)，聚焦大模型分布式訓(xùn)練、高性能推理服務(wù)等核心技術(shù)能力，為大模型算法研發(fā)和業(yè)務(wù)場景落地提供穩(wěn)定高效的技術(shù)支持和服務(wù)。

對姚順雨來說，這與他對“下半場”的判斷是相符的。早在上半年，他撰文稱，包括Deep Blue、AlphaGo、GPT-4等在內(nèi)，這些能被寫進(jìn)教科書的里程碑，背后都依托AI方法的根本性創(chuàng)新，隨著搜索、深度強(qiáng)化學(xué)習(xí)、規(guī)?；屯评砟芰Φ牟粩喟l(fā)展，“強(qiáng)化學(xué)習(xí)終于具備了泛化能力”。

“哪怕就在一年前，如果你告訴大多數(shù) AI 研究者一份單一的配方可以同時搞定軟件工程、創(chuàng)意寫作、IMO級數(shù)學(xué)、鍵盤鼠標(biāo)操作以及長篇問答——他們肯定會笑你‘幻覺’。這些任務(wù)各自極難，許多研究者整個博士階段可能只盯著其中一個小方向。然而，它真的發(fā)生了?！币樣陮懙?。他極為自信地表示，這意味著AI的下半場來臨，在新時代，評價會比訓(xùn)練更重要，研究者應(yīng)該將重心從“解決問題”轉(zhuǎn)向“定義問題”，“像產(chǎn)品經(jīng)理那樣思考”。

無獨(dú)有偶，幾個月前，姚順雨就在采訪中面對過“如何在微信里做智能體”的問題。當(dāng)時，姚順雨表示，微信是一個易守難攻的平臺，他會先觀察是否有更新的交互方式，而非貿(mào)然“進(jìn)攻”?！罢嬲奈ｋU，不是一個類似于微信的東西打敗了微信，而是一個很不一樣的東西打敗了微信?！北藭r，他已經(jīng)有了“產(chǎn)品經(jīng)理”的思考方式。

姚順雨曾經(jīng)打過一個比方：AI前半場，玩家是在電子游戲和考試?yán)锼⒎?；下半場，玩家則有機(jī)會把智能做成真正有用的產(chǎn)品。前半場充斥著增量模型和方法；在下半場，它們會被配方“過濾”——除非你創(chuàng)造新假設(shè)來打破配方，否則注定被碾壓。

如今，看姚順雨如何玩轉(zhuǎn)下半場的時刻到了。姚順雨，歡迎你來到下半場。

特別聲明

本文為澎湃號作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀點(diǎn)，不代表澎湃新聞的觀點(diǎn)或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報(bào)

#姚順雨 #大語言模型 #智能體