- +1
27歲掌舵騰訊大模型,非典型天才定義AI下半場
2015年,以安徽省理科第三名的成績考入清華大學(xué)交叉信息研究院“姚班”;2019年,遠(yuǎn)赴美國普林斯頓大學(xué)深造,專攻自然語言處理與強(qiáng)化學(xué)習(xí);2024年,加入OpenAI,為其首批智能體產(chǎn)品Operator、Deep research的開發(fā)作出了核心貢獻(xiàn);2025年,出任騰訊首席AI科學(xué)家,同時兼任AI Infra部及大語言模型部負(fù)責(zé)人,掌舵騰訊AI基礎(chǔ)設(shè)施與大模型研發(fā)的核心業(yè)務(wù)。
這是姚順雨的十年。從17歲到27歲,他用十年活成了大眾眼中“學(xué)霸流”小說中的男主模板。但在他看來,他想做的就兩條線——簡單通用的方法、有實(shí)際價值的任務(wù)?!斑@些任務(wù)往往是如何在真實(shí)數(shù)字世界創(chuàng)造新的價值。這是一塊處女地,是一個巨大的寶藏。我只是恰好挖掘到了一些東西?!币樣暾f。

姚順雨
“乖”學(xué)生在攀登
在姚順雨刷屏的這幾天,我們接收到了不少關(guān)于他的信息:16歲拿到全國信息學(xué)奧林匹克競賽(NOI)銀牌;在高考考場上睡著了,丟了十幾分,錯失“狀元”;參與聯(lián)合創(chuàng)辦清華大學(xué)學(xué)生說唱社,在網(wǎng)易云發(fā)布了20余首說唱作品;以最年輕入選者身份躋身《麻省理工科技評論》“35歲以下科技創(chuàng)新35人”中國區(qū)名單……
看起來像一個“對抗路”天才,但姚順雨本人不這么想,回望來時路,他用“非常乖”來形容自己,所走過的每一步都是按部就班、順其自然。“在姚班,大家會希望去美國讀博,我就去考了普林斯頓大學(xué)。博士畢業(yè)后,OpenAI是做研究最好的地方,我就加入了OpenAI。”他說。但顯然,這一路走來,也沒有真的如此輕描淡寫。
在公開信息中,“智能體”(Agent),是姚順雨研究生涯中最重要的關(guān)鍵詞。不過,最初進(jìn)入清華姚班時,他學(xué)習(xí)的是理論計(jì)算科學(xué)?!爱?dāng)時,我覺得很多重要理論問題已經(jīng)解決得差不多了,比如將某個圖算法的復(fù)雜度從n的2.83次方優(yōu)化到n的2.82次方,這種改進(jìn)在現(xiàn)實(shí)中意義不大?!敝钡?016年的一節(jié)課上,老師在講授多模態(tài)嵌入時,展示了一個例子:“king(國王)”的向量 ? “man(男人)”的向量 + “queen(王后)”的向量 ≈ “woman(女人)”的向量。這讓姚順雨第一次意識到,深度學(xué)習(xí)在語義表示上居然能做出如此驚艷的計(jì)算。但當(dāng)時“姚班”在深度學(xué)習(xí)領(lǐng)域的師資有限,他沒能第一時間投入相關(guān)學(xué)習(xí)。2018年,按照“姚班”傳統(tǒng),姚順雨前往麻省理工學(xué)院進(jìn)行海外交流,開始從計(jì)算機(jī)視覺切入,系統(tǒng)開展深入學(xué)習(xí)研究。2019年,他考入普林斯頓大學(xué)攻讀博士學(xué)位,專攻計(jì)算機(jī)視覺專業(yè)。
但是,經(jīng)過此前的學(xué)習(xí),姚順雨認(rèn)為計(jì)算機(jī)視覺很難實(shí)現(xiàn)通用的智能,直覺告訴他,語言將是一個更核心、更有潛力的方向。于是,他開始尋求轉(zhuǎn)換方向,并與普林斯頓大學(xué)副教授卡提克·納拉辛漢(Karthik Narasimhan)相遇。
卡提克有一個著名的代表性成果——生成式預(yù)訓(xùn)練(GPT)開山之作,即GPT-1論文第二作者。此前,卡提克曾經(jīng)利用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在一個小規(guī)模文字游戲中訓(xùn)練智能體進(jìn)行簡單的動態(tài)交互。在經(jīng)過一番頭腦風(fēng)暴后,兩人認(rèn)為完全可以利用更強(qiáng)大的模型,如GPT-2,來進(jìn)行更復(fù)雜的語言游戲訓(xùn)練,以探討智能體中新的可能性。
這在當(dāng)時并不是一個討巧的方向。智能體研究尚屬冷門,更多人選擇以問答、翻譯等主流任務(wù)進(jìn)行研究。但姚順雨認(rèn)為,要下注不用的方向才能產(chǎn)生超越。他更希望探索新的、根本性的研究,創(chuàng)造完全不同的產(chǎn)品形態(tài),即便失敗了,起碼探索了不一樣的東西。對他而言,這也會“更有意思”。

姚順雨(前排右一)參與嘻哈單曲《水木道》MV拍攝
追求智能體“泛化”
從廣義AI背景出發(fā),智能體是一個非常古老的概念。任何能進(jìn)行自我決策、與環(huán)境交互,并試圖優(yōu)化獎勵的系統(tǒng)都可以被稱為智能體。姚順雨曾嘗試梳理廣義智能體的發(fā)展脈絡(luò)——
在“符號主義”盛行階段,業(yè)內(nèi)強(qiáng)調(diào)規(guī)則推理,并嘗試通過專家系統(tǒng)將所有規(guī)則寫出來,結(jié)果發(fā)現(xiàn)這根本難以覆蓋復(fù)雜世界,從而導(dǎo)致了第一次AI寒冬。
進(jìn)入深度強(qiáng)化學(xué)習(xí)階段后,以神經(jīng)網(wǎng)絡(luò)驅(qū)動的智能體在視頻游戲、圍棋等環(huán)境中取得重要突破,最具代表性的便是阿爾法狗(AlphaGo),但即便它能夠打敗柯潔等人類圍棋高手,也存在一個缺陷,圍棋智能體只能下圍棋,它沒辦法玩別的游戲。這意味著,智能體仍然無法實(shí)現(xiàn)泛化。
當(dāng)智能體步入大語言模型驅(qū)動時,則出現(xiàn)了新的特點(diǎn)。由于語言本身就是人類為了泛化而發(fā)明的工具,天然攜帶推理基因,能夠跨環(huán)境遷移,包括編程、互聯(lián)網(wǎng)、電腦操作等更接近真實(shí)世界的數(shù)字環(huán)境。
換而言之,姚順雨認(rèn)為語言是實(shí)現(xiàn)通用智能體的“先天圣體”。不過,要讓語言模型真正“活”起來,也沒有那么容易。
在姚順雨的研究中,GPT是一柄利刃。如今,GPT早已耳熟能詳,但在姚順雨剛切入研究時,另一種語言預(yù)訓(xùn)練模型BERT才是主流。但姚順雨發(fā)現(xiàn),BERT欠缺在開放行為空間的決策能力,而GPT則明顯更符合他的研究調(diào)性?;诓粩噙M(jìn)階迭代的GPT等新模型技術(shù),姚順雨也在不斷進(jìn)步。起初,他按照頭腦風(fēng)暴的點(diǎn)子,在文字游戲上發(fā)力,不久后就意識到,文字游戲局限性太強(qiáng),要想有進(jìn)一步突破,還需要更加開放的環(huán)境。從此,他就一直在建立語言智能體與世界之間的互動上拓展維度。他提出的思維樹(Tree of Thoughts)框架改進(jìn)決策模型,構(gòu)建了CoALA模塊化認(rèn)知架構(gòu);提出的ReAct方法首次引入“推理—行動”結(jié)合的智能體范式,為創(chuàng)建具備通用性、可擴(kuò)展性的語言智能體奠定了基礎(chǔ)。
“我自己最喜歡的工作是ReAct?!币樣瓯硎?,ReAct的核心理念是讓大語言模型在行動前先進(jìn)行可解釋的內(nèi)在推理,繼而基于推理結(jié)論去決策與操作。這一思路不但增強(qiáng)了模型的可控性,也極大拓展了其在各類實(shí)際領(lǐng)域中的適用能力。如今,ReAct已成為世界范圍內(nèi)構(gòu)建語言智能體的最主流方法,被學(xué)術(shù)界與工業(yè)界廣泛采納。
“我一直追求‘簡單且通用’的方法,很多人花大力氣設(shè)計(jì)復(fù)雜架構(gòu),只在某個任務(wù)上奏效,我希望找到能泛化到多任務(wù)的簡單解法?!币樣暾f。他表示,最終的智能邊界,是由不同交互方式?jīng)Q定的,而不是由單一模型決定的,其中的想象空間非常大。“語言無法推理一切,有必要將多模態(tài)能力納入語言智能體框架中?!痹谝樣暄壑校F(xiàn)在的智能體就像一個數(shù)字化實(shí)習(xí)生,在繼續(xù)突破的路上,還大有可為。
“歡迎來到下半場”
2024年8月,姚順雨加入OpenAI,擔(dān)任研究科學(xué)家,專注于將大型語言模型從理論研究推向?qū)嶋H應(yīng)用,主導(dǎo)開發(fā)了OpenAI 首個發(fā)布的智能體模型及產(chǎn)品,同時參與了Deep Research項(xiàng)目。作為冉冉升起的新星,姚順雨的表現(xiàn)備受矚目,因此,當(dāng)2025年9月第一次傳出他將加盟騰訊的消息時,就引起了關(guān)注,近日騰訊的公告又讓他持續(xù)刷屏。雖然“億元薪資”被辟謠,但加盟騰訊已成定局。
近年來,騰訊在人工智能上重點(diǎn)發(fā)力,尤其圍繞混元大模型訓(xùn)練,以及海量業(yè)務(wù)場景的深度實(shí)踐,積累了系統(tǒng)化的工程能力。今年,為優(yōu)化人工智能戰(zhàn)略布局,騰訊新成立了AI Infra部、AI Data部、數(shù)據(jù)計(jì)算平臺部,全面強(qiáng)化其大模型的研發(fā)體系與核心能力。姚順雨挑大梁的AI Infra部,將負(fù)責(zé)大模型訓(xùn)練和推理平臺技術(shù)能力建設(shè),聚焦大模型分布式訓(xùn)練、高性能推理服務(wù)等核心技術(shù)能力,為大模型算法研發(fā)和業(yè)務(wù)場景落地提供穩(wěn)定高效的技術(shù)支持和服務(wù)。
對姚順雨來說,這與他對“下半場”的判斷是相符的。早在上半年,他撰文稱,包括Deep Blue、AlphaGo、GPT-4等在內(nèi),這些能被寫進(jìn)教科書的里程碑,背后都依托AI方法的根本性創(chuàng)新,隨著搜索、深度強(qiáng)化學(xué)習(xí)、規(guī)?;屯评砟芰Φ牟粩喟l(fā)展,“強(qiáng)化學(xué)習(xí)終于具備了泛化能力”。
“哪怕就在一年前,如果你告訴大多數(shù) AI 研究者一份單一的配方可以同時搞定軟件工程、創(chuàng)意寫作、IMO級數(shù)學(xué)、鍵盤鼠標(biāo)操作以及長篇問答——他們肯定會笑你‘幻覺’。這些任務(wù)各自極難,許多研究者整個博士階段可能只盯著其中一個小方向。然而,它真的發(fā)生了?!币樣陮懙?。他極為自信地表示,這意味著AI的下半場來臨,在新時代,評價會比訓(xùn)練更重要,研究者應(yīng)該將重心從“解決問題”轉(zhuǎn)向“定義問題”,“像產(chǎn)品經(jīng)理那樣思考”。
無獨(dú)有偶,幾個月前,姚順雨就在采訪中面對過“如何在微信里做智能體”的問題。當(dāng)時,姚順雨表示,微信是一個易守難攻的平臺,他會先觀察是否有更新的交互方式,而非貿(mào)然“進(jìn)攻”?!罢嬲奈kU,不是一個類似于微信的東西打敗了微信,而是一個很不一樣的東西打敗了微信?!北藭r,他已經(jīng)有了“產(chǎn)品經(jīng)理”的思考方式。
姚順雨曾經(jīng)打過一個比方:AI前半場,玩家是在電子游戲和考試?yán)锼⒎?;下半場,玩家則有機(jī)會把智能做成真正有用的產(chǎn)品。前半場充斥著增量模型和方法;在下半場,它們會被配方“過濾”——除非你創(chuàng)造新假設(shè)來打破配方,否則注定被碾壓。
如今,看姚順雨如何玩轉(zhuǎn)下半場的時刻到了。姚順雨,歡迎你來到下半場。
?
本文為澎湃號作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




