GPT-5.5深夜炸場(chǎng)，天選“牛馬”，OpenAI悟了？

2026-04-25 22:19

來(lái)源：澎湃新聞·澎湃號(hào)·湃客

聽(tīng)全文

北京時(shí)間 4 月 24 日凌晨，OpenAI 突然發(fā)布了 GPT-5.5，以及更高規(guī)格的 GPT-5.5 Pro。

這不是一次常規(guī)的小版本迭代。在 OpenAI 看來(lái)，GPT-5.5 不僅是他們最強(qiáng)的模型，更是新的智能模型，即專(zhuān)為真實(shí)工作和智能體任務(wù)打造的模型。

說(shuō)白了，其實(shí)就是各家最近都在講的「智能體模型」，模型的定位更多是作為智能體的「智能引擎」。

所以不出意外，圍繞「聊天」的各項(xiàng)能力就沒(méi)那么重點(diǎn)了，圍繞「工作」來(lái)講才是王道。而從紙面參數(shù)和 benchmark 看，GPT-5.5 的確延續(xù)了 OpenAI 過(guò)去半年的技術(shù)路線，更多以「真實(shí)工作場(chǎng)景」為導(dǎo)向，在一些取向更貼近實(shí)際的基準(zhǔn)測(cè)試中又刷了新高，比如：

- Terminal-Bench 2.0：82.7%（復(fù)雜命令行任務(wù)）

- GDPval：84.9%（跨 44 種職業(yè)的知識(shí)工作）

- OSWorld-Verified：78.7%（真實(shí)電腦操作能力）

- Tau2-bench Telecom：98.0%（復(fù)雜客服流程）

圖片來(lái)源：OpenAI

不過(guò)基準(zhǔn)測(cè)試也就「圖一樂(lè)」，即便是這些取向更接近實(shí)際工作的測(cè)試，也很難逃過(guò)「高分低能」的問(wèn)題。所以，GPT-5.5 真的就像 OpenAI 新聞稿開(kāi)篇所言，會(huì)是我們邁向 PC 工作新方式的下一步嗎？

從 AI Coding 到 AI 辦公，GPT 也是認(rèn)真干活了

根據(jù) OpenAI 公布的信息，GPT-5.5 Pro 僅支持 Pro 及以上訂閱用戶，GPT-5.5 則支持 Plus 及以上的訂閱用戶，將在今天正式上線 ChatGPT 以及 Codex。不過(guò)包括我在內(nèi)，很多 Plus 還未收到 GPT-5.5 的新模型推送，理論上應(yīng)該采取了分批推送的方式。

不過(guò)官方也展示了一些實(shí)際的使用案例，共同點(diǎn)是都不怎么「干凈」，更像我們實(shí)際面臨工作任務(wù)，也不是一步就能完成。而對(duì)于現(xiàn)階段重點(diǎn)推 Codex 的 OpenAI 來(lái)說(shuō)，Agentic Coding 肯定是最重要的。

這一代 GPT-5.5 也在正式發(fā)布前被拿去做代碼重構(gòu)、跨文件 bug 修復(fù)、測(cè)試補(bǔ)全這些更接近真實(shí)工程流程的工作。

外部開(kāi)發(fā)者的實(shí)測(cè)也證實(shí)了 GPT-5.5 在代碼工作上進(jìn)步。MagicPath CEO Pietro Schirano 就用 GPT-5.5 將一個(gè)包含數(shù)百個(gè)前端和重構(gòu)變更的分支合并為一個(gè)同樣有重大變化的主分支，只花了 20 分鐘就一次性解決了所有工作，「我真的感覺(jué)自己在和一個(gè)更高的智慧共事?！?/p>

圖片來(lái)源：X

不是說(shuō)它一次就肯定全對(duì)，關(guān)鍵是它更容易「走在正確的軌道上」，中途不用頻繁拉回方向。

CodeRabbit 的評(píng)測(cè)里有一個(gè)細(xì)節(jié)很有意思。他們沒(méi)有強(qiáng)調(diào)模型能寫(xiě)出多復(fù)雜的代碼，反而更多夸贊它在 code review 里更「克制」，更傾向于指出真正會(huì)影響上線的問(wèn)題，而不是泛泛而談。

同時(shí) Cursor、Windsurf 團(tuán)隊(duì)的使用報(bào)告也都指出，GPT-5.5 在長(zhǎng)時(shí)任務(wù)、處理歧義方面都比 GPT-5.4 明顯更好。

另外，OpenAI 的財(cái)務(wù)團(tuán)隊(duì)還用它審核了 24771 份 K-1 稅表、總計(jì) 71637 頁(yè)文件，并稱這套流程比上一年提前了兩周完成。換個(gè)角度看，它其實(shí)揭示了 GPT-5.5 在長(zhǎng)流程里的穩(wěn)定性。而兩萬(wàn)多份稅表、七萬(wàn)多頁(yè)文檔，是一個(gè)極容易出錯(cuò)、需要持續(xù)校驗(yàn)的重復(fù)性工作。

圖片來(lái)源：OpenAI

過(guò)去模型在這種場(chǎng)景里最大的問(wèn)題，是中途漂移，或者在細(xì)節(jié)上逐漸失真。而無(wú)論是表格處理、報(bào)告生成，還是多文檔整合，GPT-5.5 的輸出更有一致性，格式更穩(wěn)定，前后邏輯也更連貫。法律 AI 公司 Harvey 就強(qiáng)調(diào)了 GPT-5.5 的推理結(jié)構(gòu)、引用、排版這些細(xì)節(jié)更像一個(gè)合格的專(zhuān)業(yè)人士。

而且這類(lèi)案例的價(jià)值還不在規(guī)模，因?yàn)槟Ｐ筒粌H在分析數(shù)據(jù)，還在構(gòu)建流程、生成規(guī)則并接入實(shí)際業(yè)務(wù)系統(tǒng)，已經(jīng)非常接近典型的知識(shí)工作流程。

可以說(shuō)，這次 GPT-5.5 最核心的升級(jí)就是現(xiàn)代社會(huì)圍繞計(jì)算機(jī)構(gòu)建的工作場(chǎng)景。英偉達(dá)創(chuàng)始人兼 CEO 黃仁勛還在一封全員信呼吁所有人使用基于 GPT-5.5 的 Codex，「讓我們跳到光速。歡迎來(lái)到人工智能時(shí)代?！?/strong>

如果說(shuō) GPT-4 解決的是「答對(duì)」，GPT-5.4 在解決處理更復(fù)雜的問(wèn)題和任務(wù)，到了 GPT-5.5，問(wèn)題變成了能不能更高效、穩(wěn)定地做好一件事。畢竟，做完和做好完全是兩碼事，中間也是一道「天塹」。

這也是為什么 OpenAI 在這一代里不斷強(qiáng)調(diào)「智能體」這個(gè)詞。

圖片來(lái)源：OpenAI
GPT-5.5 從模型層面改進(jìn)了智能體最核心的幾個(gè)特征：理解目標(biāo)、拆解步驟、調(diào)用工具、修正過(guò)程，并最終交付結(jié)果。能力上看，每一項(xiàng)都不是全新能力，但被放到同一個(gè)系統(tǒng)里之后，體驗(yàn)開(kāi)始發(fā)生變化。
外部反饋也基本印證了這一點(diǎn)。無(wú)論是開(kāi)發(fā)者還是企業(yè)用戶，討論的焦點(diǎn)都在變。從「答得準(zhǔn)不準(zhǔn)」，變成「要改幾次」「能不能一次跑通」。這兩個(gè)問(wèn)題的差別，其實(shí)就是模型角色的變化從輔助決策，變成參與執(zhí)行。
當(dāng)然，這種變化還遠(yuǎn)沒(méi)有到「可以完全放手」的程度。多個(gè)第三方評(píng)測(cè)都提到了 GPT-5.5 對(duì)任務(wù)邊界的依賴更強(qiáng)。需求描述不清，它不會(huì)主動(dòng)幫你補(bǔ)全，而是按現(xiàn)有信息執(zhí)行。這種「聽(tīng)話」在某些場(chǎng)景是優(yōu)點(diǎn)，在另一些場(chǎng)景反而是限制。
但這恰恰說(shuō)明，它正在變得更像一個(gè)真實(shí)世界里的協(xié)作者。能力沒(méi)有突然跨越一代，工作方式確實(shí)變了。
GPT-5.5 到底升級(jí)了什么？
過(guò)去兩年，大模型的升級(jí)路徑很清晰：更強(qiáng)的推理、更長(zhǎng)的上下文、更高的準(zhǔn)確率。GPT-5.5 仍然在做這些，但重點(diǎn)還是變了，OpenAI 就強(qiáng)調(diào)了模型更早理解任務(wù)、更少依賴提示、更會(huì)使用工具，并且能夠持續(xù)推進(jìn)直到完成。
這句話其實(shí)也對(duì)應(yīng)的是過(guò)去一直存在、但始終沒(méi)被徹底解決的一些問(wèn)題。
一種適合真正工作的新型智能，圖片來(lái)源：OpenAI
其一是理解問(wèn)題，但不理解任務(wù)。很多模型在復(fù)雜場(chǎng)景里的表現(xiàn)是單步回答很好，但一旦涉及多步驟流程，就會(huì)開(kāi)始偏離，甚至需要用戶不斷修正。GPT-5.5 的變化，是它開(kāi)始在一開(kāi)始就建立任務(wù)結(jié)構(gòu)，而不是等用戶一步步喂。
其二是會(huì)用工具，但不會(huì)組織工具。從去年開(kāi)始，工具調(diào)用已經(jīng)成為大模型的主流能力，但大多數(shù)模型只是把工具當(dāng)成外掛。GPT-5.5 在 Terminal-Bench 和 OSWorld 這類(lèi)評(píng)測(cè)中的提升，更重要的是它不只是調(diào)用工具，而是把工具變成工作流程的一部分。
其三則是實(shí)際的交付質(zhì)量。過(guò)去模型的輸出是「答案」，現(xiàn)在越來(lái)越多場(chǎng)景要求的是「結(jié)果」，而且是更好、更準(zhǔn)確。GPT-5.5 的目標(biāo)就是減少中斷，讓任務(wù)可以連續(xù)推進(jìn)，直到形成一個(gè)可以直接使用的輸出。
游戲生成，圖片來(lái)源：OpenAI
當(dāng)然，GPT-5.5 更強(qiáng)了，但也沒(méi)有強(qiáng)到「改寫(xiě)一切」。問(wèn)題在于，這一輪競(jìng)爭(zhēng)早就不是單點(diǎn)模型能力的比拼。
今年以來(lái)，一個(gè)變化已經(jīng)非常明確。無(wú)論是 OpenAI，還是 Google、Anthropic，甚至包括國(guó)內(nèi)的阿里、字節(jié)，都在把重點(diǎn)從「更強(qiáng)模型」轉(zhuǎn)向「智能體系統(tǒng)」。模型只是底座，真正的競(jìng)爭(zhēng)在于能不能把模型接入工具、接入數(shù)據(jù)、接入業(yè)務(wù)流程，讓它真正參與工作。
行業(yè)里的關(guān)鍵詞也從「推理能力」「上下文長(zhǎng)度」，逐漸變成了「agent（智能體）」「workflow（工作流）」「computer use（計(jì)算機(jī)使用）」。
OpenAI 自己的動(dòng)作最典型。Codex 的重新被推到臺(tái)前，也不是偶然，它天然就是最適合承載智能體能力的入口。
但現(xiàn)在還有一個(gè)問(wèn)題是，GPT-5.5 真的很貴。
前段時(shí)間 Claude Opus 4.7 的價(jià)格已經(jīng)勸退了很多，而 OpenAI 雖然強(qiáng)調(diào) GPT-5.5 幾乎是在不犧牲速度和 Token 用量的情況下實(shí)現(xiàn)了全面升級(jí)，延遲和 GPT-5.4 相當(dāng)甚至更低，還能用更少的 Token 在 Codex 上完成同樣的任務(wù)，但實(shí)際 API 價(jià)格流出后，還是讓很多開(kāi)發(fā)者心涼了半截：

輸入 5 美元/百萬(wàn) tokens、緩存輸入 0.5 美元/百萬(wàn) tokens、輸出 30 美元/百萬(wàn) tokens，直接在 GPT-5.4 的基礎(chǔ)上翻了一番。

圖片來(lái)源：X
頂級(jí)模型還是太貴了。只能期待一下傳聞將在本周發(fā)布的 DeepSeek V4，希望能夠復(fù)刻 2025 年的奇跡，通過(guò)這次的多模態(tài)升級(jí)把智能體模型也能打成白菜價(jià)。
寫(xiě)在最后
從能力上看，它確實(shí)更強(qiáng)了，但這種「更強(qiáng)」已經(jīng)很難再用一次發(fā)布就被感知到。沒(méi)有那種一上手就明顯不同的驚艷，更像是把過(guò)去幾代模型的短板一點(diǎn)點(diǎn)補(bǔ)齊，把原本不穩(wěn)定的地方變得更可靠。
但換個(gè)角度看，這反而是一個(gè)更重要的信號(hào)。過(guò)去大家比的是誰(shuí)更聰明，現(xiàn)在開(kāi)始比的是誰(shuí)更穩(wěn)定、誰(shuí)更能融入實(shí)際工作、誰(shuí)能在復(fù)雜流程里少出錯(cuò)。
GPT-5.5 就落在這個(gè)階段。它沒(méi)有重新定義模型能力的上限，但在「把事情做完」這件事上往前走了一步。而當(dāng)模型開(kāi)始能夠真正承擔(dān)一部分工作時(shí)，真正被改變的就不再只是效率，還有新的工作方式，包括人與 AI 之間的分工關(guān)系。
當(dāng)然，這個(gè)過(guò)程還遠(yuǎn)沒(méi)有結(jié)束。GPT-5.5 的成本仍然高，能力也還不夠通用，很多場(chǎng)景依然需要人類(lèi)不斷干預(yù)。智能體這件事，從概念走向現(xiàn)實(shí)，還要經(jīng)歷一段很長(zhǎng)的打磨周期。
但方向已經(jīng)很清楚了。當(dāng)模型開(kāi)始進(jìn)入流程，當(dāng)工具、數(shù)據(jù)和系統(tǒng)逐漸圍繞它重新組織，當(dāng)越來(lái)越多公司把它當(dāng)成「工作的一部分」而不是「輔助工具」，這一輪變化就不再只是技術(shù)升級(jí)。

特別聲明

本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀點(diǎn)，不代表澎湃新聞的觀點(diǎn)或立場(chǎng)，澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。

我要舉報(bào)

#GPT