9999精品视频,一区二区色,91福利在线免费播放,人妻在线综合综合网,人妻丰满精品一区,九九九精品九九九精品,久久精品店,国产午夜久久,五月天人妻超碰

  • +1

GPT-5.5深夜炸場(chǎng),天選“牛馬”,OpenAI悟了?

2026-04-25 22:19
來(lái)源:澎湃新聞·澎湃號(hào)·湃客
聽(tīng)全文
字號(hào)

北京時(shí)間 4 月 24 日凌晨,OpenAI 突然發(fā)布了 GPT-5.5,以及更高規(guī)格的 GPT-5.5 Pro。

這不是一次常規(guī)的小版本迭代。在 OpenAI 看來(lái),GPT-5.5 不僅是他們最強(qiáng)的模型,更是新的智能模型,即專(zhuān)為真實(shí)工作和智能體任務(wù)打造的模型。

說(shuō)白了,其實(shí)就是各家最近都在講的「智能體模型」,模型的定位更多是作為智能體的「智能引擎」。

所以不出意外,圍繞「聊天」的各項(xiàng)能力就沒(méi)那么重點(diǎn)了,圍繞「工作」來(lái)講才是王道。而從紙面參數(shù)和 benchmark 看,GPT-5.5 的確延續(xù)了 OpenAI 過(guò)去半年的技術(shù)路線,更多以「真實(shí)工作場(chǎng)景」為導(dǎo)向,在一些取向更貼近實(shí)際的基準(zhǔn)測(cè)試中又刷了新高,比如:

- Terminal-Bench 2.0:82.7%(復(fù)雜命令行任務(wù))

- GDPval:84.9%(跨 44 種職業(yè)的知識(shí)工作)

- OSWorld-Verified:78.7%(真實(shí)電腦操作能力)

- Tau2-bench Telecom:98.0%(復(fù)雜客服流程)

圖片來(lái)源:OpenAI

不過(guò)基準(zhǔn)測(cè)試也就「圖一樂(lè)」,即便是這些取向更接近實(shí)際工作的測(cè)試,也很難逃過(guò)「高分低能」的問(wèn)題。所以,GPT-5.5 真的就像 OpenAI 新聞稿開(kāi)篇所言,會(huì)是我們邁向 PC 工作新方式的下一步嗎?

從 AI Coding 到 AI 辦公,GPT 也是認(rèn)真干活了

根據(jù) OpenAI 公布的信息,GPT-5.5 Pro 僅支持 Pro 及以上訂閱用戶,GPT-5.5 則支持 Plus 及以上的訂閱用戶,將在今天正式上線 ChatGPT 以及 Codex。不過(guò)包括我在內(nèi),很多 Plus 還未收到 GPT-5.5 的新模型推送,理論上應(yīng)該采取了分批推送的方式。

不過(guò)官方也展示了一些實(shí)際的使用案例,共同點(diǎn)是都不怎么「干凈」,更像我們實(shí)際面臨工作任務(wù),也不是一步就能完成。而對(duì)于現(xiàn)階段重點(diǎn)推 Codex 的 OpenAI 來(lái)說(shuō),Agentic Coding 肯定是最重要的。

這一代 GPT-5.5 也在正式發(fā)布前被拿去做代碼重構(gòu)、跨文件 bug 修復(fù)、測(cè)試補(bǔ)全這些更接近真實(shí)工程流程的工作。

外部開(kāi)發(fā)者的實(shí)測(cè)也證實(shí)了 GPT-5.5 在代碼工作上進(jìn)步。MagicPath CEO Pietro Schirano 就用 GPT-5.5 將一個(gè)包含數(shù)百個(gè)前端和重構(gòu)變更的分支合并為一個(gè)同樣有重大變化的主分支,只花了 20 分鐘就一次性解決了所有工作,「我真的感覺(jué)自己在和一個(gè)更高的智慧共事?!?/p>

圖片來(lái)源:X

不是說(shuō)它一次就肯定全對(duì),關(guān)鍵是它更容易「走在正確的軌道上」,中途不用頻繁拉回方向。

CodeRabbit 的評(píng)測(cè)里有一個(gè)細(xì)節(jié)很有意思。他們沒(méi)有強(qiáng)調(diào)模型能寫(xiě)出多復(fù)雜的代碼,反而更多夸贊它在 code review 里更「克制」,更傾向于指出真正會(huì)影響上線的問(wèn)題,而不是泛泛而談。

同時(shí) Cursor、Windsurf 團(tuán)隊(duì)的使用報(bào)告也都指出,GPT-5.5 在長(zhǎng)時(shí)任務(wù)、處理歧義方面都比 GPT-5.4 明顯更好。

另外,OpenAI 的財(cái)務(wù)團(tuán)隊(duì)還用它審核了 24771 份 K-1 稅表、總計(jì) 71637 頁(yè)文件,并稱這套流程比上一年提前了兩周完成。換個(gè)角度看,它其實(shí)揭示了 GPT-5.5 在長(zhǎng)流程里的穩(wěn)定性。而兩萬(wàn)多份稅表、七萬(wàn)多頁(yè)文檔,是一個(gè)極容易出錯(cuò)、需要持續(xù)校驗(yàn)的重復(fù)性工作。

圖片來(lái)源:OpenAI

過(guò)去模型在這種場(chǎng)景里最大的問(wèn)題,是中途漂移,或者在細(xì)節(jié)上逐漸失真。而無(wú)論是表格處理、報(bào)告生成,還是多文檔整合,GPT-5.5 的輸出更有一致性,格式更穩(wěn)定,前后邏輯也更連貫。法律 AI 公司 Harvey 就強(qiáng)調(diào)了 GPT-5.5 的推理結(jié)構(gòu)、引用、排版這些細(xì)節(jié)更像一個(gè)合格的專(zhuān)業(yè)人士。

而且這類(lèi)案例的價(jià)值還不在規(guī)模,因?yàn)槟P筒粌H在分析數(shù)據(jù),還在構(gòu)建流程、生成規(guī)則并接入實(shí)際業(yè)務(wù)系統(tǒng),已經(jīng)非常接近典型的知識(shí)工作流程。

可以說(shuō),這次 GPT-5.5 最核心的升級(jí)就是現(xiàn)代社會(huì)圍繞計(jì)算機(jī)構(gòu)建的工作場(chǎng)景。英偉達(dá)創(chuàng)始人兼 CEO 黃仁勛還在一封全員信呼吁所有人使用基于 GPT-5.5 的 Codex,「讓我們跳到光速。歡迎來(lái)到人工智能時(shí)代?!?/strong>

如果說(shuō) GPT-4 解決的是「答對(duì)」,GPT-5.4 在解決處理更復(fù)雜的問(wèn)題和任務(wù),到了 GPT-5.5,問(wèn)題變成了能不能更高效、穩(wěn)定地做好一件事。畢竟,做完和做好完全是兩碼事,中間也是一道「天塹」。

這也是為什么 OpenAI 在這一代里不斷強(qiáng)調(diào)「智能體」這個(gè)詞。

圖片來(lái)源:OpenAI

GPT-5.5 從模型層面改進(jìn)了智能體最核心的幾個(gè)特征:理解目標(biāo)、拆解步驟、調(diào)用工具、修正過(guò)程,并最終交付結(jié)果。能力上看,每一項(xiàng)都不是全新能力,但被放到同一個(gè)系統(tǒng)里之后,體驗(yàn)開(kāi)始發(fā)生變化。

外部反饋也基本印證了這一點(diǎn)。無(wú)論是開(kāi)發(fā)者還是企業(yè)用戶,討論的焦點(diǎn)都在變。從「答得準(zhǔn)不準(zhǔn)」,變成「要改幾次」「能不能一次跑通」。這兩個(gè)問(wèn)題的差別,其實(shí)就是模型角色的變化從輔助決策,變成參與執(zhí)行。

當(dāng)然,這種變化還遠(yuǎn)沒(méi)有到「可以完全放手」的程度。多個(gè)第三方評(píng)測(cè)都提到了 GPT-5.5 對(duì)任務(wù)邊界的依賴更強(qiáng)。需求描述不清,它不會(huì)主動(dòng)幫你補(bǔ)全,而是按現(xiàn)有信息執(zhí)行。這種「聽(tīng)話」在某些場(chǎng)景是優(yōu)點(diǎn),在另一些場(chǎng)景反而是限制。

但這恰恰說(shuō)明,它正在變得更像一個(gè)真實(shí)世界里的協(xié)作者。能力沒(méi)有突然跨越一代,工作方式確實(shí)變了。

GPT-5.5 到底升級(jí)了什么?

過(guò)去兩年,大模型的升級(jí)路徑很清晰:更強(qiáng)的推理、更長(zhǎng)的上下文、更高的準(zhǔn)確率。GPT-5.5 仍然在做這些,但重點(diǎn)還是變了,OpenAI 就強(qiáng)調(diào)了模型更早理解任務(wù)、更少依賴提示、更會(huì)使用工具,并且能夠持續(xù)推進(jìn)直到完成。

這句話其實(shí)也對(duì)應(yīng)的是過(guò)去一直存在、但始終沒(méi)被徹底解決的一些問(wèn)題。

一種適合真正工作的新型智能,圖片來(lái)源:OpenAI

其一是理解問(wèn)題,但不理解任務(wù)。很多模型在復(fù)雜場(chǎng)景里的表現(xiàn)是單步回答很好,但一旦涉及多步驟流程,就會(huì)開(kāi)始偏離,甚至需要用戶不斷修正。GPT-5.5 的變化,是它開(kāi)始在一開(kāi)始就建立任務(wù)結(jié)構(gòu),而不是等用戶一步步喂。

其二是會(huì)用工具,但不會(huì)組織工具。從去年開(kāi)始,工具調(diào)用已經(jīng)成為大模型的主流能力,但大多數(shù)模型只是把工具當(dāng)成外掛。GPT-5.5 在 Terminal-Bench 和 OSWorld 這類(lèi)評(píng)測(cè)中的提升,更重要的是它不只是調(diào)用工具,而是把工具變成工作流程的一部分。

其三則是實(shí)際的交付質(zhì)量。過(guò)去模型的輸出是「答案」,現(xiàn)在越來(lái)越多場(chǎng)景要求的是「結(jié)果」,而且是更好、更準(zhǔn)確。GPT-5.5 的目標(biāo)就是減少中斷,讓任務(wù)可以連續(xù)推進(jìn),直到形成一個(gè)可以直接使用的輸出。

游戲生成,圖片來(lái)源:OpenAI

當(dāng)然,GPT-5.5 更強(qiáng)了,但也沒(méi)有強(qiáng)到「改寫(xiě)一切」。問(wèn)題在于,這一輪競(jìng)爭(zhēng)早就不是單點(diǎn)模型能力的比拼。

今年以來(lái),一個(gè)變化已經(jīng)非常明確。無(wú)論是 OpenAI,還是 Google、Anthropic,甚至包括國(guó)內(nèi)的阿里、字節(jié),都在把重點(diǎn)從「更強(qiáng)模型」轉(zhuǎn)向「智能體系統(tǒng)」。模型只是底座,真正的競(jìng)爭(zhēng)在于能不能把模型接入工具、接入數(shù)據(jù)、接入業(yè)務(wù)流程,讓它真正參與工作。

行業(yè)里的關(guān)鍵詞也從「推理能力」「上下文長(zhǎng)度」,逐漸變成了「agent(智能體)」「workflow(工作流)」「computer use(計(jì)算機(jī)使用)」。

OpenAI 自己的動(dòng)作最典型。Codex 的重新被推到臺(tái)前,也不是偶然,它天然就是最適合承載智能體能力的入口。

但現(xiàn)在還有一個(gè)問(wèn)題是,GPT-5.5 真的很貴。

前段時(shí)間 Claude Opus 4.7 的價(jià)格已經(jīng)勸退了很多,而 OpenAI 雖然強(qiáng)調(diào) GPT-5.5 幾乎是在不犧牲速度和 Token 用量的情況下實(shí)現(xiàn)了全面升級(jí),延遲和 GPT-5.4 相當(dāng)甚至更低,還能用更少的 Token 在 Codex 上完成同樣的任務(wù),但實(shí)際 API 價(jià)格流出后,還是讓很多開(kāi)發(fā)者心涼了半截:

輸入 5 美元/百萬(wàn) tokens、緩存輸入 0.5 美元/百萬(wàn) tokens、輸出 30 美元/百萬(wàn) tokens,直接在 GPT-5.4 的基礎(chǔ)上翻了一番。

圖片來(lái)源:X

頂級(jí)模型還是太貴了。只能期待一下傳聞將在本周發(fā)布的 DeepSeek V4,希望能夠復(fù)刻 2025 年的奇跡,通過(guò)這次的多模態(tài)升級(jí)把智能體模型也能打成白菜價(jià)。

寫(xiě)在最后

從能力上看,它確實(shí)更強(qiáng)了,但這種「更強(qiáng)」已經(jīng)很難再用一次發(fā)布就被感知到。沒(méi)有那種一上手就明顯不同的驚艷,更像是把過(guò)去幾代模型的短板一點(diǎn)點(diǎn)補(bǔ)齊,把原本不穩(wěn)定的地方變得更可靠。

但換個(gè)角度看,這反而是一個(gè)更重要的信號(hào)。過(guò)去大家比的是誰(shuí)更聰明,現(xiàn)在開(kāi)始比的是誰(shuí)更穩(wěn)定、誰(shuí)更能融入實(shí)際工作、誰(shuí)能在復(fù)雜流程里少出錯(cuò)。

GPT-5.5 就落在這個(gè)階段。它沒(méi)有重新定義模型能力的上限,但在「把事情做完」這件事上往前走了一步。而當(dāng)模型開(kāi)始能夠真正承擔(dān)一部分工作時(shí),真正被改變的就不再只是效率,還有新的工作方式,包括人與 AI 之間的分工關(guān)系。

當(dāng)然,這個(gè)過(guò)程還遠(yuǎn)沒(méi)有結(jié)束。GPT-5.5 的成本仍然高,能力也還不夠通用,很多場(chǎng)景依然需要人類(lèi)不斷干預(yù)。智能體這件事,從概念走向現(xiàn)實(shí),還要經(jīng)歷一段很長(zhǎng)的打磨周期。

但方向已經(jīng)很清楚了。當(dāng)模型開(kāi)始進(jìn)入流程,當(dāng)工具、數(shù)據(jù)和系統(tǒng)逐漸圍繞它重新組織,當(dāng)越來(lái)越多公司把它當(dāng)成「工作的一部分」而不是「輔助工具」,這一輪變化就不再只是技術(shù)升級(jí)。

    本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。

            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

            ? 2014-2026 上海東方報(bào)業(yè)有限公司

            同江市| 外汇| 石台县| 虞城县| 莲花县| 松江区| 阿巴嘎旗| 山阴县| 永昌县| 娄底市| 明溪县| 吕梁市| 榆中县| 新乡市| 通道| 东方市| 吉林市| 绥江县| 宁都县| 喀喇| 新兴县| 盘山县| 陇川县| 汤原县| 马尔康县| 桐庐县| 洛川县| 休宁县| 都江堰市| 乾安县| 蒲江县| 房山区| 鄢陵县| 疏勒县| 嘉荫县| 衡山县| 木里| 湖口县| 新丰县| 白朗县| 邯郸市|