馬斯克帶貨？記者實測Images 2.0：懂中文、會思考

2026-04-27 14:25

來源：澎湃新聞·澎湃號·湃客

聽全文

（記者陸鵬鵬）馬斯克在抖音直播間帶貨老干媽、小學生在小賣部買零食、庫克入職小米汽車……近日，一組圖片在社交平臺瘋狂刷屏，這些圖片畫面細節(jié)逼真，幾乎難辨真?zhèn)巍?/p>

圖片由AI生成

ChatGPT Images 2.0發(fā)布

生成圖片以假亂真

近日，美國人工智能公司OpenAI正式推出ChatGPT Images 2.0模型，這是其ChatGPT平臺內圖像生成功能的最新一次升級。

據官方介紹，ChatGPT Images 2.0是OpenAI首個具備“思考”能力的圖像模型。用戶啟用該功能后，系統(tǒng)可在生成前對圖像結構進行推理規(guī)劃，并聯(lián)網檢索信息自動補全品牌、場景等細節(jié)。此外，模型在詳細指令遵循、物體的精準放置與關聯(lián)以及密集文本渲染方面有了巨大進步，目前ChatGPT每周圖像產出已超過10億張。

社交媒體上熱傳的“馬斯克帶貨”“小學生選零食”“庫克入職小米”等以假亂真的圖片，均由該模型生成。由于畫面細節(jié)過于逼真，相關話題迅速沖上熱搜，引發(fā)全網熱議。其中，“庫克入職小米”的虛假圖片因傳播廣泛、誤導性強，小米高管不得不親自出面辟謠。

圖片由AI生成

從此次升級來看，ChatGPT Images 2.0與現(xiàn)有其他模型的區(qū)別在于，它幾乎去除了所有可識別的AI痕跡，生成的照片呈現(xiàn)出極強的真實感。

文字處理能力更強

會像人類一樣思考

模型發(fā)布后，藍鯨新聞記者對ChatGPT Images 2.0進行了深度實測。

圖片由AI生成

首先測試的是畫面精度，記者輸入提示詞，要求模型生成一張“馬斯克帶貨藍鯨新聞”的圖片，不到一分鐘，Images 2.0便交出了答卷。畫面中，馬斯克身穿黑色T恤，四周布滿了藍鯨新聞的品牌元素，其中還包括“獨到視角、價值新聞”等補充性的品牌關鍵詞。整體構圖自然、細節(jié)豐富，幾乎難以分辨是否為AI生成。

隨后，記者嘗試使用“山姆·奧特曼在直播間帶貨”的提示詞進行生成。短時間內，Images 2.0同樣給出了一幅以假亂真的圖片。

圖片由AI生成

畫面完整復現(xiàn)了直播間的典型布局，左上角為“藍鯨新聞”官方賬號，顯示“10萬+”粉絲與點贊數(shù)量；主播位置雖為虛擬的山姆·奧特曼形象，但其神態(tài)、光影與真人直播無異。

此外，補充元素也近乎完整，“深度權威及時”的品牌標語、“7x24小時快訊不間斷”的功能介紹，以及售價0.01元的“直播專享價”商品鏈接，甚至連網民評論的文字也能精準呈現(xiàn)出，整體觀感與真實直播間截圖幾乎無法區(qū)分。

一分鐘做海報、畫漫畫

Images 2.0來搶人類飯碗了

對于Images 2.0來說，畫面精度只是最基礎的升級，其最大的突破在于增加了“思考”能力。從上述兩組圖片的補充信息便可以看出，記者僅輸入一句關鍵詞，模型便能主動聯(lián)網搜索已有信息，對畫面進行補充與完善。

為了進一步驗證模型的思考能力，記者進行了更深度的測試。以“藍鯨新聞參加北京車展”為提示詞，要求模型生成一張宣傳海報。不到一分鐘，Images 2.0便交出了一張要素豐富的圖片。

圖片由AI生成

畫面主體為“2026北京國際汽車展覽會”，地點為中國國際展覽中心，并配有“現(xiàn)場直擊、深度報道、洞察趨勢”等品牌標語，整體風格正式、信息層級清晰。

不過美中不足的是，模型初次生成時將年份錯寫成了“2024年”。經記者再次提示糾正后，模型才將時間修正為“2026年”。這一細節(jié)也反映出，盡管模型具備一定的推理與檢索能力，但在時間邏輯的自洽性上仍有提升空間。

除了海報外，記者還讓模型生成了一組以藍鯨新聞為主題的漫畫，這一次，Images 2.0展現(xiàn)了它在多模態(tài)敘事上更強的思考能力。

圖片由AI生成

整個漫畫共6格，畫風統(tǒng)一，劇情連貫。整組漫畫不僅角色形象（藍鯨標志、記者造型）前后一致，對話框中的中文文字也渲染得清晰準確，幽默感和敘事邏輯均在線?？梢钥吹降氖?，Images 2.0已經從單張“造圖”進化到了能夠理解并執(zhí)行完整短劇分鏡的水平。

可以說，Images 2.0已經在直接挑戰(zhàn)設計師與漫畫家的“飯碗”，那些過去高度依賴人工完成的創(chuàng)意排版、海報繪制和多格漫畫工作，正面臨被AI快速替代的風險。

總結來看，ChatGPT Images 2.0在多個維度實現(xiàn)了跨越式升級：像素級精度上，小字號文本、圖標、UI元素等復雜細節(jié)可一鍵生成；多語言渲染迎來質變，中文等文字得以精準呈現(xiàn)，通篇默寫《出師表》也不在話下；視覺風格日趨成熟，從照片級逼真感到電影劇照、動漫漫畫，都能拿捏得當；更為關鍵的是，它成為首個具備推理能力的圖像模型，能夠主動聯(lián)網搜索、自我復核輸出。