- +1
GPT Images 2.0實測:文生圖模型能力斷層領先,細節(jié)處理仍有局限
4月22日,“庫克代言小米”“奧特曼帶貨豆包”等圖片刷屏社交平臺,引發(fā)網(wǎng)友高度關注。
當天,OpenAI發(fā)布了其最新圖像生成模型ChatGPT Images 2.0。一經(jīng)發(fā)布,便迅速登上Image Arena所有排行榜榜首,在文生圖榜單上以242分的巨大優(yōu)勢登頂,創(chuàng)下該領域最大分差紀錄, 在文本渲染、肖像、卡通動漫等多個細分能力榜單上,也均位列第一。
Images 2.0新增的“思考模式”和對多語言文本的精準渲染能力,被認為是此次最大的技術突破。OpenAI表示,該模型將圖像生成從單純的渲染提升到了戰(zhàn)略設計的高度,從一種工具轉變?yōu)橐粋€視覺系統(tǒng),幫助人們將想法轉化為可以理解、分享、用于教學并在此基礎上構建的成果。
從“渲染”到“設計”究竟有多強
“思考”是Images 2.0最亮眼的新功能。據(jù)介紹,在生成圖像前,模型會先對任務進行拆解規(guī)劃,搜索網(wǎng)絡獲取實時信息、根據(jù)一個提示詞創(chuàng)建多個不同的圖像,并自我復核其輸出。
同時,長期以來AI圖像生成的最大痛點在于難以準確渲染文字,尤其是中文、日文等非拉丁字母文字,Images 2.0在這方面也取得了巨大突破。
澎湃新聞記者嘗試讓它“生成一張馬斯克直播推介澎湃新聞的圖片”。模型不僅準確生成了澎湃新聞的Logo和中文名,還自主整合了媒體的“專業(yè)、深度、原創(chuàng)”定位信息,其中的網(wǎng)友評論也結合了馬斯克的相應風格,生成了一張逼真的直播間截圖。

本文所有圖片均為記者使用Images 2.0生成
記者又讓其“換成巴菲特推薦澎湃財經(jīng)頻道”,模型再次準確生成了一張直播間截圖,并精準還原了澎湃新聞手機端App的UI界面。

在進一步的實測中,記者又要求其生成“一張寫實照片,一位年輕記者在珠峰進行新聞報道,舉著印有澎湃新聞的旗幟”。Images 2.0生成的畫面還原了珠峰大本營標志性的雪山背景、碎石地貌與高海拔環(huán)境,旗幟上“澎湃新聞”的中英文標識清晰,字體排版與實際品牌視覺系統(tǒng)一致,背景中也包含了登山帳篷與海拔標識牌,進一步增強了真實感。

記者又要求模型生成一張澎湃新聞《新引擎》周刊封面,主題為“20年后的上?!保皷|方明珠”、“黃浦江”等中文字樣。Images 2一次性成功生成了排版清晰、文字準確的封面圖,無論是大標題還是小字注釋,都沒有出現(xiàn)以往模型常見的筆畫扭曲或亂碼問題。
不僅如此,生成的圖像和海報還支持一鍵修改尺寸。

在記者要求其生成一張澎湃新聞《超級投資人》節(jié)目對話羅杰斯的分鏡圖時,Images 2.0不僅精準捕捉了羅杰斯的外貌特征,而且在生成的分鏡中保持了極高的一致性。無論是人物神態(tài)、衣著細節(jié),還是場景的光影邏輯,均未出現(xiàn)以往AI生圖中常見的“換臉”或“變形”現(xiàn)象。

記者又要求Images 2.0“生成一幅人形機器人半馬的四格漫畫”,生成的圖像也保持了一致性,并補充了比賽地點、途中故事、完賽時間等細節(jié)。

不僅如此,對于記者“生成一張超級馬里奧的游戲畫面,關卡是挑戰(zhàn)滅霸”的指令,Images 2.0也精準生成出了相應游戲界面。

人人都是設計師?局限依然存在
在上述實測中,記者并未精心打磨提示詞,絕大部分情況下僅僅是一句話指令,較高質量的視覺內(nèi)容便可以創(chuàng)作出來,生成時間在十幾秒到數(shù)分鐘不等。ChatGPT Images 2.0已經(jīng)展現(xiàn)出了足夠巨大的潛力,或將對內(nèi)容創(chuàng)作和設計行業(yè)產(chǎn)生巨大影響。
不過,盡管表現(xiàn)卓越,Images 2.0也并非完美無缺。OpenAI也坦言了其當前在物理模擬、復雜細節(jié)處理和邏輯上可能仍存在局限性。
仔細觀察可以發(fā)現(xiàn),以上記者測試生成的圖像中還是有不少問題,比如,在馬斯克手中的澎湃新聞App文章標題小字顯示錯亂,澎湃新聞也并未推出年度會員產(chǎn)品;在測試生成的周刊封面圖中,大樓樓體出現(xiàn)了歪曲的情況,新聞發(fā)布日期也顯示為“2024年”,與“20年后”的設定不符。
同時,由于Images 2.0的知識截止日期為2025年12月,并不能很好處理進步迅速的人形機器人等前沿領域的任務要求,在記者測試中生成的漫畫內(nèi)容雖然并沒有錯誤,但使用的是2025年首屆人形機器人半馬的賽事相關信息。
更需要注意的一點是,從記者測試生成的馬斯克和巴菲特直播截圖可以發(fā)現(xiàn),AI生成內(nèi)容視覺風格同質化問題仍會存在,如何保持創(chuàng)意的獨特性也將是未來創(chuàng)作者面臨的新課題。
最后,也是最為實際的一個問題,目前ChatGPT Images 2.0雖然向所有ChatGPT和Codex用戶開放,但免費用戶有使用限制,記者實測一天內(nèi)可生成約5次圖片,帶有思維鏈功能的高級輸出僅供Plus、Pro和Business用戶使用。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務許可證:31120170006
增值電信業(yè)務經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報業(yè)有限公司




