Anthropic 發布 Claude Opus 4.6 後僅僅幾分鐘,OpenAI 就推出了 GPT 5.3 Codex,在 Terminal Bench 2.0 基準測試上以超過 10% 的優勢擊敗了 Opus 4.6。YouTuber 透過三個實際測試——SDK 升級遷移、3D 遊戲開發、UI 設計——深入比較這兩款最新的程式編碼模型,探討哪一款才是目前最佳的 AI 編碼助手。
原影片連結:https://www.youtube.com/watch?v=OI6DkkNDf6o
影片重點
- Anthropic 發布 Claude Opus 4.6,隨後 OpenAI 立即推出 GPT 5.3 Codex 反擊
- GPT 5.3 Codex 在 Terminal Bench 2.0 上以超過 10% 的差距領先 Opus 4.6
- Opus 4.6 宣稱改善了長時間代理任務、大型程式碼庫操作和自我除錯能力
- GPT 5.3 Codex 結合了 GPT 5.2 Codex 的程式能力與 GPT 5.2 的推理知識,且速度快 25%
- 在 Convex Agent 套件 AI SDK v6 遷移測試中,兩者都成功完成但策略不同
- Codex 5.3 自己做程式碼審查時承認 Opus 的遷移架構更好
- Club Penguin 3D 遊戲測試中,Opus 4.6 的成品稍微更好
- UI 設計測試中,Codex 5.3 的新粗獷主義風格設計勝出
- 兩款模型都新增了網路安全能力
- Codex 新增了即時互動引導功能,Claude Code 新增了子代理團隊協作
詳細內容
[00:00] 開場:兩大模型同日發布
Anthropic 剛發布 Claude Opus 4.6,在 Terminal Bench 2.0 上取得了所有模型中的最高分。然而就在幾分鐘後,OpenAI 立刻推出 GPT 5.3 Codex,在同一基準測試上以超過 10% 的優勢擊敗 Opus 4.6。兩家公司的競爭正在白熱化,作者對這兩款模型都充滿好奇,尤其是因為他最近使用 GPT 5.2 的體驗比較好。
[00:42] 新模型功能速覽
Opus 4.6 的改進:
- 能更仔細地規劃,在更長的代理任務中保持持續運作
- 在大型程式碼庫中運作更可靠
- 擁有更好的程式碼審查和除錯技能,能抓到自己的錯誤
- 新增 100 萬 token 上下文視窗(beta 版),超過 20 萬 token 的提示詞會收取額外費用(輸入每百萬 token 10 美元,輸出每百萬 token 37.50 美元)
這些改進恰好針對了作者之前覺得 Opus 較弱的地方——相比 GPT 5.2,Opus 過去開始寫程式碼的速度較快但犯更多錯誤,而 GPT 5.2 會花較多時間理解 repo 上下文。
GPT 5.3 Codex 的改進:
- 將 GPT 5.2 Codex 的頂尖程式能力與 GPT 5.2 的推理和專業知識能力結合在一個模型中
- 速度比前代快 25%
- 能處理涉及研究、工具使用和複雜執行的長時間任務
[02:04] 測試一:Convex Agent 套件 AI SDK v6 遷移
作者建立了一個使用 Convex Agent 套件的基本聊天應用程式,然後將套件升級到 AI SDK v6,故意製造大量建構和型別錯誤,再讓兩個模型去修復。
Codex 5.3 的表現:
- 先理解了 monorepo 結構,識別根本原因和需要升級的套件
- 列出詳細的工作計劃
- 連續不間斷地工作了約 40 分鐘
- 新增了 545 行程式碼,移除了 111 行
- 一次提示就完成任務
Opus 4.6 的表現:
- 同樣工作了約 40 分鐘
- 首次完成後有一些建構錯誤,需要再下一次提示才能得到可運作的版本
- 總共需要兩次提示完成任務
兩個模型最終都成功升級,沒有型別錯誤、沒有建構錯誤、所有測試通過,但它們的處理方式不同。
[04:30] 程式碼審查對比
作者仔細比較了兩個模型的程式碼變更:
- Codex 做得好的地方:正確實作了 AI SDK v6 新增的工具審核請求(tool approval request)邏輯,這是 v6 的新功能
- Codex 做得差的地方:在 UI 訊息處理中自己寫了一個完整的轉換函式,而非使用 AI SDK 內建的
convertToModelMessages函式。這意味著未來套件升級時需要額外維護 - Opus 做得好的地方:正確使用了 AI SDK 內建的
convertToModelMessages函式 - Opus 遺漏的地方:沒有實作工具審核請求邏輯
[05:18] 用 Codex 5.3 做交叉審查
作者把兩個版本的 diff 傳回 Codex 5.3 做程式碼審查。Codex 5.3 列出了兩個方案的優缺點,最終結論是:偏好 Opus 的版本,認為它有更好的遷移架構。建議以 Opus 的版本為基礎,再把 Codex 版本中的工具審核和拒絕處理邏輯移植過來。值得注意的是,Codex 5.3 並沒有偏袒自己。
[06:03] 測試二:Club Penguin 3D 遊戲
作者要求兩個模型用 Three.js 各自製作一個 Club Penguin 的復刻遊戲,且不提供任何素材。
Opus 4.6 的成品(第一個展示的版本):
- 有角色創建頁面,可以選擇帽子和配件
- 城鎮中心場景還原程度尚可
- 有地圖系統可切換不同區域(滑雪村等)
- 企鵝角色外觀不錯
- 雪橇競速小遊戲可以玩
- 礦車衝浪小遊戲有嘗試但有 bug
Codex 5.3 的成品(第二個展示的版本):
- 同樣有顏色選擇和配件功能
- 企鵝角色造型比較胖但更有趣
- 也有地圖和不同區域
- 雪橇競速遊戲與前者相似
- 礦車衝浪遊戲稍微更能運作
作者認為 Opus 4.6 在這個測試中表現稍好,贏得了 Club Penguin 測試。
[08:33] 測試三:AI 社群媒體登陸頁設計
作者要求兩個模型各自用單一 HTML 檔建立一個「AI 專屬社群媒體網站」的登陸頁面,風格要帶有諷刺感。
Codex 5.3:採用了新粗獷主義(neo brutalism)設計風格,看起來更有趣味、更有手工感,不像典型的 AI 生成網頁。但頁面內容較少,比較單薄。
Opus 4.6:設計精良但使用了典型的紫色漸層風格,一看就像是 Vibe Coding 生成的頁面。不過功能上更完整,有趨勢標籤、規則頁面、每週熱門模型、熱門 subreddits 和內容 feed。
作者在設計上偏好 Codex 5.3 的風格,認為它更有個性。
[10:09] 基準測試比較
在 Terminal Bench 2.0 上,Codex 5.3 有顯著優勢。不過這幾乎是目前唯一能直接比較兩者的基準測試,因為 Anthropic 和 OpenAI 在各自的部落格文章中使用不同的基準測試。在 Artificial Analysis 上,Opus 4.6 目前只有非推理版本的程式編碼評測,但令人印象深刻的是,非推理版的 4.6 表現已與推理版的 4.5 Opus 相當。
作者個人感覺 Opus 4.5 到 4.6 的提升幅度不如 GPT 5.2 Codex 到 5.3 的提升明顯,但仍需實際使用才能下定論。
[10:53] 額外新功能
網路安全能力: 兩款模型都強調了網路安全方面的提升。OpenAI 表示 GPT 5.3 Codex 是他們第一個被歸類為「網路安全高能力」的模型,也是第一個被直接訓練來識別軟體漏洞的模型。Anthropic 也在部落格文章中強調了類似的能力。
Codex 即時互動引導: Codex 新增了一個功能,使用者可以在模型工作的過程中即時互動、提問和引導方向,不必等待最終輸出。作者認為這在長時間任務越來越常見的趨勢下,是很好的使用者體驗改進。
Claude Code 新功能:
- 子代理團隊(Agent Teams):可以讓多個代理協同工作
- API 壓縮功能(Compaction):可以摘要上下文以執行更長的任務
- 自適應思考模式(Adaptive Thinking):讓模型根據上下文線索自動決定延伸思考的程度
[12:00] 總結
程式編碼模型已經取得了驚人的進步,Claude Code 發布甚至還不到一年。作者個人傾向於使用 GPT 5.3 Codex,主要是因為喜歡 Codex 的應用介面和整體提示體驗,但承認兩個模型都非常強大,很難明確判定哪個更好。
我的想法
這部影片很好地展示了當前 AI 編碼模型「你追我趕」的競爭態勢。兩個模型幾乎同時發布,讓人想起科技界常見的「軍備競賽」模式。
值得注意的一個細節是 Codex 5.3 在做程式碼審查時選擇了 Opus 的版本而非自己的——這表明目前頂級模型在客觀分析能力上已經相當成熟,不太會出現明顯的「自我偏見」。
從實用角度來看,三個測試的結果其實是各有勝負:遷移任務兩者互有優劣、遊戲開發 Opus 略勝、UI 設計 Codex 略勝。這意味著選擇哪個模型可能更取決於你的具體使用場景和個人偏好,而非某個模型絕對優於另一個。
另外,Codex 的即時互動引導功能和 Claude Code 的子代理團隊,都指向同一個趨勢:AI 編碼工具正從「一次提示、等待結果」的模式,走向更具互動性和協作性的工作方式。這對於需要長時間運行的複雜任務來說,是一個非常實用的進化方向。
進階測驗:Opus 4.6 vs Codex 5.3 實測對比
共 5 題,包含情境題與錯誤診斷題。



