OpenAI is Winning… (Opus 4.6 + Codex 5.3)|OpenAI 正在勝出⋯(Opus 4.6 + Codex 5.3 實測對比)

Anthropic 發布 Claude Opus 4.6 後僅僅幾分鐘,OpenAI 就推出了 GPT 5.3 Codex,在 Terminal Bench 2.0 基準測試上以超過 10% 的優勢擊敗了 Opus 4.6。YouTuber 透過三個實際測試——SDK 升級遷移、3D 遊戲開發、UI 設計——深入比較這兩款最新的程式編碼模型,探討哪一款才是目前最佳的 AI 編碼助手。


原影片連結:https://www.youtube.com/watch?v=OI6DkkNDf6o

影片重點

  • Anthropic 發布 Claude Opus 4.6,隨後 OpenAI 立即推出 GPT 5.3 Codex 反擊
  • GPT 5.3 Codex 在 Terminal Bench 2.0 上以超過 10% 的差距領先 Opus 4.6
  • Opus 4.6 宣稱改善了長時間代理任務、大型程式碼庫操作和自我除錯能力
  • GPT 5.3 Codex 結合了 GPT 5.2 Codex 的程式能力與 GPT 5.2 的推理知識,且速度快 25%
  • 在 Convex Agent 套件 AI SDK v6 遷移測試中,兩者都成功完成但策略不同
  • Codex 5.3 自己做程式碼審查時承認 Opus 的遷移架構更好
  • Club Penguin 3D 遊戲測試中,Opus 4.6 的成品稍微更好
  • UI 設計測試中,Codex 5.3 的新粗獷主義風格設計勝出
  • 兩款模型都新增了網路安全能力
  • Codex 新增了即時互動引導功能,Claude Code 新增了子代理團隊協作

詳細內容

[00:00] 開場:兩大模型同日發布

Anthropic 剛發布 Claude Opus 4.6,在 Terminal Bench 2.0 上取得了所有模型中的最高分。然而就在幾分鐘後,OpenAI 立刻推出 GPT 5.3 Codex,在同一基準測試上以超過 10% 的優勢擊敗 Opus 4.6。兩家公司的競爭正在白熱化,作者對這兩款模型都充滿好奇,尤其是因為他最近使用 GPT 5.2 的體驗比較好。

[00:42] 新模型功能速覽

Opus 4.6 的改進:

  • 能更仔細地規劃,在更長的代理任務中保持持續運作
  • 在大型程式碼庫中運作更可靠
  • 擁有更好的程式碼審查和除錯技能,能抓到自己的錯誤
  • 新增 100 萬 token 上下文視窗(beta 版),超過 20 萬 token 的提示詞會收取額外費用(輸入每百萬 token 10 美元,輸出每百萬 token 37.50 美元)

這些改進恰好針對了作者之前覺得 Opus 較弱的地方——相比 GPT 5.2,Opus 過去開始寫程式碼的速度較快但犯更多錯誤,而 GPT 5.2 會花較多時間理解 repo 上下文。

GPT 5.3 Codex 的改進:

  • 將 GPT 5.2 Codex 的頂尖程式能力與 GPT 5.2 的推理和專業知識能力結合在一個模型中
  • 速度比前代快 25%
  • 能處理涉及研究、工具使用和複雜執行的長時間任務

[02:04] 測試一:Convex Agent 套件 AI SDK v6 遷移

作者建立了一個使用 Convex Agent 套件的基本聊天應用程式,然後將套件升級到 AI SDK v6,故意製造大量建構和型別錯誤,再讓兩個模型去修復。

Codex 5.3 的表現:

  • 先理解了 monorepo 結構,識別根本原因和需要升級的套件
  • 列出詳細的工作計劃
  • 連續不間斷地工作了約 40 分鐘
  • 新增了 545 行程式碼,移除了 111 行
  • 一次提示就完成任務

Opus 4.6 的表現:

  • 同樣工作了約 40 分鐘
  • 首次完成後有一些建構錯誤,需要再下一次提示才能得到可運作的版本
  • 總共需要兩次提示完成任務

兩個模型最終都成功升級,沒有型別錯誤、沒有建構錯誤、所有測試通過,但它們的處理方式不同。

[04:30] 程式碼審查對比

作者仔細比較了兩個模型的程式碼變更:

  • Codex 做得好的地方:正確實作了 AI SDK v6 新增的工具審核請求(tool approval request)邏輯,這是 v6 的新功能
  • Codex 做得差的地方:在 UI 訊息處理中自己寫了一個完整的轉換函式,而非使用 AI SDK 內建的 convertToModelMessages 函式。這意味著未來套件升級時需要額外維護
  • Opus 做得好的地方:正確使用了 AI SDK 內建的 convertToModelMessages 函式
  • Opus 遺漏的地方:沒有實作工具審核請求邏輯

[05:18] 用 Codex 5.3 做交叉審查

作者把兩個版本的 diff 傳回 Codex 5.3 做程式碼審查。Codex 5.3 列出了兩個方案的優缺點,最終結論是:偏好 Opus 的版本,認為它有更好的遷移架構。建議以 Opus 的版本為基礎,再把 Codex 版本中的工具審核和拒絕處理邏輯移植過來。值得注意的是,Codex 5.3 並沒有偏袒自己。

[06:03] 測試二:Club Penguin 3D 遊戲

作者要求兩個模型用 Three.js 各自製作一個 Club Penguin 的復刻遊戲,且不提供任何素材。

Opus 4.6 的成品(第一個展示的版本):

  • 有角色創建頁面,可以選擇帽子和配件
  • 城鎮中心場景還原程度尚可
  • 有地圖系統可切換不同區域(滑雪村等)
  • 企鵝角色外觀不錯
  • 雪橇競速小遊戲可以玩
  • 礦車衝浪小遊戲有嘗試但有 bug

Codex 5.3 的成品(第二個展示的版本):

  • 同樣有顏色選擇和配件功能
  • 企鵝角色造型比較胖但更有趣
  • 也有地圖和不同區域
  • 雪橇競速遊戲與前者相似
  • 礦車衝浪遊戲稍微更能運作

作者認為 Opus 4.6 在這個測試中表現稍好,贏得了 Club Penguin 測試。

[08:33] 測試三:AI 社群媒體登陸頁設計

作者要求兩個模型各自用單一 HTML 檔建立一個「AI 專屬社群媒體網站」的登陸頁面,風格要帶有諷刺感。

Codex 5.3:採用了新粗獷主義(neo brutalism)設計風格,看起來更有趣味、更有手工感,不像典型的 AI 生成網頁。但頁面內容較少,比較單薄。

Opus 4.6:設計精良但使用了典型的紫色漸層風格,一看就像是 Vibe Coding 生成的頁面。不過功能上更完整,有趨勢標籤、規則頁面、每週熱門模型、熱門 subreddits 和內容 feed。

作者在設計上偏好 Codex 5.3 的風格,認為它更有個性。

[10:09] 基準測試比較

在 Terminal Bench 2.0 上,Codex 5.3 有顯著優勢。不過這幾乎是目前唯一能直接比較兩者的基準測試,因為 Anthropic 和 OpenAI 在各自的部落格文章中使用不同的基準測試。在 Artificial Analysis 上,Opus 4.6 目前只有非推理版本的程式編碼評測,但令人印象深刻的是,非推理版的 4.6 表現已與推理版的 4.5 Opus 相當。

作者個人感覺 Opus 4.5 到 4.6 的提升幅度不如 GPT 5.2 Codex 到 5.3 的提升明顯,但仍需實際使用才能下定論。

[10:53] 額外新功能

網路安全能力: 兩款模型都強調了網路安全方面的提升。OpenAI 表示 GPT 5.3 Codex 是他們第一個被歸類為「網路安全高能力」的模型,也是第一個被直接訓練來識別軟體漏洞的模型。Anthropic 也在部落格文章中強調了類似的能力。

Codex 即時互動引導: Codex 新增了一個功能,使用者可以在模型工作的過程中即時互動、提問和引導方向,不必等待最終輸出。作者認為這在長時間任務越來越常見的趨勢下,是很好的使用者體驗改進。

Claude Code 新功能:

  • 子代理團隊(Agent Teams):可以讓多個代理協同工作
  • API 壓縮功能(Compaction):可以摘要上下文以執行更長的任務
  • 自適應思考模式(Adaptive Thinking):讓模型根據上下文線索自動決定延伸思考的程度

[12:00] 總結

程式編碼模型已經取得了驚人的進步,Claude Code 發布甚至還不到一年。作者個人傾向於使用 GPT 5.3 Codex,主要是因為喜歡 Codex 的應用介面和整體提示體驗,但承認兩個模型都非常強大,很難明確判定哪個更好。

我的想法

這部影片很好地展示了當前 AI 編碼模型「你追我趕」的競爭態勢。兩個模型幾乎同時發布,讓人想起科技界常見的「軍備競賽」模式。

值得注意的一個細節是 Codex 5.3 在做程式碼審查時選擇了 Opus 的版本而非自己的——這表明目前頂級模型在客觀分析能力上已經相當成熟,不太會出現明顯的「自我偏見」。

從實用角度來看,三個測試的結果其實是各有勝負:遷移任務兩者互有優劣、遊戲開發 Opus 略勝、UI 設計 Codex 略勝。這意味著選擇哪個模型可能更取決於你的具體使用場景和個人偏好,而非某個模型絕對優於另一個。

另外,Codex 的即時互動引導功能和 Claude Code 的子代理團隊,都指向同一個趨勢:AI 編碼工具正從「一次提示、等待結果」的模式,走向更具互動性和協作性的工作方式。這對於需要長時間運行的複雜任務來說,是一個非常實用的進化方向。

進階測驗:Opus 4.6 vs Codex 5.3 實測對比

測驗目標:驗證你是否能在實際情境中應用所學,包括 AI 編碼模型的選擇策略與程式碼品質判斷。
共 5 題,包含情境題與錯誤診斷題。

1. 你正在將一個使用 AI SDK v5 的 Convex 專案升級到 v6,遷移涉及大量型別變更和 breaking changes。你想用 AI 編碼模型來自動修復這些錯誤。根據影片測試結果,以下哪個策略最合理? 情境題

情境:專案升級後出現大量型別錯誤和建構錯誤 需求:修復所有錯誤,且避免使用 TypeScript hack(如 as any) 可用工具:Codex 5.3、Claude Opus 4.6
  • A. 只用 Codex 5.3,因為它在 Terminal Bench 2.0 分數最高,所以一定最適合
  • B. 只用 Opus 4.6,因為它在程式碼審查中被 Codex 5.3 評價為有更好的遷移架構
  • C. 先用其中一個模型完成遷移,再用另一個模型做程式碼審查,取兩者各自的優勢
  • D. 分別用兩個模型各做一次,然後手動合併兩個版本的所有改動

2. 你的團隊需要使用 AI 模型來執行一個預計需要 30-40 分鐘的大型重構任務。你擔心模型走錯方向時會浪費大量時間。根據影片介紹的新功能,哪個方案最能解決這個問題? 情境題

情境:長時間執行的 AI 編碼任務 痛點:無法確定模型是否在正確的方向上工作 需求:能在過程中即時調整方向
  • A. 使用 Claude Code 的子代理團隊功能,讓多個代理同時嘗試不同方案
  • B. 使用 Codex 5.3 的即時互動引導功能,在模型工作過程中即時提問和調整方向
  • C. 使用 Claude 的自適應思考模式,讓模型自動決定思考深度
  • D. 使用 Opus 4.6 的 100 萬 token 上下文視窗,確保模型能讀取所有程式碼

3. 你用 AI 模型生成了一個 Landing Page,客戶反饋「看起來就像 AI 做的,太沒有個性了」。根據影片的 UI 設計測試結果,最可能出現這種反饋的設計特徵是什麼? 情境題

客戶反饋:「這個頁面一看就是 AI 生成的,沒有設計師的手感」 目前狀態:頁面功能完整,佈局合理,但缺乏獨特性
  • A. 使用了紫色漸層和典型的 Vibe Coding 風格,缺乏設計個性
  • B. 頁面內容太少,只有一個趨勢標籤區塊
  • C. 採用了新粗獷主義(neo brutalism)設計風格
  • D. 缺少熱門 feed 和規則頁面等功能區塊

4. 在 AI SDK v6 遷移測試中,Codex 5.3 的程式碼被發現有一個架構上的問題。以下是它產生的程式碼片段簡化示意。這段程式碼最大的問題是什麼? 錯誤診斷

// Codex 5.3 生成的程式碼 function convertUIMessageToModelMessage(message) { // 自行實作了完整的訊息轉換邏輯 // 包含 role mapping、content parsing 等 const role = mapRole(message.role); const content = parseContent(message.content); return { role, content }; } // 實際上 AI SDK v6 已內建: // import { convertToModelMessages } from ‘ai’;
  • A. 函式命名不符合 AI SDK 的慣例,應該改名
  • B. 重新造輪子——AI SDK 已提供內建函式,自行實作會增加未來升級的維護成本
  • C. 沒有處理錯誤情況,缺少 try-catch 區塊
  • D. 使用了 TypeScript hack(如 as any),型別不安全

5. 你的同事比較了 Opus 4.6 和 Codex 5.3,得出結論:「Codex 5.3 在 Terminal Bench 2.0 上大幅領先,所以在所有程式任務上都一定比 Opus 4.6 好。」這個推論的最大問題是什麼? 錯誤診斷

同事的推論: 前提:Codex 5.3 在 Terminal Bench 2.0 領先 Opus 4.6 超過 10% 結論:Codex 5.3 在所有程式編碼任務中都優於 Opus 4.6
  • A. Terminal Bench 2.0 不是可靠的基準測試,不應作為參考
  • B. Opus 4.6 的非推理版本尚未被完整評測,所以分數不準
  • C. 實測結果顯示兩者各有勝負(遷移任務互有優劣、遊戲 Opus 勝、UI 設計 Codex 勝),單一基準無法代表所有場景
  • D. 因為 Anthropic 和 OpenAI 使用不同的基準測試,所以無法做任何比較
0

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *