Anthropic 發布 Claude Opus 4.6 後僅僅幾分鐘，OpenAI 就推出了 GPT 5.3 Codex，在 Terminal Bench 2.0 基準測試上以超過 10% 的優勢擊敗了 Opus 4.6。YouTuber 透過三個實際測試——SDK 升級遷移、3D 遊戲開發、UI 設計——深入比較這兩款最新的程式編碼模型，探討哪一款才是目前最佳的 AI 編碼助手。

原影片連結：https://www.youtube.com/watch?v=OI6DkkNDf6o

影片重點

Anthropic 發布 Claude Opus 4.6，隨後 OpenAI 立即推出 GPT 5.3 Codex 反擊
GPT 5.3 Codex 在 Terminal Bench 2.0 上以超過 10% 的差距領先 Opus 4.6
Opus 4.6 宣稱改善了長時間代理任務、大型程式碼庫操作和自我除錯能力
GPT 5.3 Codex 結合了 GPT 5.2 Codex 的程式能力與 GPT 5.2 的推理知識，且速度快 25%
在 Convex Agent 套件 AI SDK v6 遷移測試中，兩者都成功完成但策略不同
Codex 5.3 自己做程式碼審查時承認 Opus 的遷移架構更好
Club Penguin 3D 遊戲測試中，Opus 4.6 的成品稍微更好
UI 設計測試中，Codex 5.3 的新粗獷主義風格設計勝出
兩款模型都新增了網路安全能力
Codex 新增了即時互動引導功能，Claude Code 新增了子代理團隊協作

詳細內容

[00:00] 開場：兩大模型同日發布

Anthropic 剛發布 Claude Opus 4.6，在 Terminal Bench 2.0 上取得了所有模型中的最高分。然而就在幾分鐘後，OpenAI 立刻推出 GPT 5.3 Codex，在同一基準測試上以超過 10% 的優勢擊敗 Opus 4.6。兩家公司的競爭正在白熱化，作者對這兩款模型都充滿好奇，尤其是因為他最近使用 GPT 5.2 的體驗比較好。

[00:42] 新模型功能速覽

Opus 4.6 的改進：

能更仔細地規劃，在更長的代理任務中保持持續運作
在大型程式碼庫中運作更可靠
擁有更好的程式碼審查和除錯技能，能抓到自己的錯誤
新增 100 萬 token 上下文視窗（beta 版），超過 20 萬 token 的提示詞會收取額外費用（輸入每百萬 token 10 美元，輸出每百萬 token 37.50 美元）

這些改進恰好針對了作者之前覺得 Opus 較弱的地方——相比 GPT 5.2，Opus 過去開始寫程式碼的速度較快但犯更多錯誤，而 GPT 5.2 會花較多時間理解 repo 上下文。

GPT 5.3 Codex 的改進：

將 GPT 5.2 Codex 的頂尖程式能力與 GPT 5.2 的推理和專業知識能力結合在一個模型中
速度比前代快 25%
能處理涉及研究、工具使用和複雜執行的長時間任務

[02:04] 測試一：Convex Agent 套件 AI SDK v6 遷移

作者建立了一個使用 Convex Agent 套件的基本聊天應用程式，然後將套件升級到 AI SDK v6，故意製造大量建構和型別錯誤，再讓兩個模型去修復。

Codex 5.3 的表現：

先理解了 monorepo 結構，識別根本原因和需要升級的套件
列出詳細的工作計劃
連續不間斷地工作了約 40 分鐘
新增了 545 行程式碼，移除了 111 行
一次提示就完成任務

Opus 4.6 的表現：

同樣工作了約 40 分鐘
首次完成後有一些建構錯誤，需要再下一次提示才能得到可運作的版本
總共需要兩次提示完成任務

兩個模型最終都成功升級，沒有型別錯誤、沒有建構錯誤、所有測試通過，但它們的處理方式不同。

[04:30] 程式碼審查對比

作者仔細比較了兩個模型的程式碼變更：

Codex 做得好的地方：正確實作了 AI SDK v6 新增的工具審核請求（tool approval request）邏輯，這是 v6 的新功能
Codex 做得差的地方：在 UI 訊息處理中自己寫了一個完整的轉換函式，而非使用 AI SDK 內建的 convertToModelMessages 函式。這意味著未來套件升級時需要額外維護
Opus 做得好的地方：正確使用了 AI SDK 內建的 convertToModelMessages 函式
Opus 遺漏的地方：沒有實作工具審核請求邏輯

[05:18] 用 Codex 5.3 做交叉審查

作者把兩個版本的 diff 傳回 Codex 5.3 做程式碼審查。Codex 5.3 列出了兩個方案的優缺點，最終結論是：偏好 Opus 的版本，認為它有更好的遷移架構。建議以 Opus 的版本為基礎，再把 Codex 版本中的工具審核和拒絕處理邏輯移植過來。值得注意的是，Codex 5.3 並沒有偏袒自己。

[06:03] 測試二：Club Penguin 3D 遊戲

作者要求兩個模型用 Three.js 各自製作一個 Club Penguin 的復刻遊戲，且不提供任何素材。

Opus 4.6 的成品（第一個展示的版本）：

有角色創建頁面，可以選擇帽子和配件
城鎮中心場景還原程度尚可
有地圖系統可切換不同區域（滑雪村等）
企鵝角色外觀不錯
雪橇競速小遊戲可以玩
礦車衝浪小遊戲有嘗試但有 bug

Codex 5.3 的成品（第二個展示的版本）：

同樣有顏色選擇和配件功能
企鵝角色造型比較胖但更有趣
也有地圖和不同區域
雪橇競速遊戲與前者相似
礦車衝浪遊戲稍微更能運作

作者認為 Opus 4.6 在這個測試中表現稍好，贏得了 Club Penguin 測試。

[08:33] 測試三：AI 社群媒體登陸頁設計

作者要求兩個模型各自用單一 HTML 檔建立一個「AI 專屬社群媒體網站」的登陸頁面，風格要帶有諷刺感。

Codex 5.3：採用了新粗獷主義（neo brutalism）設計風格，看起來更有趣味、更有手工感，不像典型的 AI 生成網頁。但頁面內容較少，比較單薄。

Opus 4.6：設計精良但使用了典型的紫色漸層風格，一看就像是 Vibe Coding 生成的頁面。不過功能上更完整，有趨勢標籤、規則頁面、每週熱門模型、熱門 subreddits 和內容 feed。

作者在設計上偏好 Codex 5.3 的風格，認為它更有個性。

[10:09] 基準測試比較

在 Terminal Bench 2.0 上，Codex 5.3 有顯著優勢。不過這幾乎是目前唯一能直接比較兩者的基準測試，因為 Anthropic 和 OpenAI 在各自的部落格文章中使用不同的基準測試。在 Artificial Analysis 上，Opus 4.6 目前只有非推理版本的程式編碼評測，但令人印象深刻的是，非推理版的 4.6 表現已與推理版的 4.5 Opus 相當。

作者個人感覺 Opus 4.5 到 4.6 的提升幅度不如 GPT 5.2 Codex 到 5.3 的提升明顯，但仍需實際使用才能下定論。

[10:53] 額外新功能

網路安全能力： 兩款模型都強調了網路安全方面的提升。OpenAI 表示 GPT 5.3 Codex 是他們第一個被歸類為「網路安全高能力」的模型，也是第一個被直接訓練來識別軟體漏洞的模型。Anthropic 也在部落格文章中強調了類似的能力。

Codex 即時互動引導： Codex 新增了一個功能，使用者可以在模型工作的過程中即時互動、提問和引導方向，不必等待最終輸出。作者認為這在長時間任務越來越常見的趨勢下，是很好的使用者體驗改進。

Claude Code 新功能：

子代理團隊（Agent Teams）：可以讓多個代理協同工作
API 壓縮功能（Compaction）：可以摘要上下文以執行更長的任務
自適應思考模式（Adaptive Thinking）：讓模型根據上下文線索自動決定延伸思考的程度

[12:00] 總結

程式編碼模型已經取得了驚人的進步，Claude Code 發布甚至還不到一年。作者個人傾向於使用 GPT 5.3 Codex，主要是因為喜歡 Codex 的應用介面和整體提示體驗，但承認兩個模型都非常強大，很難明確判定哪個更好。

我的想法

這部影片很好地展示了當前 AI 編碼模型「你追我趕」的競爭態勢。兩個模型幾乎同時發布，讓人想起科技界常見的「軍備競賽」模式。

值得注意的一個細節是 Codex 5.3 在做程式碼審查時選擇了 Opus 的版本而非自己的——這表明目前頂級模型在客觀分析能力上已經相當成熟，不太會出現明顯的「自我偏見」。

從實用角度來看，三個測試的結果其實是各有勝負：遷移任務兩者互有優劣、遊戲開發 Opus 略勝、UI 設計 Codex 略勝。這意味著選擇哪個模型可能更取決於你的具體使用場景和個人偏好，而非某個模型絕對優於另一個。

另外，Codex 的即時互動引導功能和 Claude Code 的子代理團隊，都指向同一個趨勢：AI 編碼工具正從「一次提示、等待結果」的模式，走向更具互動性和協作性的工作方式。這對於需要長時間運行的複雜任務來說，是一個非常實用的進化方向。

進階測驗：Opus 4.6 vs Codex 5.3 實測對比

測驗目標：驗證你是否能在實際情境中應用所學，包括 AI 編碼模型的選擇策略與程式碼品質判斷。
共 5 題，包含情境題與錯誤診斷題。

1. 你正在將一個使用 AI SDK v5 的 Convex 專案升級到 v6，遷移涉及大量型別變更和 breaking changes。你想用 AI 編碼模型來自動修復這些錯誤。根據影片測試結果，以下哪個策略最合理？情境題

情境：專案升級後出現大量型別錯誤和建構錯誤
需求：修復所有錯誤，且避免使用 TypeScript hack（如 as any）
可用工具：Codex 5.3、Claude Opus 4.6

A. 只用 Codex 5.3，因為它在 Terminal Bench 2.0 分數最高，所以一定最適合
B. 只用 Opus 4.6，因為它在程式碼審查中被 Codex 5.3 評價為有更好的遷移架構
C. 先用其中一個模型完成遷移，再用另一個模型做程式碼審查，取兩者各自的優勢
D. 分別用兩個模型各做一次，然後手動合併兩個版本的所有改動

2. 你的團隊需要使用 AI 模型來執行一個預計需要 30-40 分鐘的大型重構任務。你擔心模型走錯方向時會浪費大量時間。根據影片介紹的新功能，哪個方案最能解決這個問題？情境題

情境：長時間執行的 AI 編碼任務
痛點：無法確定模型是否在正確的方向上工作
需求：能在過程中即時調整方向

A. 使用 Claude Code 的子代理團隊功能，讓多個代理同時嘗試不同方案
B. 使用 Codex 5.3 的即時互動引導功能，在模型工作過程中即時提問和調整方向
C. 使用 Claude 的自適應思考模式，讓模型自動決定思考深度
D. 使用 Opus 4.6 的 100 萬 token 上下文視窗，確保模型能讀取所有程式碼

3. 你用 AI 模型生成了一個 Landing Page，客戶反饋「看起來就像 AI 做的，太沒有個性了」。根據影片的 UI 設計測試結果，最可能出現這種反饋的設計特徵是什麼？情境題

客戶反饋：「這個頁面一看就是 AI 生成的，沒有設計師的手感」
目前狀態：頁面功能完整，佈局合理，但缺乏獨特性

A. 使用了紫色漸層和典型的 Vibe Coding 風格，缺乏設計個性
B. 頁面內容太少，只有一個趨勢標籤區塊
C. 採用了新粗獷主義（neo brutalism）設計風格
D. 缺少熱門 feed 和規則頁面等功能區塊

4. 在 AI SDK v6 遷移測試中，Codex 5.3 的程式碼被發現有一個架構上的問題。以下是它產生的程式碼片段簡化示意。這段程式碼最大的問題是什麼？錯誤診斷

// Codex 5.3 生成的程式碼
function convertUIMessageToModelMessage(message) {
  // 自行實作了完整的訊息轉換邏輯
  // 包含 role mapping、content parsing 等
  const role = mapRole(message.role);
  const content = parseContent(message.content);
  return { role, content };
}

// 實際上 AI SDK v6 已內建：
// import { convertToModelMessages } from ‘ai’;

A. 函式命名不符合 AI SDK 的慣例，應該改名
B. 重新造輪子——AI SDK 已提供內建函式，自行實作會增加未來升級的維護成本
C. 沒有處理錯誤情況，缺少 try-catch 區塊
D. 使用了 TypeScript hack（如 as any），型別不安全

5. 你的同事比較了 Opus 4.6 和 Codex 5.3，得出結論：「Codex 5.3 在 Terminal Bench 2.0 上大幅領先，所以在所有程式任務上都一定比 Opus 4.6 好。」這個推論的最大問題是什麼？錯誤診斷

同事的推論：
前提：Codex 5.3 在 Terminal Bench 2.0 領先 Opus 4.6 超過 10%
結論：Codex 5.3 在所有程式編碼任務中都優於 Opus 4.6

A. Terminal Bench 2.0 不是可靠的基準測試，不應作為參考
B. Opus 4.6 的非推理版本尚未被完整評測，所以分數不準
C. 實測結果顯示兩者各有勝負（遷移任務互有優劣、遊戲 Opus 勝、UI 設計 Codex 勝），單一基準無法代表所有場景
D. 因為 Anthropic 和 OpenAI 使用不同的基準測試，所以無法做任何比較

OpenAI is Winning… (Opus 4.6 + Codex 5.3)｜OpenAI 正在勝出⋯（Opus 4.6 + Codex 5.3 實測對比）

影片重點

詳細內容

[00:00] 開場：兩大模型同日發布

[00:42] 新模型功能速覽

[02:04] 測試一：Convex Agent 套件 AI SDK v6 遷移

[04:30] 程式碼審查對比

[05:18] 用 Codex 5.3 做交叉審查

[06:03] 測試二：Club Penguin 3D 遊戲

[08:33] 測試三：AI 社群媒體登陸頁設計

[10:09] 基準測試比較

[10:53] 額外新功能

[12:00] 總結

我的想法

進階測驗：Opus 4.6 vs Codex 5.3 實測對比

1. 你正在將一個使用 AI SDK v5 的 Convex 專案升級到 v6，遷移涉及大量型別變更和 breaking changes。你想用 AI 編碼模型來自動修復這些錯誤。根據影片測試結果，以下哪個策略最合理？情境題

2. 你的團隊需要使用 AI 模型來執行一個預計需要 30-40 分鐘的大型重構任務。你擔心模型走錯方向時會浪費大量時間。根據影片介紹的新功能，哪個方案最能解決這個問題？情境題

3. 你用 AI 模型生成了一個 Landing Page，客戶反饋「看起來就像 AI 做的，太沒有個性了」。根據影片的 UI 設計測試結果，最可能出現這種反饋的設計特徵是什麼？情境題

4. 在 AI SDK v6 遷移測試中，Codex 5.3 的程式碼被發現有一個架構上的問題。以下是它產生的程式碼片段簡化示意。這段程式碼最大的問題是什麼？錯誤診斷

5. 你的同事比較了 Opus 4.6 和 Codex 5.3，得出結論：「Codex 5.3 在 Terminal Bench 2.0 上大幅領先，所以在所有程式任務上都一定比 Opus 4.6 好。」這個推論的最大問題是什麼？錯誤診斷

發佈留言取消回覆

影片重點

詳細內容

[00:00] 開場：兩大模型同日發布

[00:42] 新模型功能速覽

[02:04] 測試一：Convex Agent 套件 AI SDK v6 遷移

[04:30] 程式碼審查對比

[05:18] 用 Codex 5.3 做交叉審查

[06:03] 測試二：Club Penguin 3D 遊戲

[08:33] 測試三：AI 社群媒體登陸頁設計

[10:09] 基準測試比較

[10:53] 額外新功能

[12:00] 總結

我的想法

進階測驗：Opus 4.6 vs Codex 5.3 實測對比

1. 你正在將一個使用 AI SDK v5 的 Convex 專案升級到 v6，遷移涉及大量型別變更和 breaking changes。你想用 AI 編碼模型來自動修復這些錯誤。根據影片測試結果，以下哪個策略最合理？ 情境題

2. 你的團隊需要使用 AI 模型來執行一個預計需要 30-40 分鐘的大型重構任務。你擔心模型走錯方向時會浪費大量時間。根據影片介紹的新功能，哪個方案最能解決這個問題？ 情境題

3. 你用 AI 模型生成了一個 Landing Page，客戶反饋「看起來就像 AI 做的，太沒有個性了」。根據影片的 UI 設計測試結果，最可能出現這種反饋的設計特徵是什麼？ 情境題

4. 在 AI SDK v6 遷移測試中，Codex 5.3 的程式碼被發現有一個架構上的問題。以下是它產生的程式碼片段簡化示意。這段程式碼最大的問題是什麼？ 錯誤診斷

5. 你的同事比較了 Opus 4.6 和 Codex 5.3，得出結論：「Codex 5.3 在 Terminal Bench 2.0 上大幅領先，所以在所有程式任務上都一定比 Opus 4.6 好。」這個推論的最大問題是什麼？ 錯誤診斷

相關文章

Claude Sonnet 5：史上最強 AI 編碼模型！百萬 Token 上下文、超低定價與早期實測

Shipping AI That Works: An Evaluation Framework for PMs｜打造可靠 AI 產品：產品經理的評估框架

Coding Evals: From Code Snippets to Codebases｜程式碼評估：從片段到完整程式庫

發佈留言取消回覆

1. 你正在將一個使用 AI SDK v5 的 Convex 專案升級到 v6，遷移涉及大量型別變更和 breaking changes。你想用 AI 編碼模型來自動修復這些錯誤。根據影片測試結果，以下哪個策略最合理？情境題

2. 你的團隊需要使用 AI 模型來執行一個預計需要 30-40 分鐘的大型重構任務。你擔心模型走錯方向時會浪費大量時間。根據影片介紹的新功能，哪個方案最能解決這個問題？情境題

3. 你用 AI 模型生成了一個 Landing Page，客戶反饋「看起來就像 AI 做的，太沒有個性了」。根據影片的 UI 設計測試結果，最可能出現這種反饋的設計特徵是什麼？情境題

4. 在 AI SDK v6 遷移測試中，Codex 5.3 的程式碼被發現有一個架構上的問題。以下是它產生的程式碼片段簡化示意。這段程式碼最大的問題是什麼？錯誤診斷

5. 你的同事比較了 Opus 4.6 和 Codex 5.3，得出結論：「Codex 5.3 在 Terminal Bench 2.0 上大幅領先，所以在所有程式任務上都一定比 Opus 4.6 好。」這個推論的最大問題是什麼？錯誤診斷