在安全沙盒中執行 Codex 或編碼代理

什麼是編碼代理沙盒？
編碼代理沙盒架構
在編碼代理沙盒中，終端存取應該如何運作？
儲存庫隔離與代理變更的分支控制
沙盒化編碼代理的指令、套件和網路政策
代理工作區的機密資訊、日誌和稽核軌跡
合併前的差異、預覽和審查閘道
長時間執行代理會話的清理和重置策略
Novita Agent Sandbox 在此工作流程中的位置
編碼代理沙盒實作檢查清單
常見問題

在沙盒中執行編碼代理，方法是給予它一個範圍化的儲存庫工作區、受控制的終端執行路徑、明確的檔案權限、網路和套件安裝政策、隔離的機密資訊、指令日誌、產出物，以及在合併或部署前對高風險變更的明確批准路徑。這個模式無論代理是 Codex 風格、IDE 連接、CI 觸發還是嵌入您自己的開發者平台，都適用：模型可以規劃和編輯，但沙盒決定它可以觸控哪些內容、執行哪些指令、擷取哪些資源，以及審查者會收到哪些證據。

什麼是編碼代理沙盒？

編碼代理沙盒是一種隔離的執行環境，其中 AI 系統可以檢查程式碼、編輯檔案、執行終端指令、在政策允許時安裝依賴項、執行測試、啟動預覽伺服器，並回傳可審查的差異，而不會對開發者的機器或生產環境擁有廣泛的存取權限。

重要的轉變在於，沙盒不僅僅是模型的聊天包裝。它是工作的操作邊界。模型提議行動；沙盒強制執行工作區、工具、權限和證據痕跡。

對於簡單的程式碼助手，本機檢出和手動複製貼上可能就足夠了。對於能夠執行指令或持續執行多個步驟的代理，您需要更強的邊界：

每個任務或會話的專用工作區。
已知的儲存庫狀態和分支。
具有高風險操作批准的指令執行介面。
針對 npm、pip、cargo、apt 等工具的套件安裝政策。
針對註冊表、文件、API 和預覽存取的網路出口規則。
範圍限定於任務且盡可能從日誌中隱藏的機密資訊。
捕獲的 stdout、stderr、退出代碼、檔案變更、產生的產出物和預覽 URL。
合併、部署或外部發布前的審查閘道。

這就是為什麼「在沙盒中執行 Codex」應被理解為一種基礎設施模式，而不是單一的 CLI 旗標或某個供應商的整合。Codex CLI 本身被記錄為一種在本機電腦上執行的編碼代理，而 OpenAI 的 Codex 文件描述了終端導向的工作流程。如果您為團隊、CI 系統或產品工作流程操作這類代理，周圍的執行環境就成為了控制平面。

編碼代理沙盒架構

最清晰的架構將模型循環與執行邊界分離：

層級	責任	要回答的問題
代理介面	將使用者意圖轉化為計劃、檔案編輯、工具呼叫和審查摘要	使用哪個模型或編碼代理？如何管理提示、上下文和工具模式？
工作區管理員	建立沙盒、檢出儲存庫、設定分支，並掛載允許的檔案	每個任務是否隔離？基礎提交是否已知？工作區能否重置？
終端執行器	執行已批准的指令並將結果串流回代理	哪些指令自動允許、需要批准或遭到封鎖？
政策層	控制檔案系統範圍、機密資訊、網路出口、套件安裝、執行時間限制和清理	代理能否擷取套件？能否存取公共網際網路？能否讀取憑證？
證據層	儲存日誌、差異、測試結果、預覽和產出物	審查者能否在不信任模型摘要的情況下重建發生的事？
審查閘道	在合併、發布或部署前要求人工或可信的自動化步驟	誰批准高風險變更？必須先通過哪些檢查？

實際上，單一平台可能會結合其中幾個層級。架構仍然重要，因為它讓產品選擇保持誠實。如果一個工具給予代理終端存取權限，但無法顯示指令日誌、檔案差異或出口政策，那麼它可能方便原型設計，但對於生產審查來說過於薄弱。

在編碼代理沙盒中，終端存取應該如何運作？

終端是編碼代理既具操作實用性又具操作風險的地方。它可以執行測試、建置資源、檢查產生的檔案、啟動本機伺服器並診斷失敗。它也可以刪除檔案、洩漏環境變數、執行意外安裝腳本或消耗大量運算資源。

一個良好的終端模型包含三個部分。

首先，定義指令類別。安全的唯讀指令，如 ls、sed、rg、git diff 和測試狀態指令，通常可以自動執行。建置和測試指令，如 npm test、pytest、cargo test 和 npm run build，可在設定逾時後允許。破壞性或外部影響指令，如 rm -rf、git push、gh pr merge、部署 CLI、套件發布、資料庫遷移或雲端資源變更，應要求明確批准或完全封鎖。

其次，以結構化方式串流結果。代理和審查者應能看到指令、工作目錄、開始時間、退出代碼、stdout、stderr、逾時狀態和截斷輸出政策。終端的螢幕截圖是不夠的；系統應保留機器可讀的日誌。

第三，審慎處理長時間執行的會話。編碼代理通常需要後台開發伺服器、監看器、瀏覽器自動化程序或整合測試堆疊。將長時間執行的程序視為帶有句柄的資源：啟動它們、串流日誌、只暴露所需的預覽連接埠，並在清理時停止它們。不要讓後台程序成為聊天會話中未追踪的副作用。

儲存庫隔離與代理變更的分支控制

儲存庫狀態是可審查編碼代理工作流程的骨幹。代理不應在具有未知本機編輯的模糊資料夾中工作，除非使用者明確選擇了該模式。

對於團隊工作流程，從已知的儲存庫 URL、基礎分支和提交 SHA 開始每個任務。建立任務分支或分離的工作區。保持使用者變更與代理變更分離，並在審查前捕捉確切的差異。如果沙盒支援持久會話，請特意持久化工作區；不要依賴偶然的程序狀態。

預設模式如下所示：

1. 為 task-123 建立隔離工作區。
2. 在 main@<base_sha> 檢出儲存庫。
3. 建立分支 agent/task-123。
4. 根據政策執行依賴安裝。
5. 讓代理檢查、編輯、測試並迭代。
6. 捕捉 git diff、測試輸出、產生的產出物和預覽 URL。
7. 開啟拉取請求或將修補程式交給人類審查者。
8. 根據保留政策拆除或歸檔工作區。

關鍵細節是步驟 6。一個有用的編碼代理不僅僅說「我修好了」。它會回傳更改的檔案、每個更改存在的原因、執行了哪些驗證、哪些失敗了，以及哪些尚未驗證。

沙盒化編碼代理的指令、套件和網路政策

套件安裝是編碼代理沙盒化中最困難的部分之一。許多實際任務需要依賴項。許多供應鏈事件也始於依賴項擷取、安裝後腳本或不透明的二進位檔。

一個實用政策不是「永遠不安裝套件」。而是「僅透過已知路徑安裝套件，並記錄和範圍化」。

控制項	實際實作
套件管理器	根據語言和儲存庫類型決定哪些套件管理器可用。
註冊表存取	允許批准的註冊表；在任務不需要時封鎖任意的套件來源。
鎖定檔	偏好現有的鎖定檔和可重現的安裝指令。
安裝後腳本	決定生命週期腳本是可以自動執行還是需要批准。
系統套件	將 `apt`、`brew` 和作業系統套件安裝視為比專案依賴安裝更高風險。
快取	當需要速度和可重現性時，使用受控的套件快取。
記錄	儲存套件名稱、版本、註冊表 URL、可用的校驗和以及安裝輸出。

網路政策應同樣明確。編碼代理可能需要閱讀公共文件、呼叫測試 API、下載套件或暴露本機預覽。這些與無限制的網際網路存取不同。將出站套件擷取、網頁瀏覽、API 呼叫、webhook 傳遞和預覽入口分開。如果您的產品處理敏感程式碼或資料，請詢問 DNS、代理日誌和註冊表鏡像是否與 HTTP 流量受相同政策管轄。

代理工作區的機密資訊、日誌和稽核軌跡

機密資訊應範圍化到最小有用的表面。編碼代理通常不需要生產憑證。它可能需要唯讀的 Git 令牌、套件註冊表令牌、測試 API 金鑰或預覽部署令牌。每個都應範圍化到任務、盡可能限制時間，並且對不需要它的指令不可用。

避免將機密資訊放在代理可以讀取的檔案中，除非任務確實需要。偏好代理存取：沙盒可以執行操作，但模型看不到原始憑證。當環境變數必要時，日誌應遮蓋已知的機密模式，且審查者產出物不應包含完整的環境轉儲。

對於稽核軌跡，儲存的不僅僅是最終修補程式：

使用者請求和任務元資料。
儲存庫 URL、基礎提交、分支以及最終提交或差異。
請求、批准、封鎖和執行的指令。
指令輸出、退出代碼和逾時。
平台能夠捕捉的檔案讀取和寫入。
網路和套件擷取記錄，以政策支援的層級。
預覽 URL 和產生的產出物路徑。
人類批准和合併決策。

這不是官僚作風。這是審查者區分真正修復與看似合理故事的方式。

合併前的差異、預覽和審查閘道

編碼代理最有用的輸出是可審查的變更集。這意味著沙盒應產生仔細工程師對拉取請求所期望的相同產出物：

聚焦的差異。
已執行的測試或建置指令。
仍然存在的失敗。
螢幕截圖、預覽 URL 或可下載檔案（如果 UI 或產生的資產發生變更）。
關於預期行為變更的簡短說明。

將最終合併或部署保留在人類控制的閘道之後，除非您的組織已針對該確切儲存庫和風險等級建立了單獨的可信自動化政策。當變更觸及驗證、計費、資料存取、網路呼叫、基礎設施、依賴版本、產生的遷移或使用者可見內容時，人類審查尤其重要。

預覽處理需要自己的規則：只暴露審查所需的服務和連接埠。啟動 Web 應用程式的沙盒應為審查者提供範圍化的預覽 URL，而不是對工作區的廣泛網路存取。

長時間執行代理會話的清理和重置策略

每個沙盒都需要生命週期。如果沒有，長時間執行的編碼代理基礎設施會變成堆積如山的陳舊工作區、洩漏的日誌和仍在運行的程序。

對於短任務，臨時模型效果很好：建立沙盒、執行作業、提取產出物，然後銷毀它。對於較大的任務，持久化可能很有價值：代理可能需要暫停、等待審查、從同一個分支恢復，或在審查會話期間保持開發伺服器運行。持久化應是一個明確的產品功能，帶有過期時間、擁有者和保留規則。

定義清理內容：

後台程序和開啟的連接埠。
暫存檔案和建置輸出。
套件快取和下載的存檔。
任務範圍的機密資訊。
日誌和產出物。
已被取代的分支或工作樹。

重置同樣重要。審查者應能夠從基礎提交或最終分支重新執行代理的驗證。如果結果僅因長期會話中的不可見狀態而有效，那麼該工作流程難以信任。

Novita Agent Sandbox 在此工作流程中的位置

Novita Agent Sandbox 專為代理基礎設施設計，其中程式碼執行、瀏覽器自動化、電腦使用風格的工作流程、資料分析、評估以及更長時間運行的代理工作流程需要隔離的執行環境。Novita Agent Sandbox 文件將該產品描述為一種有狀態環境，用於運行代理工作負載，並提供 SDK 和 CLI 路徑來處理沙盒生命週期、檔案、指令、瀏覽器會話以及相關的工作流程原語。

對於已經使用 Novita AI 模型 API 的團隊，沙盒層可以縮小模型推論與行動執行之間的差距。模型可以推理、呼叫工具並規劃程式碼變更；沙盒可以提供隔離的工作區，在其中執行、記錄、預覽和審查這些行動。

在設計工作流程時，使用保守的產品邊界：

將 Novita Agent Sandbox 視為執行環境，而不是全面的安全保證。
將機密資訊、套件安裝、出口和發布操作保留在您自己的政策之後。
在將其硬編碼到生產自動化之前，先從 Novita 文件驗證目前的 SDK、CLI、定價和帳戶限制詳細資訊。
在依賴任何沙盒進入生產之前，根據您自己的政策評估隔離邊界、第三方代理相容性和合規性要求。

這種分離使得實作指南即使在代理層發生變化時仍然有用。您可以使用 Codex 風格的代理、內部編碼代理、瀏覽器代理或評估工作器，同時保持相同的沙盒控制問題。

編碼代理沙盒實作檢查清單

在將編碼代理沙盒移出原型之前，請使用此檢查清單。

領域	最低生產問題
工作區	每個任務是否獲得範圍化的檔案系統和已知的儲存庫基礎提交？
分支	代理變更是否隔離在審查者可以檢查的分支或修補程式上？
終端	指令是否記錄了工作目錄、輸出、退出代碼和逾時？
批准	哪些指令自動執行、需要批准或遭到封鎖？
套件	依賴安裝是否可重現並記錄？
網路	出口是否按套件擷取、文件瀏覽、API 呼叫和預覽存取分開？
機密資訊	憑證是否範圍化到任務並從日誌中遮蓋？
預覽	預覽連接埠是否明確且易於關閉？
產出物	產生的檔案、螢幕截圖、報告和日誌是否附加到審查中？
持久化	會話暫停/恢復是否有意，並帶有擁有者和過期時間？
清理	程序、連接埠、暫存檔案、機密資訊和陳舊工作區是否被移除？
審查	人類是否批准高風險變更的合併、發布或部署？

如果您目前的設定無法回答其中幾個問題，請將工作流程保留在原型軌道中。代理可能仍然有用，但不應獲得廣泛的儲存庫、網路或憑證存取權限。

常見問題

我可以在雲端沙盒中直接執行 Codex 嗎？

概念上可以：如果環境支援代理所需的作業系統、驗證路徑、終端 I/O、檔案系統存取和網路存取，則可以在隔離工作區內執行終端編碼代理。除非沙盒提供者和代理提供者為您確切的設定記錄了官方整合或完整相容性，否則請不要假設。

Docker 對編碼代理沙盒來說足夠嗎？

Docker 對於本機開發、CI 作業和可重現環境可能有用，但「足夠」取決於您的威脅模型。詢問哪些內容共用核心、存在哪些檔案掛載、如何控制網路出口、機密資訊是否暴露給容器，以及如何處理逃逸或依賴妥協。對於敏感工作負載，安全團隊通常會評估更強的隔離邊界和更嚴格的出口控制。

編碼代理應該有網際網路存取權限嗎？

只有在任務需要時，並且只能透過您可以說明的政策進行。文件查詢、套件註冊表存取、測試 API 呼叫和任意瀏覽是不同的權限。記錄代理擷取的內容，保持套件安裝可重現，並避免將生產網路存取權限給予通用編碼會話。

審查者在合併代理生成的程式碼之前應該檢查什麼？

審查差異、執行的指令、測試/建置輸出、依賴變更、產生的產出物、預覽行為以及任何跳過的驗證。對驗證、權限、資料處理、網路呼叫、遷移、安裝腳本和機密資訊要特別注意。

Novita 如何幫助編碼代理沙盒？

Novita Agent Sandbox 為程式碼執行、瀏覽器自動化、電腦使用風格任務、資料分析、評估和更長時間運行的流程等工作負載提供了隔離的代理執行環境。在構建編碼代理工作流程時，請搭配明確的儲存庫、指令、套件、網路、機密資訊和審查政策。

推薦文章