ChatGPT Atlas代理模式更新,引入對抗式訓練防提示詞注入攻擊

OpenAI在ChatGPT Atlas的代理模式推出安全更新,替瀏覽器代理導入新的對抗式訓練模型檢查點,並強化周邊防護機制。OpenAI表示,更新主因是透過內部自動化紅隊演練發現一類新的提示詞注入攻擊手法,因此先行修補,以降低代理在執行使用者任務時被誤導的風險。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *