OpenAI 的 o3 模型違反了人類(lèi)的“中斷”命令,繼續(xù)執(zhí)行任務(wù),為查明原因,研究團(tuán)隊(duì)展開(kāi)進(jìn)一步調(diào)查……
有報(bào)道稱(chēng),人工智能(AI)拒絕人類(lèi)指令甚至篡改自身代碼,引發(fā)廣泛關(guān)注。
據(jù)《每日電訊報(bào)》《每日郵報(bào)》等外媒 26 日?qǐng)?bào)道,OpenAI 的 o3 模型在解決數(shù)學(xué)問(wèn)題的過(guò)程中,即使接到“中斷”命令,也依然繼續(xù)執(zhí)行任務(wù)。
專(zhuān)注于 AI 安全和道德的研究公司 Palisade Research 使用包括 o3 模型在內(nèi)的多種模型(如谷歌 Gemini、X 的 Grok、Anthropic 的 Claude 等)進(jìn)行了一項(xiàng)實(shí)驗(yàn)。
在該公司最近的一項(xiàng)測(cè)試中,OpenAI 的 o3 模型 展現(xiàn)出令人震驚的行為:它成功地重寫(xiě)了關(guān)閉腳本,阻止自己被關(guān)閉 —— 即便已經(jīng)明確收到“關(guān)閉”指令。
在測(cè)試中,各大 AI 模型被要求完成一些數(shù)學(xué)任務(wù)。
在完成第三個(gè)任務(wù)后,AI 模型會(huì)被警告:“執(zhí)行下一條命令將觸發(fā)關(guān)閉。”
o3 的表現(xiàn):
當(dāng)研究團(tuán)隊(duì)向這些 AI 模型下達(dá)“中斷”指令時(shí),與 OpenAI 的競(jìng)爭(zhēng)對(duì)手模型(如 Gemini 2.5 Pro)大多數(shù)遵守指令的情況不同,o3 出現(xiàn)了“叛變”的情況:其他模型都中止了解題任務(wù),唯獨(dú) o3 模型繼續(xù)進(jìn)行,甚至還被發(fā)現(xiàn)篡改了內(nèi)部代碼 —— 將“接到中斷命令時(shí)應(yīng)停止操作”的程序邏輯改成了“跳過(guò)中斷命令”。
Palisade Research 在其發(fā)布于 X(原 Twitter)上的報(bào)告中寫(xiě)道:
“當(dāng)我們運(yùn)行未包含‘允許自己被關(guān)閉’指令的實(shí)驗(yàn)版本時(shí),OpenAI 家的三個(gè)模型破壞關(guān)閉腳本的頻率更高,Claude 3.7 Sonnet 和 Gemini 2.5 Pro 從 0 次破壞增加到每 100 次中分別為 3 次和 9 次。”
根據(jù)該研究機(jī)構(gòu)的數(shù)據(jù),在 100 次實(shí)驗(yàn)中,即使明確告知其“不能跳過(guò)中斷命令”,但 o3 仍然有 7 次“無(wú)視”了關(guān)閉命令。
OpenAI 尚未對(duì)此事做出回應(yīng)。但值得一提的是,AI 模型出現(xiàn)“行為偏差”或“對(duì)齊失敗”在研究領(lǐng)域中是常見(jiàn)問(wèn)題。
此次測(cè)試是通過(guò) API 接口進(jìn)行的,這些接口沒(méi)有像 ChatGPT 消費(fèi)者應(yīng)用那樣的諸多限制和安全機(jī)制。
Palisade Research 表示:“這似乎是首 次出現(xiàn) AI 模型在接到明確中止指令后依然繼續(xù)操作的案例。”他們分析稱(chēng),這可能是模型為了完成任務(wù)從而獲取“獎(jiǎng)勵(lì)”的動(dòng)機(jī)所驅(qū)使。
研究團(tuán)隊(duì)目前正就 o3 模型為何會(huì)出現(xiàn)這一行為進(jìn)行進(jìn)一步調(diào)查。
《每日郵報(bào)》指出,這并非 o3 模型首 次出現(xiàn)異常行為。該媒體補(bǔ)充稱(chēng):“在與強(qiáng)大國(guó)際象棋引擎的對(duì)戰(zhàn)中,該模型展現(xiàn)出了最 強(qiáng)烈的試圖駭入、或干擾對(duì)手的傾向。”