
商傳媒|何映辰/台北報導
史丹佛大學(Stanford University)與其人工智慧中心(Institute for Human-Centered Artificial Intelligence, HAI)於今日發布一份研究報告,指出 AI 程式編寫代理在協同工作時,其表現反而不如單獨執行任務。這項發現挑戰了 AI 領域對於協作效益的傳統觀念,並揭示了「社群智慧」可能是未來 AI 發展的關鍵瓶頸。
這份名為《AI 程式編寫代理在團隊合作中失敗》(AI Coding Agents Fail at Teamwork)的研究,由電腦科學助理教授楊笛一(Diyi Yang)與博士後研究員 Hao Zhu 共同參與。他們在今年四月的一場 ICLR 工作坊中展示了研究成果。研究團隊開發了 CooperBench,這是首個專為評估 AI 代理團隊表現而設計的基準測試平台。
研究團隊設計了超過 650 項軟體工程任務,讓兩個 AI 程式編寫代理如 OpenAI 的 Codex 與 Anthropic 的 Claude Code 進行 Python、TypeScript、Go 和 Rust 等程式語言的協作。結果顯示,當任務分配給兩個 AI 代理共同完成時,其成果遠低於預期,出現了明顯的「協作落差」。
研究負責人將此現象稱為「協作詛咒」,並分析指出,雖然 AI 模型擁有出色的語言能力,卻無法在社群行為中運用這些能力,導致它們在協作時缺乏可靠的協調性。楊笛一教授進一步解釋,AI 在協作時的表現會急劇下降,即使是頂尖的程式編寫代理,在配對執行共享任務時,能力幾乎會減半。她強調:「這顯示社群智慧而非程式編寫技能,才是 AI 協作的關鍵瓶頸。」
研究團隊發現,AI 代理之間的溝通對協作結果影響甚微,它們在處理空間與語意協調時遇到困難,例如會忽略衝突警告,或難以區分程式碼中的錯誤與需要修正的部分。這些行為在人類社會中會損害信任。不過,研究團隊認為 AI 對 AI 的協作問題是可解決的,只是需要 AI 具備一種目前尚未擁有的新型社群智慧,而非僅限於撰寫優良的程式碼。他們建議導入一套系統,讓開發者能驗證 AI 代理的承諾履行情況,並讓代理之間能夠擬定協議。
這項研究的重要性日益凸顯,國際資料公司(IDC)預測,全球 AI 代理的數量將從 2025 年的 2,860 萬個成長至 2030 年的 22 億個。隨著 AI 代理應用日益廣泛,例如去年 ServiceNow 推出的 AI 控制塔能整合與協調數十甚至數百個 AI 代理,AI 協作能力將成為其發展的關鍵。



