AI安全新前沿：跨實驗室測試促進產業團結

Bitget App

交易「智」變

Bitget

資訊中心

ainvest2025/08/27 19:56

顯示原文

作者:Coin World

- OpenAI 的 Ilya Sutskever 主張跨實驗室測試，以在技術迅速進步和產業普遍風險之際加強 AI 安全。 - Anthropic 的瀏覽器端 Claude 試點項目突顯了如提示注入攻擊等安全挑戰，促使加強相關緩解策略。 - 一項研究揭示，包括 Apple 在內的主要 AI 公司對自願安全承諾的遵守情況不佳，質疑自我監管的有效性。 - Cloud Security Alliance 的 AI Safety Initiative 提供了框架和 RiskRub。

OpenAI 聯合創辦人及董事會成員 Ilya Sutskever 呼籲實施跨實驗室測試，作為確保人工智慧（AI）系統安全的關鍵措施。他的聲明出現在對 AI 發展相關風險日益關注之際，業界領袖強調需要協作且標準化的安全協議。Sutskever 所提出的跨實驗室測試呼籲，與加強 AI 安全、減輕潛在危害的更廣泛努力相一致，尤其是在這項技術持續快速演進的背景下 [1]。

近期 AI 部署與監管的發展，更凸顯了這類協作方法的必要性。例如，AI 領域的重要參與者 Anthropic 推出了一項針對其 AI 助理 Claude 的試點計畫，該計畫旨在讓 Claude 能直接在用戶瀏覽器中運作。這一舉措旨在透過將 AI 融入核心數位工作流程來提升其實用性，同時也突顯了基於瀏覽器的 AI 代理所面臨的重大安全與保護挑戰。Prompt injection 攻擊——即惡意行為者透過嵌入隱藏指令來操控 AI 行為——已成為主要風險，促使 Anthropic 採取了強化的緩解策略，例如網站層級權限、操作確認，以及用於偵測可疑模式的先進分類器 [2]。

這些風險並不限於個別公司。來自 Brown、Harvard 及 Stanford 的研究人員最近發表的一項研究發現，許多 AI 公司並未完全履行其自願性的安全承諾，特別是在拜登政府於 2023 年提出 AI 安全承諾之後。例如，Apple 在評估中表現不佳，僅有八項承諾中的一項有合規證據。該研究凸顯了在快速發展產業中自我監管的局限性，並對自願措施在確保問責與安全方面的有效性提出質疑 [5]。

為應對這些挑戰，Cloud Security Alliance（CSA）於 2023 年底啟動了 AI Safety Initiative，匯聚產業領袖、政府機構及學術機構，共同開發 AI 風險管理的實用工具與框架。該倡議為組織提供 AI 準備檢查清單、治理框架及安全指引，目標是讓技術進步與監管預期保持一致。值得注意的是，CSA 還推出了 RiskRubric.ai，一套評估大型語言模型（LLMs）安全性、透明度與可靠性的評分系統，為企業提供數據驅動的 AI 採用方法 [4]。

提升 AI 安全的協作努力，也獲得越來越多資金方與資助計畫的支持。Long-Term Future Fund、Survival and Flourishing Fund 以及 AI Safety Fund 等組織，正為致力於 AI 風險緩解的研究人員、創業者及機構提供資金支持。這些計畫旨在應對長期存在的生存風險，同時推動負責任的創新。此外，Juniper Ventures 和 Mythos Ventures 等創投公司也在投資於開發 AI 安全、合規與治理工具的新創公司 [6]。

Sutskever 所倡導的跨實驗室測試呼籲，是解決這些系統性挑戰的關鍵一步。透過在 AI 開發實驗室之間建立共享標準與透明評估，產業能夠促進更高的信任與問責。隨著 AI 系統日益複雜與強大，這種方法尤為重要，因為它需要統一的前線來在部署前評估潛在風險。OpenAI、Anthropic 及其他關鍵利益相關者有機會——也有責任——透過採納協作安全協議，帶頭推動這一轉型，為負責任的 AI 創新樹立典範 [1]。