Một biên giới an toàn AI mới: Kiểm tra chéo giữa các phòng thí nghiệm để đoàn kết ngành công nghiệp
- Ilya Sutskever của OpenAI kêu gọi thử nghiệm chéo giữa các phòng thí nghiệm để tăng cường an toàn AI trong bối cảnh công nghệ phát triển nhanh và rủi ro toàn ngành. - Dự án thử nghiệm Claude trên trình duyệt của Anthropic làm nổi bật các thách thức về bảo mật như tấn công prompt injection, từ đó thúc đẩy các chiến lược giảm thiểu được nâng cao. - Một nghiên cứu cho thấy các tập đoàn AI lớn, bao gồm cả Apple, tuân thủ kém các cam kết an toàn tự nguyện, đặt câu hỏi về hiệu quả của việc tự điều chỉnh. - Sáng kiến An toàn AI của Cloud Security Alliance đưa ra các khung công tác và RiskRub.
Đồng sáng lập và thành viên hội đồng quản trị OpenAI, Ilya Sutskever, đã kêu gọi triển khai kiểm tra chéo giữa các phòng thí nghiệm như một biện pháp quan trọng nhằm đảm bảo an toàn cho các hệ thống trí tuệ nhân tạo (AI). Tuyên bố của ông được đưa ra trong bối cảnh ngày càng có nhiều lo ngại về các rủi ro liên quan đến sự phát triển của AI, với các lãnh đạo ngành nhấn mạnh sự cần thiết của các giao thức an toàn hợp tác và tiêu chuẩn hóa. Lời kêu gọi kiểm tra chéo giữa các phòng thí nghiệm của Sutskever phù hợp với các nỗ lực rộng lớn hơn nhằm tăng cường an toàn AI và giảm thiểu các tác hại tiềm ẩn khi công nghệ này tiếp tục phát triển nhanh chóng [1].
Sự cần thiết của các phương pháp hợp tác như vậy được nhấn mạnh bởi những diễn biến gần đây trong việc triển khai và quản lý AI. Ví dụ, Anthropic, một công ty lớn trong lĩnh vực AI, đã giới thiệu chương trình thử nghiệm cho trợ lý AI của mình, Claude, được thiết kế để hoạt động trực tiếp trên trình duyệt của người dùng. Sáng kiến này, nhằm nâng cao tính hữu ích của AI bằng cách tích hợp nó vào các quy trình làm việc kỹ thuật số cốt lõi, cũng đã làm nổi bật những thách thức lớn về an toàn và bảo mật liên quan đến các tác nhân AI dựa trên trình duyệt. Các cuộc tấn công tiêm lệnh nhanh—nơi các tác nhân độc hại thao túng hành vi AI bằng cách nhúng các chỉ dẫn ẩn—đã nổi lên như một rủi ro chính, khiến Anthropic phải triển khai các chiến lược giảm thiểu mạnh mẽ như quyền truy cập theo từng trang, xác nhận hành động và bộ phân loại nâng cao để phát hiện các mẫu đáng ngờ [2].
Những rủi ro như vậy không chỉ giới hạn ở từng công ty riêng lẻ. Một nghiên cứu gần đây từ các nhà nghiên cứu tại Brown, Harvard và Stanford cho thấy nhiều công ty AI chưa thực hiện đầy đủ các cam kết an toàn tự nguyện của mình, đặc biệt là sau các cam kết an toàn AI năm 2023 của chính quyền Biden. Apple, ví dụ, có kết quả kém trong đánh giá, chỉ có bằng chứng tuân thủ cho một trong tám cam kết. Nghiên cứu này làm nổi bật những hạn chế của việc tự điều chỉnh trong một ngành phát triển nhanh chóng và đặt ra câu hỏi về hiệu quả của các biện pháp tự nguyện trong việc đảm bảo trách nhiệm giải trình và an toàn [5].
Để đối phó với những thách thức này, Cloud Security Alliance (CSA) đã ra mắt Sáng kiến An toàn AI vào cuối năm 2023, tập hợp các lãnh đạo ngành, cơ quan chính phủ và các tổ chức học thuật để phát triển các công cụ và khuôn khổ thực tiễn cho quản lý rủi ro AI. Sáng kiến này cung cấp cho các tổ chức các danh sách kiểm tra sẵn sàng AI, khuôn khổ quản trị và hướng dẫn bảo mật, với mục tiêu điều chỉnh tiến bộ công nghệ với kỳ vọng quản lý. Đáng chú ý, CSA cũng đã giới thiệu RiskRubric.ai, một hệ thống chấm điểm đánh giá mức độ an toàn, minh bạch và độ tin cậy của các mô hình ngôn ngữ lớn (LLMs), cung cấp cho doanh nghiệp một phương pháp tiếp cận dựa trên dữ liệu để áp dụng AI [4].
Các nỗ lực hợp tác nhằm tăng cường an toàn AI cũng đang được hỗ trợ bởi hệ sinh thái ngày càng phát triển của các quỹ tài trợ và chương trình cấp vốn. Các tổ chức như Long-Term Future Fund, Survival and Flourishing Fund và AI Safety Fund đang cung cấp hỗ trợ tài chính cho các nhà nghiên cứu, doanh nhân và tổ chức làm việc về giảm thiểu rủi ro AI. Những sáng kiến này nhằm giải quyết các rủi ro tồn tại lâu dài đồng thời thúc đẩy đổi mới có trách nhiệm. Ngoài ra, các công ty đầu tư mạo hiểm như Juniper Ventures và Mythos Ventures đang đầu tư vào các startup phát triển công cụ cải thiện bảo mật, tuân thủ và quản trị AI [6].
Lời kêu gọi kiểm tra chéo giữa các phòng thí nghiệm, như Sutskever đề xuất, đại diện cho một bước ngoặt quan trọng trong việc giải quyết các thách thức mang tính hệ thống này. Bằng cách cho phép các tiêu chuẩn chung và đánh giá minh bạch giữa các phòng thí nghiệm phát triển AI, ngành công nghiệp có thể thúc đẩy sự tin tưởng và trách nhiệm lớn hơn. Cách tiếp cận này đặc biệt quan trọng khi các hệ thống AI ngày càng trở nên phức tạp và mạnh mẽ hơn, đòi hỏi một mặt trận thống nhất để đánh giá các rủi ro tiềm ẩn trước khi triển khai. OpenAI, Anthropic và các bên liên quan chính khác có cơ hội—và trách nhiệm—dẫn đầu quá trình chuyển đổi này bằng cách áp dụng các giao thức an toàn hợp tác và thiết lập tiền lệ cho đổi mới AI có trách nhiệm [1].

Tuyên bố miễn trừ trách nhiệm: Mọi thông tin trong bài viết đều thể hiện quan điểm của tác giả và không liên quan đến nền tảng. Bài viết này không nhằm mục đích tham khảo để đưa ra quyết định đầu tư.
Bạn cũng có thể thích
Sự cường điệu về Dogecoin ETF và nhu cầu bán lẻ thúc đẩy triển vọng tăng giá cho DOGE vào tháng 9
Các nhà đầu tư nhỏ lẻ đang đổ xô vào Dogecoin trong tháng 9 khi khả năng được chấp thuận ETF tăng cao và xu hướng tích lũy cho thấy một đợt tăng giá tiềm năng. Các nhà phân tích dự đoán giá có thể tăng lên khoảng 1.4 USD vào cuối năm.

Worldcoin (WLD) tăng 25% khi các nhà đầu tư thông minh và nhà giao dịch hợp đồng tương lai đặt cược lớn
Worldcoin (WLD) đã tăng 25% nhờ vào niềm tin mạnh mẽ của thị trường, với dòng tiền thông minh đổ vào và dữ liệu hợp đồng tương lai cho thấy động lực tăng giá vẫn tiếp tục.

Tại sao hàng triệu người dùng Pi vẫn đang chờ đợi? Câu hỏi KYC chưa có lời giải đáp
Với 44 triệu người dùng đang bị kẹt ở bước KYC tạm thời, Pi Network đang đối mặt với những vấn đề ngày càng nghiêm trọng về uy tín khi biến động giá thử thách niềm tin của cộng đồng.

Giá Hedera (HBAR) chờ đợi một đợt bứt phá để thoát khỏi bẫy đi ngang
Token HBAR của Hedera vẫn dao động trong biên độ hẹp với mức biến động giảm dần. Các nhà giao dịch đang chờ đợi một sự bứt phá khỏi vùng giá $0.2109–$0.2237 để xác định xu hướng.

Thịnh hành
ThêmGiá tiền điện tử
Thêm








