Nhà Trắng thách thức các hacker phá vỡ các mô hình trí thông minh nhân tạo hàng đầu tại DEF CON 31

Phóng to / Một hình ảnh được tạo ra bằng trí tuệ nhân tạo của Nhà Trắng trước phông nền cyber. Vào thứ Năm này, Nhà Trắng thông báo một sự hợp tác đáng ngạc nhiên giữa các nhà phát triển AI hàng đầu, bao gồm OpenAI, Google, Antrhopic, Hugging Face, Microsoft, Nvidia và Stability AI, để tham gia vào một đánh giá công khai về các hệ thống AI sinh sáng của họ tại DEF CON 31, một hội nghị hacker được tổ chức ở Las Vegas vào tháng Tám. Sự kiện sẽ được chủ trì bởi AI Village, một cộng đồng hacker AI.

An AI-generated image of the White House in front of a cybernetic background.

Kể từ năm ngoái, các mô hình ngôn ngữ lớn (LLMs) nhưChatGPT đã trở thành một cách phổ biến để tăng tốc các nhiệm vụ viết và giao tiếp, nhưng các quan chức nhận ra rằng chúng cũng đi kèm với những rủi ro tự nhiên. Những vấn đề như hỗn loạn, jailbreaks và sự thiên lệch tạo ra thách thức đối với các chuyên gia an ninh và công chúng. Đó là lý do tại sao Văn phòng Khoa học, Công nghệ và Chính sách của Nhà Trắng chấp nhận đẩy những mô hình AI sinh sáng này đến giới hạn của chúng.

"Bài tập độc lập này sẽ cung cấp thông tin quan trọng cho các nhà nghiên cứu và công chúng về các ảnh hưởng của những mô hình này và sẽ cho phép các công ty và nhà phát triển AI đưa ra các biện pháp để khắc phục các vấn đề được tìm thấy trong những mô hình đó," cho biết trong một tuyên bố từ Nhà Trắng, cho biết sự kiện này phù hợp với Nghị định pháp lý AI của chính quyền Biden và Khung quản lý rủi ro AI của Viện Tiêu chuẩn và Công nghệ Quốc gia.

Trong một thông báo song song được viết bởi AI Village, các nhà tổ chức Sven Cattell, Rumman Chowdhury và Austin Carson gọi sự kiện sắp tới là "bài tập đội đỏ lớn nhất từ trước đến nay đối với bất kỳ nhóm mô hình AI nào". Hàng ngàn người sẽ tham gia vào cuộc đánh giá mô hình trí thông minh nhân tạo công khai, sử dụng một nền tảng đánh giá được phát triển bởi Scale AI.

"Red-teaming" là quá trình mà các chuyên gia an ninh cố gắng tìm kiếm điểm yếu hoặc lỗi trong các hệ thống của một tổ chức để cải thiện tổng thể an ninh và đàn hồi.

Theo Cattell, người sáng lập AI Village, "Những vấn đề đa dạng với những mô hình này sẽ không được giải quyết cho đến khi còn nhiều người biết cách kiểm thử và đánh giá chúng." Bằng cách tiến hành bài tập đội đỏ lớn nhất từ trước đến nay cho bất kỳ nhóm mô hình AI nào, AI Village và DEF CON mong muốn mở rộng cộng đồng những nhà nghiên cứu trang bị đủ khả năng để xử lý các điểm yếu trong các hệ thống học máy.

LLMs đã chứng tỏ rằng chúng khó khóa lại đáng kể do một kỹ thuật gọi là "tiêm câu hỏi," mà chúng tôi đã đăng tin vào tháng Chín. Nhà nghiên cứu AI Simon Willison đã viết chi tiết về những mối nguy hiểm của việc tiêm câu hỏi, một kỹ thuật có thể làm gián đoạn một mô hình ngôn ngữ.

Trong sự kiện DEF CON, các tham gia sẽ có quyền truy cập trong thời gian có giới hạn đến nhiều LLM khác nhau thông qua các máy tính xách tay được cung cấp bởi những người tổ chức. Một hệ thống điểm kiểu capture-the-flag sẽ khuyến khích thử nghiệm một loạt các thiệt hại tiềm năng. Cuối cùng, người có số điểm cao nhất sẽ giành chiến thắng và nhận được một GPU Nvidia cao cấp.

"Chúng tôi sẽ công bố những gì chúng tôi học được từ sự kiện này để giúp những người khác muốn thử điều tương tự," viết AI Village. "Càng có nhiều người biết cách làm việc tốt nhất với những mô hình này, và giới hạn của chúng, thì càng tốt."

DEF CON 31 sẽ diễn ra từ ngày 10 đến 13 tháng Tám năm 2023 tại Caesar's Forum ở Las Vegas.

Nhà Trắng thách thức các hacker phá vỡ các mô hình trí thông minh nhân tạo hàng đầu tại DEF CON 31

Tin AI