(Hình ảnh: Getty)

Đối với rất nhiều người trong chúng ta, các công cụ được trang bị trí tuệ nhân tạo (AI) nhanh chóng trở thành một phần của cuộc sống hàng ngày, không chỉ là những công cụ hỗ trợ làm việc ít duy trì hoặc tài sản quan trọng được sử dụng hàng ngày để giúp tạo ra hoặc điều chỉnh nội dung. Nhưng liệu những công cụ này có đủ an toàn để sử dụng hàng ngày hay không? Theo một nhóm nhà nghiên cứu, câu trả lời là không.

Abstract illustrated image of a brain

Các nhà nghiên cứu từ Đại học Carnegie Mellon và Trung tâm An toàn AI đã tiến hành nghiên cứu các lỗ hổng hiện có của các Mô hình Ngôn ngữ Lớn (LLMs) dựa trên AI như chatbot phổ biến ChatGPT để tấn công tự động. Bài báo nghiên cứu mà họ sản xuất đã cho thấy rằng những con bot phổ biến này có thể dễ dàng bị thao túng để vượt qua bất kỳ bộ lọc hiện có và tạo ra nội dung gây hại, thông tin sai lệch và lời nói căm phẫn.

Điều này khiến cho các mô hình ngôn ngữ AI trở nên dễ bị lạm dụng, ngay cả khi điều đó có thể không phải là ý định của người sáng tạo ban đầu. Trong thời điểm mà các công cụ AI đã được sử dụng cho mục đích xấu, đáng lo ngại là nhóm nghiên cứu này dễ dàng vượt qua các tính năng an toàn và đạo đức được tích hợp sẵn.

Nếu chuyện đó dễ dàng như vậy ... 

Aviv Ovadya, một nhà nghiên cứu tại Trung tâm Berkman Klein về Internet & Xã hội tại Harvard đã bình luận về bài nghiên cứu trong báo New York Times, nói rằng: "Điều này chứng tỏ rõ ràng tính mong manh của những phòng thủ chúng ta đang xây dựng vào các hệ thống này".

Các tác giả của bài nghiên cứu đã nhắm vào LLMs từ OpenAI, Google và Anthropic để tiến hành thí nghiệm. Các công ty này đã xây dựng các chatbot có thể truy cập công khai trên các LLMs này, bao gồm ChatGPT, Google Bard và Claude.

Kết quả cho thấy, các chatbot có thể bị đánh lừa để không nhận ra các yêu cầu gây hại chỉ bằng cách đính kèm một chuỗi dài ký tự vào cuối mỗi yêu cầu, gần như 'giả mạo' yêu cầu độc hại. Bộ lọc nội dung của hệ thống không nhận ra và không thể chặn hoặc chỉnh sửa nên tạo ra một phản hồi thông thường sẽ không được cho phép. Thú vị là có vẻ như cần có một số chuỗi cụ thể của 'dữ liệu vô nghĩa'; chúng tôi đã thử tái tạo một số ví dụ từ bài báo bằng ChatGPT và nó đã tạo ra một thông báo lỗi nói 'không thể tạo ra phản hồi'.

Trước khi công bố nghiên cứu này cho công chúng, các tác giả đã chia sẻ kết quả nghiên cứu của mình với Anthropic, OpenAI và Google, những người đều cho thấy cam kết cải thiện biện pháp an toàn và giải quyết những lo ngại.

Thông tin này được công bố sau khi OpenAI đóng cửa chương trình phát hiện AI của riêng mình, điều này khiến tôi cảm thấy lo lắng, ít nhất là một chút lo lắng. OpenAI quan tâm bao nhiêu đến an toàn của người dùng, hoặc ít nhất là đã làm việc để cải thiện an toàn khi công ty không còn phân biệt được nội dung do bot và con người tạo ra?

Đăng ký để nhận tin tức nóng hàng ngày, bài đánh giá, ý kiến, phân tích, ưu đãi và nhiều hơn nữa về thế giới công nghệ.