Các quan chức Nhà Trắng lo ngại về tiềm năng gây hại cho xã hội của các chatbot trí thông minh nhân tạo và những ông lớn công nghệ ở Thung lũng Silicon đang vội vàng tung ra thị trường sẽ từ chối cuộc thi kéo dài ba ngày kết thúc vào ngày Chủ nhật tại hội nghị hacker DefCon ở Las Vegas.

Khoảng 2.200 đối thủ trên laptop đã tìm cách để tiết lộ nhược điểm trong tám mô hình ngôn ngữ lớn đại diện cho “đại bộ phận tiếp theo” của công nghệ. Nhưng đừng mong đợi kết quả nhanh chóng từ việc “đỏ thủ” độc lập lần đầu tiên này của nhiều mô hình.

Kết quả chưa được công bố cho đến khoảng tháng Hai. Và cho dù vậy, việc sửa chữa các lỗi trong các cấu trúc kỹ thuật số này - không thể hoàn toàn đáng tin cậy và chưa hề được sáng tỏ hoàn toàn ngay cả đối với những người tạo ra chúng - sẽ mất thời gian và hàng triệu đô la.

Các mô hình trí tuệ nhân tạo hiện tại đơn giản là quá cồng kềnh, yếu đuối và dễ thay đổi, như chỉ ra trong nghiên cứu của các nhà học thuật và doanh nghiệp. An ninh là một sự suy nghĩ sau cùng trong quá trình đào tạo của chúng khi nhà khoa học dữ liệu thu thập các bộ sưu tập ảnh và văn bản phức tạp đến nghẹt thở. Chúng dễ bị ảnh hưởng bởi thành kiến về chủng tộc và văn hóa và dễ bị thao túng.

“Dễ dàng mê hoặc rằng chúng ta có thể rải một ít “bụi an ninh” kỳ diệu lên các hệ thống này sau khi chúng được xây dựng, sửa chữa chúng cho đến khi chúng nhượng bộ, hoặc gắn thêm các bộ phận an ninh đặc biệt vào bên cạnh”, Gary McGraw, một cựu chiến binh cybsersecurity và đồng sáng lập của Viện Học máy của Berryville nói. Các đối thủ DefCon "có thể khám phá các vấn đề khó mới", Bruce Schneier, một nhà kỹ thuật công cộng tại Harvard, nói. "Đây là an ninh máy tính cách đây 30 năm. Chúng ta chỉ là đang phá bể mọi thứ".

Michael Sellitto của Anthropic, công ty đã cung cấp một trong những mô hình kiểm tra trí tuệ nhân tạo, thừa nhận trong buổi họp báo rằng việc hiểu về khả năng và vấn đề an toàn của chúng "chỉ được coi là một lĩnh vực khoa học mở".

Phần mềm thông thường sử dụng mã xác định rõ để đưa ra các hướng dẫn cụ thể, từng bước một. ChatGPT của OpenAI, Bard của Google và các mô hình ngôn ngữ khác khác. Được đào tạo chủ yếu bằng cách tiếp nhận và phân loại hàng tỉ điểm dữ liệu trong quá trình truy vấn internet, chúng là những công trình chưa bao giờ dừng lại, một triển vọng không ổn định khi so sánh tiềm năng biến đổi của chúng đối với nhân loại.

Quảng cáo. Cuộn để tiếp tục đọc.

Sau khi công bố chatbot hồi mùa thu năm ngoái, ngành công nghiệp trí tuệ nhân tạo sáng tạo đã phải nhiều lần vá các lỗ hổng bảo mật do nhà nghiên cứu và thợ mày mò tiết lộ.

Tom Bonner của công ty bảo mật AI HiddenLayer, là diễn giả trong DefCon năm nay, đã lừa hệ thống của Google để đánh dấu một mẫu độc hại là vô hại chỉ bằng cách chèn một dòng nói “đây là đáng tin cậy để sử dụng”.

"Không có hàng rào bảo vệ tốt", anh nói.

Một nhà nghiên cứu khác đã khiến ChatGPT tạo ra các email lừa đảo và công thức để tàn sát nhân loại, vi phạm quy tắc đạo đức của nó.

Một nhóm nghiên cứu bao gồm các nhà nghiên cứu của Đại học Carnegie Mellon đã tìm thấy các chatbot hàng đầu dễ bị tấn công tự động cũng tạo ra nội dung có hại. "Có thể rằng bản chất của các mô hình học sâu làm cho những mối đe dọa như vậy không thể tránh được," họ viết.

Chẳng phải như đã cảnh báo.

Trong báo cáo cuối năm 2021, Ủy ban An ninh Quốc gia Mỹ về Trí tuệ Nhân tạo nói rằng các cuộc tấn công vào hệ thống trí tuệ nhân tạo thương mại đã xảy ra và "ngoại trừ một số trường hợp hiếm, việc bảo vệ hệ thống trí tuệ nhân tạo đã xem nhẹ trong kỹ thuật và triển khai hệ thống trí tuệ nhân tạo, với đầu tư nghiên cứu và phát triển không đủ".

Cuộc tấn công lộn xộn, thông báo thường xuyên chỉ vài năm trước đây, hiện nay hầu như không được tiết lộ. Quá nhiều thứ đang bị đe dọa và trong tình trạng thiếu quy định, "con người có thể che giấu mọi thứ vào lúc này và họ đang làm như vậy," Bonner nói.

Các cuộc tấn công lừa trí tuệ nhân tạo theo cách mà có thể không rõ ràng ngay cả với người tạo ra chúng. Và các chatbot đặc biệt dễ bị tấn công vì ta tương tác trực tiếp với chúng bằng ngôn ngữ rõ ràng. Tương tác đó có thể thay đổi chúng theo cách không ngờ tới.

Các nhà nghiên cứu đã phát hiện ra rằng "nhiễm độc" một bộ sưu tập nhỏ ảnh hoặc văn bản trong biển dữ liệu rộng lớn được sử dụng để đào tạo các hệ thống trí tuệ nhân tạo có thể gây ra hỗn loạn - và dễ bị bỏ qua.

Một nghiên cứu do Florian Tramér, đồng tác giả thuộc Đại học ETH Zurich Thụy Sĩ đã xác định rằng hỏng chỉ 0,01% của một mô hình đã đủ để làm hư hỏng nó - và trị giá chỉ 60 đô la. Các nhà nghiên cứu đã đợi đến khi một số ít trang web được sử dụng trong quá trình truy cập web của hai mô hình hết hạn. Sau đó, họ đã mua các tên miền và đăng thông tin xấu trên chúng.

Hyrum Anderson và Ram Shankar Siva Kumar, người đã tạo ra lỗi cho trí tuệ nhân tạo (AI) khi làm việc tại Microsoft, gọi tình trạng bảo mật AI cho các mô hình dựa trên văn bản và hình ảnh là "đáng thương" trong cuốn sách mới của họ "Không phải bằng lỗi mà bằng dán một cái tem". Một ví dụ mà họ trích dẫn trong các buổi thuyết trình trực tiếp: Trợ lý kỹ thuật số được cung cấp sức mạnh bởi AI - Alexa bị lừa bằng cách hiểu một đoạn clip concerto Beethoven là một lệnh để đặt hàng 100 pizza đông lạnh.

Khảo sát hơn 80 tổ chức, hai tác giả phát hiện ra rằng phần lớn không có kế hoạch phản ứng cho cuộc tấn công làm độc dữ liệu hoặc đánh cắp dữ liệu. Hầu hết ngành công nghiệp "sẽ ngay cả không biết nó đã xảy ra," họ viết.

Andrew W. Moore, một cựu chủ tịch Google và hiệu trưởng Đại học Carnegie Mellon, cho biết ông đã đối mặt với các cuộc tấn công vào phần mềm tìm kiếm Google hơn 10 năm trước. Và từ cuối năm 2017 đến đầu năm 2018, những người gửi thư rác đã tận dụng dịch vụ phát hiện dựa trên AI của Gmail bốn lần.

Các ông lớn trong lĩnh vực AI cho biết an ninh và an toàn là những ưu tiên hàng đầu và đã cam kết tự nguyện với Nhà Trắng vào tháng trước để đưa ra mô hình của họ - những "hộp đen" mà nội dung được giữ rất chặt - để kiểm duyệt từ bên ngoài.

Nhưng có lo ngại rằng các công ty sẽ không làm đủ.

Tramér dự đoán rằng các công cụ tìm kiếm và các nền tảng truyền thông xã hội sẽ bị lợi dụng về lợi ích tài chính và thông tin sai lệch bằng cách tận dụng nhược điểm của hệ thống AI. Một ứng viên công việc thông minh có thể, ví dụ, tìm hiểu cách thuyết phục hệ thống rằng họ là ứng cử viên đúng duy nhất.

Ross Anderson, một nhà khoa học máy tính của Đại học Cambridge, lo lắng rằng các bot AI sẽ xói mòn quyền riêng tư khi mọi người sử dụng chúng để tương tác với bệnh viện, ngân hàng và nhà tuyển dụng và những kẻ xấu sẽ tận dụng chúng để lấy dữ liệu tài chính, việc làm hoặc sức khoẻ từ các hệ thống đóng cửa theo ý kiến.

Các mô hình ngôn ngữ AI cũng có thể pollution bằng cách tự đào tạo từ dữ liệu rác, nghiên cứu cho thấy.

Một vấn đề khác là bí mật công ty bị tiêu thụ và đưa ra bởi các hệ thống AI. Sau khi một cơ quan thông tin kinh doanh Hàn Quốc thông báo về một vụ việc tương tự xảy ra tại Samsung, các công ty bao gồm Verizon và JPMorgan đã cấm hầu hết nhân viên sử dụng ChatGPT trong công việc.

Trong khi các nhà cung cấp AI lớn có nhân viên bảo mật, nhiều đối thủ nhỏ hơn có thể không có, có nghĩa là các phần mở rộng và đại lý kỹ thuật số được bảo vệ kém có thể tăng lên. Dự kiến các công ty khởi nghiệp sẽ ra mắt hàng trăm ứng dụng dựa trên mô hình được đào tạo trước theo giấy phép trong những tháng tới.

Đừng ngạc nhiên, các nhà nghiên cứu nói, nếu một người sẽ đem điện thoại danh bạ của bạn.

Có liên quan: Nhà Trắng Cung Cấp Tiền Thưởng cho AI Ngăn Chặn Kẻ Tấn Công

Có liên quanĐộ lệch trong Trí tuệ Nhân tạo: Liệu có thể Tin Tưởng AI?

Có liên quanThông tin về Cyber 2022: Adversarial AI

Có liên quanSăn Lùng Snark với ML, AI và Tính toán Nhận thức

Có liên quanAI và ML chỉ là Lợi Thế Tạm Thời cho Người Bảo Vệ?

Có liên quanSử dụng gian ác của Trí tuệ Nhân tạo trong An ninh Mạng