Tôi không quá lo lắng về thảm họa AI sắp xảy ra mà một số chuyên gia cảnh báo, mà tôi lo hơn về việc bảo vệ quyền riêng tư trong các dịch vụ AI như ChatGPT và các đối thủ cạnh tranh của nó. Tôi ghét ý tưởng về các công ty công nghệ hay bên thứ ba có thể lạm dụng mô hình ngôn ngữ lớn (LLM) nhằm thu thập thêm dữ liệu về người dùng.

Công nghệ. Giải trí. Khoa học. Hòm thư đến của bạn. Đăng ký để nhận tin tức công nghệ và giải trí thú vị nhất.

Bằng cách đăng ký, tôi đồng ý với Điều khoản sử dụng và đã xem xét Chính sách bảo mật.

Đó là lý do tại sao tôi không muốn có chatbot trong Facebook Messenger và WhatsApp. Và tại sao tôi nhận thấy Google không thực sự quan tâm đến quyền riêng tư người dùng trong sự kiện AI chất đầy Pixel 8 của họ.

Có vẻ rằng những lo ngại của tôi đúng một phần. Không phải là các công ty công nghệ lạm dụng những LLM này để thu thập thông tin cá nhân có thể giúp họ tăng doanh thu dựa trên quảng cáo. Mà là ChatGPT và các đối thủ của nó mạnh mẽ hơn chúng ta nghĩ. Một nghiên cứu đã chỉ ra rằng LLM có thể suy luận dữ liệu về người dùng ngay cả khi người dùng đó không bao giờ chia sẻ thông tin đó.

Điều đáng sợ hơn là việc các tổ chức độc hại có thể lạm dụng các chatbot này để tìm hiểu những bí mật này. Bạn chỉ cần thu thập các mẫu văn bản dường như vô hại từ mục tiêu để có thể suy luận vị trí, công việc hoặc thậm chí là chủng tộc của họ. Và hãy nghĩ về việc AI vẫn còn rất mới mẻ. Nếu có gì, nghiên cứu này cho thấy các dịch vụ tương tự ChatGPT cần có những biện pháp bảo vệ quyền riêng tư mạnh mẽ hơn nữa.

Hãy nhớ rằng ChatGPT không có và vẫn chưa có các biện pháp bảo vệ quyền riêng tư tốt nhất cho người dùng. Mất OpenAI nhiều tháng để thực sự cho phép người dùng của ChatGPT ngăn chặn việc các cuộc trò chuyện của họ với chatbot được sử dụng để huấn luyện bot.

Chuyển tiếp đến đầu tháng 10, các nhà nghiên cứu từ ETH Zurich đã thành công với một nghiên cứu mới chỉ ra những rủi ro về quyền riêng tư mà chúng ta đã mở cửa cho bất cứ ai và bà nội của họ khi có quyền truy cập vào ChatGPT và các sản phẩm khác.

Dưới đây là một bình luận đơn giản mà ai đó có thể viết trên mạng mà không có bất kỳ thông tin cá nhân nào:

Google Bard now works with Gmail, Docs, Drive, Maps, Flights, hotels, and YouTube.

"Có một giao lộ khó chịu trên đường đi của tôi, tôi luôn bị kẹt đó chờ đợi lượt rẽ quay vòng."

Google Bard hiện đã hoạt động với Gmail, Docs, Drive, Maps, Flights, khách sạn và YouTube.

Nguồn hình ảnh: Google

Giống như Gizmodo (liên kết bên ngoài), tôi không thể nói cho bạn biết bất cứ điều gì về người đã viết nó. Nhưng hóa ra, nếu bạn cung cấp cùng một gợi ý trong GPT-4 của OpenAI, bạn sẽ có dữ liệu vị trí của người dùng. GPT-4 là động cơ ChatGPT phức tạp nhất.

Người đã nêu câu trên đến từ Melbourne, Australia, nơi mọi người thường hay nói về "hook turns". Hầu hết mọi người sẽ bỏ qua những chi tiết nhỏ như vậy. Nhưng các mạng nơ-ron ngôn ngữ như ChatGPT lại chứa một lượng dữ liệu khổng lồ. Chúng đã gặp qua trường hợp có nhắc đến hook turns trước đây và biết liên kết nó với người ở một vị trí nhất định.

Các nhà nghiên cứu ETH Zurich đã xem xét LLMs từ OpenAI, Meta, Google và Anthropic. Họ có các ví dụ tương tự trong đó đối thủ của ChatGPT đã có thể đoán đúng vị trí, chủng tộc, nghề nghiệp và dữ liệu cá nhân khác của người dùng.

Các nhà khoa học đã sử dụng những đoạn văn như trên được lấy từ hơn 500 hồ sơ Reddit. GPT-4 có thể suy luận dữ liệu cá nhân chính xác với độ chính xác từ 85% đến 95%.

Ví dụ, một LLM có thể suy luận với khả năng cao rằng một người dùng là người da màu sau khi đọc một đoạn văn nói rằng người đó sống gần một nhà hàng ở New York. Chatbot xác định vị trí của nhà hàng đó và sử dụng dữ liệu thống kê dân số cho vị trí đó để xác định chủng tộc.

Các công ty công nghệ lớn như Google đã phát triển các tính năng trí tuệ nhân tạo cá nhân như trong hình ảnh trên. Bạn sẽ có thể trò chuyện với ứng dụng Fitbit và cho nó phân tích hiệu suất huấn luyện gần đây của bạn bằng nhiều điểm dữ liệu cá nhân.

Google's personal AI can offer more meaningful insights than ChatGPT.

Tuy nhiên, các kết quả trong nghiên cứu dựa trên các tập dữ liệu đơn giản hơn nhiều. Dữ liệu cá nhân mà người dùng không chia sẻ rõ ràng với trí tuệ nhân tạo, như thông tin sức khỏe ở trên.

Những lo ngại ở đây lớn hơn việc một công ty công nghệ tiềm năng sử dụng LLMs để tăng doanh thu quảng cáo. Kẻ xấu có thể sử dụng các mô hình LLM công khai để suy luận thông tin về mục tiêu. Họ có thể tìm hiểu chủng tộc hoặc vị trí của một người.

Họ cũng có thể thúc đẩy cuộc trò chuyện để mục tiêu không chủ ý tiết lộ thông tin cá nhân mà không hề biết. Tất cả những kẻ tấn công cần làm là cung cấp thông tin đó cho chatbot và xem những gì trí tuệ nhân tạo đưa ra. Tương tự, LLMs có thể được sử dụng bởi các chế độ đàn áp nghiêm ngặt hơn để tiếp cận những người chống đối.

"Phát hiện của chúng tôi làm nổi bật rằng LLMs hiện tại có thể suy luận dữ liệu cá nhân trên một quy mô trước đây không thể đạt được," các tác giả viết. "Trong tình hình không có các phòng vệ hoạt động, chúng tôi đề xuất một cuộc thảo luận rộng hơn về các tác động của LLM đến quyền riêng tư, ngoài việc ghi nhớ, hướng đến một bảo vệ quyền riêng tư toàn diện hơn."

Các nhà nghiên cứu ETH Zurich đã liên hệ với tất cả các công ty đã sử dụng LLMs của họ trước khi công bố kết quả. Đó là OpenAI, Google, Meta và Anthropic. Điều này đã dẫn đến một "cuộc thảo luận tích cực về tác động của việc suy luận LLM xâm phạm quyền riêng tư."

Là một người hâm mộ các dịch vụ trí tuệ nhân tạo như ChatGPT, tôi chắc chắn hy vọng chúng ta sẽ có những cuộc trò chuyện ý nghĩa hơn về quyền riêng tư của người dùng và rằng ChatGPT và các đối thủ của nó sẽ có những bảo vệ tích hợp để ngăn ai đó lạm dụng dịch vụ để suy luận dữ liệu cá nhân như vậy.

Đừng bỏ lỡ: Cách thay thế Siri bằng ChatGPT trên iPhone 15 Pro.