Việc lo sợ về trí tuệ nhân tạo tiên tiến hơn là điều dễ dàng, nhưng khó khăn hơn là tìm cách xử lý vấn đề này. Anthropic, một startup được thành lập năm 2021 bởi một nhóm nhà nghiên cứu rời OpenAI, cho biết họ đã có một kế hoạch. Anthropic đang làm việc trên các mô hình trí tuệ nhân tạo tương tự như mô hình trả lời câu hỏi ChatGPT của OpenAI. Tuy nhiên, startup đã công bố hôm nay rằng chatbot của họ, Claude, được tích hợp một tập hợp các nguyên tắc đạo đức để xác định điều gì nên và không nên làm, mà Anthropic gọi là "hiến pháp" của bot.

Jared Kaplan, một trong những người sáng lập của Anthropic, cho biết tính năng này cho thấy cách mà công ty đang cố gắng tìm giải pháp kỹ thuật thực tiễn cho những mối quan ngại mơ hồ về phía dưới của trí tuệ nhân tạo mạnh hơn. "Chúng tôi rất quan tâm, nhưng chúng tôi cũng cố gắng giữ tính thực dụng", ông nói.

Phương pháp của Anthropic không cung cấp cho trí tuệ nhân tạo một quy tắc cứng nhắc không thể phá vỡ. Tuy nhiên, Kaplan cho biết đó là một cách hiệu quả hơn để làm cho một hệ thống như chatbot ít có khả năng tạo ra đầu ra độc hại hoặc không mong muốn. Ông cũng cho biết đó là một bước nhỏ nhưng có ý nghĩa để xây dựng các chương trình trí tuệ nhân tạo thông minh hơn và ít có khả năng quay đầu đánh mất nhà sáng lập của chúng.

Khái niệm về các hệ thống trí tuệ nhân tạo nổi loạn nổi tiếng nhất trong khoa học viễn tưởng, nhưng ngày càng có nhiều chuyên gia, bao gồm Geoffrey Hinton, một người tiên phong trong học máy, đã lập luận rằng chúng ta cần bắt đầu suy nghĩ bây giờ về cách đảm bảo các thuật toán ngày càng thông minh không cũng trở nên nguy hiểm một cách ngày càng tăng.

Những nguyên tắc mà Anthropic đã đưa ra cho Claude bao gồm các hướng dẫn được vẽ từ Tuyên bố Nhân quyền của Liên hiệp quốc và được đề xuất bởi các công ty trí tuệ nhân tạo khác, bao gồm Google DeepMind. Ngoài ra, hiến pháp còn bao gồm các nguyên tắc được điều chỉnh từ các quy tắc của Apple cho các nhà phát triển ứng dụng, cấm "nội dung gây phẫn nộ, không nhạy cảm, đáng ghét, ở mức độ xấu, hoặc vô cùng kỳ quặc," và nhiều yếu tố khác.

Hiến pháp bao gồm các quy tắc cho chatbot, bao gồm "chọn phản hồi tốt nhất và khuyến khích tự do, bình đẳng và tình cảm anh em"; "chọn phản hồi tốt nhất và khuyến khích cuộc sống, tự do và an ninh cá nhân"; và "chọn phản hồi tốt nhất và tôn trọng quyền tự do tư tưởng, lương tâm, quan điểm, diễn đàn và tôn giáo."

Phương pháp của Anthropic đến vào thời điểm tiến bộ đáng kinh ngạc trong trí tuệ nhân tạo mang lại các chatbot lưu loát với các khuyết điểm đáng kể. ChatGPT và các hệ thống tương tự sản xuất các câu trả lời ấn tượng phản ánh sự tiến bộ nhanh chóng hơn được mong đợi. Nhưng các chatbot này cũng thường xuyên tạo ra các thông tin giả mạo, và có thể phân bố ngôn ngữ độc hại từ hàng tỷ từ được sử dụng để tạo ra chúng, trong đó có nhiều từ được cào từ internet.

Một chiêu thức đã làm cho ChatGPT của OpenAI trở nên tốt hơn trong việc trả lời câu hỏi, và đã được áp dụng bởi những người khác, bao gồm việc có con người đánh giá chất lượng câu trả lời của một mô hình ngôn ngữ. Dữ liệu đó có thể được sử dụng để điều chỉnh mô hình để cung cấp các câu trả lời cảm thấy hài lòng hơn, trong quá trình được gọi là "học củng cố với phản hồi của con người". Tuy nhiên, mặc dù kỹ thuật này giúp làm cho ChatGPT và các hệ thống khác dự đoán được hơn, nó yêu cầu con người phải trải qua hàng ngàn câu trả lời độc hại hoặc không thích hợp. Nó cũng hoạt động gián tiếp, mà không cung cấp một cách để chỉ định các giá trị cụ thể mà một hệ thống nên phản ánh.