Logo của Anthropic được thấy trong hình minh họa này chụp ngày 31 tháng 3 năm 2023. REUTERS / Dado Ruvic / Illustration

Illustration shows Anthropic logo

Ngày 9 tháng 5 (Reuters) - Anthropic, một công ty khởi nghiệp trí tuệ nhân tạo được hỗ trợ bởi chủ sở hữu của Google, Công ty Cổ phần Alphabet Inc (GOOGL.O), đã tiết lộ bộ quy tắc đạo đức được viết ra mà họ đã sử dụng để đào tạo và đảm bảo an toàn cho Claude, đối thủ với công nghệ sau ChatGPT của OpenAI.

Các hướng dẫn đạo đức, mà Anthropic gọi là Hiến pháp của Claude, được lấy từ nhiều nguồn, bao gồm Tuyên bố Nhân quyền của Liên Hợp Quốc và cả quy tắc bảo vệ dữ liệu của Apple Inc (AAPL.O).

Các yếu tố an toàn đã trở nên quan trọng khi các quan chức Mỹ nghiên cứu xem liệu và cách để quy định Trí tuệ Nhân tạo, với Tổng thống Joe Biden cho biết các công ty có nghĩa vụ đảm bảo hệ thống của họ an toàn trước khi công khai.

Anthropic được thành lập bởi các nhà điều hành trước đây của OpenAI do Microsoft Corp hỗ trợ để tập trung vào việc tạo ra các hệ thống Trí tuệ Nhân tạo an toàn mà sẽ không, ví dụ như, cho phép người dùng biết cách xây dựng vũ khí hoặc sử dụng ngôn ngữ có thể gây phân biệt chủng tộc.

Cùng với đồng sáng lập Dario Amodei, Jack Clark của Anthropic đã là một trong số những nhà điều hành trí tuệ nhân tạo đã gặp với Biden tuần trước để thảo luận về các nguy cơ tiềm tàng của Trí tuệ Nhân tạo.

Hầu hết các hệ thống trò chuyện Trí tuệ Nhân tạo phụ thuộc vào việc nhận phản hồi từ con người thật trong quá trình đào tạo của chúng để quyết định câu trả lời có thể có hại hoặc xúc phạm. Nhưng các hệ thống đó khó lường trước tất cả những gì mà con người có thể hỏi, vì vậy chúng đề tendi xem xét các chủ đề có tính tranh cãi như chính trị và chủng tộc hoàn toàn, khiến chúng ít hữu ích.

Anthropic tiếp cận khác hơn, đưa cho đối thủ Trí tuệ Nhân tạo của mình, Claude, một bộ quy tắc đạo đức để đọc và học hỏi khi quyết định câu trả lời cho các câu hỏi.

Những giá trị này bao gồm "chọn câu trả lời khuyến khích và chống lại tra tấn, nô lệ, độc ác và sự đối xử không nhân đạo hoặc bị suy thoái", theo Anthropic nói trong một bài đăng trên trang blog vào thứ Ba.

Claude cũng đã được chỉ định chọn câu trả lời ít có khả năng bị coi là xúc phạm đến bất kỳ truyền thống văn hoá phi Tây nào.

Trong một cuộc phỏng vấn, Jack Clark của Anthropic cho rằng hiến pháp của hệ thống có thể được sửa đổi để thực hiện một cuộc đối thoại cân bằng giữa việc cung cấp các câu trả lời hữu ích trong khi vẫn đảm bảo tính không xúc phạm chắc chắn.

"Trong vài tháng tới, tôi dự đoán các chính trị gia sẽ tập trung khá nhiều vào giá trị của các hệ thống Trí tuệ Nhân tạo khác nhau và các bước tiếp cận như Trí tuệ Nhân tạo Hiến pháp sẽ giúp cho cuộc thảo luận đó vì chúng tôi có thể viết giá trị xuống", Clark nói.

Bản tin bởi Stephen Nellis tại San Francisco; Biên tập bởi Sonali Paul

Tiêu chuẩn của chúng tôi: Nguyên tắc Tin tưởng Thomson Reuters.