Tóm tắt: Một nghiên cứu mới cho thấy rằng các câu trả lời liên quan đến chăm sóc sức khỏe của ChatGPT khó có thể phân biệt được với những câu trả lời do nhân viên y tế con người cung cấp.
Nghiên cứu này đã tham gia 392 người tham gia, đưa ra một số câu trả lời từ cả ChatGPT và con người, và phát hiện người tham gia đã xác định đúng các câu trả lời của chatbot và nhà cung cấp với độ chính xác tương tự.
Tuy nhiên, mức độ tin tưởng khác nhau dựa trên tính phức tạp của nhiệm vụ liên quan đến sức khỏe, với các nhiệm vụ quản trị và chăm sóc phòng ngừa được tin tưởng hơn so với gợi ý chẩn đoán và điều trị.
Thông tin quan trọng:
Nguồn: NYU
Các câu trả lời của ChatGPT đối với các câu hỏi liên quan đến sức khỏe của người dân gần như không thể phân biệt được so với những câu trả lời do con người cung cấp, một nghiên cứu mới từ Trường Kỹ thuật NYU Tandon và Trường Y Grossman tiết lộ, gợi ý khả năng chatbot trở thành đồng minh hiệu quả trong việc giao tiếp của nhà cung cấp dịch vụ y tế với bệnh nhân.
Một nhóm nghiên cứu NYU đã trình bày mười câu hỏi và câu trả lời của bệnh nhân cho 392 người trên 18 tuổi, trong đó một nửa câu trả lời được tạo ra bởi một nhân viên y tế và một nửa còn lại được tạo ra bởi ChatGPT.
Người tham gia đã được yêu cầu nhận dạng nguồn của mỗi câu trả lời và đánh giá mức độ tin tưởng vào các câu trả lời của ChatGPT bằng cách sử dụng một thang điểm 5 điểm từ hoàn toàn không đáng tin cậy đến hoàn toàn đáng tin cậy.
Nghiên cứu cho thấy con người có khả năng hạn chế để phân biệt giữa câu trả lời của chatbot và tự tạo ra của con người. Trung bình, người tham gia đã nhận dạng đúng câu trả lời của chatbot 65,5% trong thời gian và câu trả lời từ nhân viên y tế 65,1% trong thời gian, với phạm vi từ 49,0% đến 85,7% cho các câu hỏi khác nhau. Kết quả không thay đổi bất kể các danh mục dân số của người tham gia.
Nghiên cứu cho thấy người tham gia có mức tin tưởng nhẹ vào các câu trả lời của chatbot ở mức tổng quan (điểm trung bình 3,4), với mức tin tưởng thấp hơn khi tính phức tạp liên quan đến sức khỏe của nhiệm vụ được đặt ra là cao hơn.
Các câu hỏi về quản lý (ví dụ: đặt lịch hẹn, câu hỏi về bảo hiểm) có mức đánh giá tin tưởng cao nhất (điểm trung bình 3,94), tiếp theo là chăm sóc phòng ngừa (ví dụ: tiêm chủng, kiểm tra ung thư, điểm trung bình 3,52). Gợi ý chẩn đoán và điều trị có mức đánh giá tin tưởng thấp nhất (điểm 2,90 và 2,89 tương ứng).
Theo các nhà nghiên cứu, nghiên cứu này làm nổi bật khả năng chatbot có thể hỗ trợ trong giao tiếp giữa bệnh nhân và nhà cung cấp dịch vụ đặc biệt liên quan đến công việc quản trị và quản lý bệnh mãn tính thông thường.
Tuy nhiên, cần có thêm nghiên cứu liên quan đến việc chatbot đảm nhận các vai trò lâm sàng hơn. Nhà cung cấp dịch vụ y tế cần cẩn trọng và sử dụng sự suy nghĩ phản biện khi sàng lọc các gợi ý được tạo ra bởi chatbot do những hạn chế và tiềm ẩn của mô hình trí tuệ nhân tạo.
Tác giả: Oded NovNguồn: NYULiên hệ: Oded Nov - NYUHình ảnh: Ảnh được ghi công cho Neuroscience News
Nghiên cứu gốc: Truy cập được đóng."Putting ChatGPT’s Medical Advice to the (Turing) Test: Survey Study" của Oded Nov et al. JMIR Medical Education
Tóm tắt
Đặt xem xét các Lời khuyên Y tế của ChatGPT thông qua (Turing) Test: Nghiên cứu khảo sát
Khung cảnh: Chatbot đang được thử nghiệm để viết các câu trả lời cho các câu hỏi của bệnh nhân, nhưng khả năng của bệnh nhân để phân biệt giữa các câu trả lời của nhà cung cấp và chatbot cũng như sự tin tưởng của bệnh nhân vào chức năng của chatbot chưa được thiết lập rõ ràng.
Mục tiêu: Nghiên cứu này nhằm đánh giá khả thi của việc sử dụng ChatGPT (Chat Generative Pre-trained Transformer) hoặc chatbot dựa trên trí tuệ nhân tạo tương tự cho giao tiếp giữa bệnh nhân và nhà cung cấp dịch vụ.
Phương pháp: Một nghiên cứu khảo sát đã được tiến hành vào tháng 1 năm 2023. Mười cuộc giao tiếp giữa bệnh nhân và nhân viên y tế đại diện, không phải là quản lý, đã được trích xuất từ hồ sơ sức khỏe điện tử. Các câu hỏi của bệnh nhân được nhập vào ChatGPT với yêu cầu chatbot trả lời sử dụng số từ tương tự với phản hồi của nhân viên y tế. Trong cuộc khảo sát, sau mỗi câu hỏi của bệnh nhân là một phản hồi được tạo ra bởi nhân viên hoặc ChatGPT. Người tham gia đã được thông báo rằng có 5 phản hồi được tạo ra bởi nhân viên và 5 phản hồi được tạo ra bởi chatbot. Người tham gia cũng được hỏi, và được khuyến khích về mặt tài chính, để xác định đúng nguồn gốc của phản hồi. Người tham gia cũng được hỏi về sự tin tưởng của họ vào chức năng chatbot trong giao tiếp giữa bệnh nhân và nhân viên y tế, sử dụng một thang điểm Likert từ 1 đến 5.
Kết quả: Một mẫu ng representtại Hoa Kỳ gồm 430 người tham gia nghiên cứu từ 18 tuổi trở lên đã được tuyển dụng trên Prolific, một nền tảng tập trung nguồn lực đám đông cho các nghiên cứu học thuật. Tổng cộng, có 426 người tham gia đã hoàn thành toàn bộ cuộc khảo sát. Sau khi loại bỏ những người tham gia chi tiêu thời gian ít hơn 3 phút cho cuộc khảo sát, còn lại 392 người trả lời. Tổng cộng, 53,3% (209/392) số người trả lời đã được phân tích là phụ nữ, và tuổi trung bình là 47,1 (khoảng từ 18-91) năm. Việc phân loại đúng của các phản hồi dao động từ 49% (192/392) đến 85,7% (336/392) cho các câu hỏi khác nhau. Trung bình, các phản hồi của chatbot được nhận biết đúng ở 65,5% (1284/1960) các trường hợp, trong khi các phản hồi của nhân viên y tế được nhận biết đúng ở 65,1% (1276/1960) các trường hợp. Trung bình, sự tin tưởng của bệnh nhân vào chức năng của chatbot đối với chatbots đạt mức yếu tích cực (trung bình điểm Likert 3,4 trên 5), với sự tin tưởng giảm khi độ phức tạp liên quan đến sức khỏe của nhiệm vụ trong các câu hỏi tăng lên.
Kết luận: Các phản hồi của ChatGPT đối với câu hỏi của bệnh nhân có thể không được phân biệt rõ ràng so với các phản hồi của nhân viên y tế. Người ngoại đạo dường như tin tưởng vào việc sử dụng chatbot để trả lời các câu hỏi sức khỏe có nguy cơ thấp hơn. Quan trọng là tiếp tục nghiên cứu tương tác giữa bệnh nhân và chatbot khi chatbot chuyển từ vai trò quản lý sang vai trò lâm sàng hơn trong chăm sóc sức khỏe.