Theo một nghiên cứu mới được công bố trên JMIR Giáo dục Y học, những câu trả lời của ChatGPT đối với các câu hỏi liên quan đến chăm sóc sức khỏe khá khó phân biệt so với những câu trả lời do con người đưa ra.

Nghiên cứu này được thực hiện bởi các nhà nghiên cứu của NYU vào tháng Giêng dùng để đánh giá khả năng sử dụng ChatGPT hoặc những mô hình ngôn ngữ lớn tương tự để trả lời danh sách dài các câu hỏi mà nhà cung cấp phải đối mặt trong hồ sơ y tế điện tử. Nghiên cứu này kết luận rằng việc sử dụng các mô hình ngôn ngữ lớn như ChatGPT có thể là một cách hiệu quả để tối ưu hóa giao tiếp giữa nhà cung cấp dịch vụ chăm sóc sức khỏe và bệnh nhân.

Để thực hiện cuộc nghiên cứu này, đội ngũ nghiên cứu đã thu thập các câu hỏi của bệnh nhân từ hồ sơ y tế điện tử của NYU Langone Health. Sau đó, họ nhập vào ChatGPT những câu hỏi này và yêu cầu chatbot trả lời bằng số lượng từ tương đương với câu trả lời của nhà cung cấp dịch vụ viết trong hồ sơ y tế điện tử.

Tiếp theo, các nhà nghiên cứu đã trình bày cho gần 400 người trưởng thành mười bộ câu hỏi và câu trả lời của bệnh nhân. Họ thông báo cho các thí nghiệm viên rằng năm bộ đấy có câu trả lời từ một nhà cung cấp chăm sóc sức khỏe con người, và năm bộ khác có câu trả lời từ ChatGPT. Người tham gia được hỏi, và cũng được khuyến khích về mặt tài chính, để xác định đúng xem mỗi câu trả lời có được tạo ra bởi con người hay ChatGPT.

Đội ngũ nghiên cứu phát hiện ra rằng con người có khả năng hạn chế để xác định chính xác giữa câu trả lời được tạo ra bởi chatbot và bởi con người. Trung bình, người tham gia đã xác định đúng nguồn gốc của câu trả lời khoảng 65% thời gian. Kết quả này nhất quán không phụ thuộc vào đặc điểm dân số của người tham gia nghiên cứu.

Các tác giả của nghiên cứu cho biết nghiên cứu này chứng minh tiềm năng mà các mô hình ngôn ngữ lớn có để hỗ trợ giao tiếp giữa bệnh nhân và nhà cung cấp dịch vụ, đặc biệt là trong các công việc quản lý và chăm sóc các bệnh mãn tính.

Tuy nhiên, họ lưu ý rằng cần phải có thêm nghiên cứu để khám phá mức độ mà chatbot có thể đảm nhận trách nhiệm lâm sàng. Đội ngũ nghiên cứu cũng nhấn mạnh rằng việc tổ chức cung cấp nên thận trọng khi tạo nên những lời khuyên được tạo ra bởi LLMs để tính đến những hạn chế và tiềm ẩn của mô hình AI này.

Khi thực hiện nghiên cứu, các nhà nghiên cứu cũng hỏi người tham gia về mức độ tin tưởng của họ đối với chatbot để trả lời các loại câu hỏi khác nhau bằng cách sử dụng một thang điểm 5 điểm từ hoàn toàn không đáng tin cậy đến hoàn toàn đáng tin cậy. Họ phát hiện ra rằng sự tin tưởng của con người vào chatbot cao nhất đối với các câu hỏi vận hành - chẳng hạn như câu hỏi về bảo hiểm hoặc lịch hẹn - cũng như các câu hỏi về chăm sóc phòng ngừa. Sự tin tưởng của người tham gia vào câu trả lời do chatbot tạo ra thấp nhất cho các câu hỏi về chuẩn đoán hoặc lời khuyên điều trị.

Nghiên cứu của NYU này không phải là cuộc nghiên cứu duy nhất được công bố trong năm nay ủng hộ việc sử dụng LLMs để trả lời các câu hỏi của bệnh nhân.

Vào tháng Tư, một nghiên cứu được công bố trên tạp chí JAMA Y học Nội khoa cho thấy LLMs có khả năng đáng kể để giảm gánh nặng to lớn mà các bác sĩ phải đối mặt trong hộp thư đến của mình. Nghiên cứu này đánh giá hai bộ câu trả lời cho các câu hỏi của bệnh nhân - một bộ do bác sĩ viết, bộ kia do ChatGPT viết. Một nhóm chuyên gia y tế xác định rằng ChatGPT vượt trội hơn so với các nhà cung cấp con người vì các câu trả lời của mô hình AI này chi tiết hơn và cảm thông hơn.

Hình ảnh: Vladyslav Bobuskyi, Getty Images