“Các mô hình ngôn ngữ lớn như ChatGPT, được phát hành bởi OpenAI, đã cho thấy hiệu suất xuất sắc trong nhiều lĩnh vực, bao gồm y khoa, luật pháp và quản lý,” các tác giả của nghiên cứu viết. “Hiệu suất thành công của ChatGPT trong các câu hỏi kỳ thi trên bàn trong lĩnh vực phẫu thuật tổng quát đã được báo cáo trước đây, cho thấy tiềm năng của nó trong giáo dục và đào tạo phẫu thuật."
Mô hình GPT-3.5 và GPT-4 của ChatGPT đều được kiểm tra, trả lời 400 câu hỏi kỳ thi SESATS từ năm 2016 đến 2021. Trong đó, 55% câu hỏi tập trung vào phẫu thuật tim mạch ở người lớn, 35% tập trung vào phẫu thuật ngực tổng quát, 5% tập trung vào phẫu thuật tim mạch bẩm sinh và 5% khác tập trung vào chăm sóc đặc biệt. Không có câu hỏi trong bộ dữ liệu bao gồm hình ảnh lâm sàng.
Tổng thể, GPT-3.5 được liên kết với độ chính xác là 52%. Trong khi đó, GPT-4 có kết quả tốt hơn nhiều, đạt được độ chính xác là 81,3%. Nhìn kỹ hơn vào dữ liệu, GPT-4 đạt các mức chính xác là 87,3% trong danh mục phẫu thuật tim mạch ở người lớn, 90,2% trong danh mục phẫu thuật ngực tổng quát, 68,9% trong danh mục phẫu thuật tim mạch bẩm sinh và 80% trong danh mục chăm sóc đặc biệt. GPT-4 đã thực hiện tốt hơn GPT-3.5 trong tất cả các danh mục đó, tuy nhiên, khác biệt về độ chính xác chăm sóc đặc biệt không đáng kể thống kê.
“Kết quả của nghiên cứu của chúng tôi cho thấy rằng ChatGPT, đặc biệt là mô hình GPT-4, cho thấy khả năng đáng kinh ngạc trong việc hiểu thông tin lâm sàng phẫu thuật ngực phức tạp, đạt tỷ lệ độ chính xác là 81,3% trên các câu hỏi kỳ thi SESATS,” các tác giả viết. “Mô hình GPT-4 luôn vượt trội hơn GPT-3.5 trên tất cả các chuyên khoa của phẫu thuật ngực, cho thấy tiềm năng của nó trong việc áp dụng giáo dục và đào tạo phẫu thuật trong lĩnh vực này.”
Khalpey vv viết rằng hiệu suất mạnh mẽ này cung cấp bằng chứng mới cho thấy các mô hình ngôn ngữ lớn có thể “potentially revolutionize surgical education and training” bằng cách xây dựng các nền tảng học tập cá nhân cho sinh viên và người học. Ngoài ra, những mô hình này cũng có thể giúp cho các bác sĩ thực hành cập nhật với lĩnh vực và kiếm được các khoá học y khoa tiếp tục giáo dục.
Các nhà nghiên cứu giải thích rằng ChatGPT và các mô hình ngôn ngữ lớn khác vẫn còn giới hạn đáng kể. Chúng có thể bị lệch bởi thông tin không đúng hoặc sai lạc, và có thể các bác sĩ sẽ “trở nên quá phụ thuộc” vào khả năng cung cấp hỗ trợ của chúng.
“Sự xuất hiện của các mô hình AI tiên tiến như ChatGPT đã tạo ra sự kích thích và quan tâm trong cộng đồng y tế, đặc biệt là trong lĩnh vực phẫu thuật,” các tác giả kết luận. “Nghiên cứu này đã cho thấy rằng ChatGPT, đặc biệt là mô hình GPT-4, có thể giảm đáng kể số lỗi được bác sĩ mắc phải bằng cách cải thiện chất lượng giáo dục phẫu thuật. Khía cạnh gây tranh cãi này đã dẫn đến các cuộc tranh luận nảy lửa về vai trò của AI trong y khoa.”
Nhấn vào đây để đọc đánh giá đầy đủ, bao gồm phân tích chi tiết về các ưu nhược điểm liên quan đến việc sử dụng ChatGPT trong phẫu thuật tim mạch.