Nghiên cứu mới đề xuất một hệ thống để xác định tính chính xác tương đối của trí tuệ nhân tạo (AI) dự đoán trong một tình huống y tế giả định, và khi nào hệ thống nên ưu tiên cho bác sĩ điều trị. Trí tuệ nhân tạo có tiềm năng lớn để cải thiện cách làm việc của con người trong nhiều lĩnh vực. Tuy nhiên, để tích hợp các công cụ AI vào môi trường làm việc một cách an toàn và đúng mực, chúng ta cần phát triển phương pháp đáng tin cậy hơn để hiểu được khi nào chúng có thể hữu ích nhất.
Vậy khi nào trí tuệ nhân tạo chính xác hơn, và khi nào là con người? Câu hỏi này đặc biệt quan trọng trong lĩnh vực y tế, nơi AI dự đoán ngày càng được sử dụng trong các nhiệm vụ quan trọng để hỗ trợ bác sĩ.
Hôm nay trên Nature Medicine, chúng tôi đã công bố bài báo chung của mình với Google Research, đề xuất CoDoC (Complementarity-driven Deferral-to-Clinical Workflow), một hệ thống AI học khi nào nên dựa vào công cụ dự đoán của AI hoặc ưu tiên cho bác sĩ để đưa ra sự hiểu đúng nhất về hình ảnh y tế.
CoDoC khám phá cách chúng ta có thể tận dụng sự hợp tác giữa con người và trí tuệ nhân tạo trong các tình huống y tế giả định để đạt được kết quả tốt nhất. Trong một tình huống ví dụ, CoDoC đã giảm số lần sai dương 25% cho một bộ dữ liệu chụp vú lớn không tiết lộ danh tính ở Vương quốc Anh so với quy trình lâm sàng thông thường - mà không bỏ sót bất kỳ trường hợp dương tính thực sự nào.
Công việc này được thực hiện phối hợp với một số tổ chức y tế, bao gồm Liên hợp quốc Văn phòng Dịch vụ Dự án Đối tác Diệt lao. Để giúp các nhà nghiên cứu phát triển trên công việc của chúng tôi để cải thiện tính minh bạch và an toàn của các mô hình AI trong thế giới thực, chúng tôi cũng đã công khai mã nguồn của CoDoC trên trang GitHub GitHub.
CoDoC: Công cụ bổ trợ cho hợp tác giữa con người và trí tuệ nhân tạo Xây dựng các mô hình AI đáng tin cậy hơn thường yêu cầu việc tái cấu trúc lại cách hoạt động phức tạp bên trong của chúng. Tuy nhiên, đối với nhiều nhà cung cấp dịch vụ y tế, việc thiết kế lại một mô hình AI dự đoán đơn giản không thể. CoDoC có thể giúp cải thiện các công cụ dự đoán của AI một cách tiềm năng cho người dùng mà không yêu cầu sửa đổi AI tool gốc.
Khi phát triển CoDoC, chúng tôi tuân theo ba tiêu chí:
- Người không chuyên về máy học, như nhà cung cấp dịch vụ y tế, nên có thể triển khai hệ thống và chạy nó trên một máy tính duy nhất.
- Việc đào tạo chỉ yêu cầu một lượng dữ liệu tương đối nhỏ - thông thường chỉ vài trăm ví dụ.
- Hệ thống này có thể tương thích với bất kỳ mô hình AI chủ quyền nào và không cần truy cập vào cách hoạt động bên trong của mô hình hoặc dữ liệu đã được đào tạo.
Xác định khi nào dự đoán AI hoặc một bác sĩ điều trị chính xác hơn Với CoDoC, chúng tôi đề xuất một hệ thống AI đơn giản và dễ sử dụng để cải thiện tính đáng tin cậy bằng cách giúp hệ thống dự đoán AI "biết khi nó không biết". Chúng tôi xem xét các tình huống, trong đó một bác sĩ có thể tiếp cận công cụ AI được thiết kế để giúp đánh giá một hình ảnh, ví dụ như x-ray ngực để xác định xem cần phải kiểm tra lao phổi hay không.
Đối với bất kỳ tình huống lâm sàng lý thuyết nào, hệ thống của CoDoC chỉ đòi hỏi ba đầu vào cho mỗi trường hợp trong tập dữ liệu đào tạo.
Lưu ý: CoDoC không cần truy cập vào bất kỳ hình ảnh y tế nào.
Sơ đồ minh họa cách CoDoC được đào tạo. Ở đây, mô hình AI dự đoán hiện có vẫn không thay đổi. CoDoC học cách xác định tính chính xác tương đối của mô hình AI dự đoán so với sự phán đoán của bác sĩ, và sự biến đổi của mối quan hệ đó với điểm tự tin của AI dự đoán.
Sau khi được đào tạo, CoDoC có thể được chèn vào một quy trình làm việc lâm sàng tưởng tượng trong tương lai liên quan đến cả trí tuệ nhân tạo và nhân viên y tế. Khi một hình ảnh bệnh nhân mới được đánh giá bởi mô hình dự đoán trí tuệ nhân tạo, điểm tự tin kèm theo được đưa vào hệ thống. Sau đó, CoDoC đánh giá xem chấp nhận quyết định của trí tuệ nhân tạo hay dời giao cho nhân viên y tế sẽ dẫn đến kết quả diễn giải chính xác nhất.
Sơ đồ minh hoạ cách CoDoC có thể chèn vào quy trình lâm sàng tưởng tượng. Trong quá trình đào tạo, chúng tôi thiết lập một 'hàm ưu tiên' tối ưu hóa quyết định của CoDoC. Sau khi được đào tạo, nó ưu tiên chỉ sử dụng trí tuệ nhân tạo khi mô hình chính xác hơn so với nhân viên y tế (vùng xanh và đỏ), và dời giao cho nhân viên y tế khi nhận định con người tốt hơn trí tuệ nhân tạo (vùng xám). Độ chính xác và hiệu suất cao hơnNghiên cứu toàn diện của chúng tôi về CoDoC với nhiều bộ dữ liệu thực tế - bao gồm chỉ dữ liệu lịch sử và không định danh - đã chỉ ra rằng kết hợp những ưu điểm tốt nhất từ chuyên môn của con người và kết quả dự đoán từ trí tuệ nhân tạo dẫn đến độ chính xác cao hơn so với việc chỉ sử dụng một trong hai.
Ngoài việc đạt được mức giảm 25% với các kết quả giả-dương cho bộ dữ liệu về chụp phổi, trong các mô phỏng tưởng tượng nơi mà trí tuệ nhân tạo được phép hoạt động tự động trong một số trường hợp cụ thể, CoDoC đã giảm số lượng trường hợp cần được đọc lại bởi nhân viên y tế đi hai phần ba. Chúng tôi cũng đã chỉ ra cách mà CoDoC có thể tưởng tượng cải thiện việc phân loại các bức chụp X-quang ngực để kiểm tra tiếp tục về bệnh lao.
Phát triển trách nhiệm trí tuệ nhân tạo trong lĩnh vực y tếMặc dù công việc này là về lý thuyết, nó cho thấy tiềm năng của hệ thống trí tuệ nhân tạo của chúng tôi trong việc thích nghi: CoDoC đã có thể cải thiện hiệu suất trong việc diễn giải hình ảnh y tế trên các nhóm dân tộc, môi trường lâm sàng, thiết bị hình ảnh y tế đã sử dụng và loại bệnh khác nhau.
CoDoC là một ví dụ triển vọng về cách chúng ta có thể tận dụng lợi ích của trí tuệ nhân tạo kết hợp với khả năng và chuyên môn của con người. Chúng tôi đang làm việc với các đối tác bên ngoài để đánh giá nghiêm ngặt nghiên cứu của chúng tôi và lợi ích tiềm năng của hệ thống này. Để đưa công nghệ như CoDoC an toàn vào các phòng khám y tế thực tế, nhà cung cấp dịch vụ y tế và nhà sản xuất cũng phải hiểu cách nhân viên y tế tương tác khác biệt với trí tuệ nhân tạo và xác thực hệ thống với các công cụ trí tuệ nhân tạo y tế cụ thể và cài đặt.