Kiểm định công cụ tìm kiếm AI ngay bây giờ, trước khi chúng ảnh hưởng đến nghiên cứu.

Công cụ tìm kiếm được hỗ trợ bởi các mô hình ngôn ngữ lớn (LLM) đang thay đổi cách các nhà nghiên cứu tìm kiếm thông tin học thuật. Một công cụ, trợ lý scite, sử dụng GPT-3.5 để tạo ra câu trả lời từ cơ sở dữ liệu hàng triệu bài báo khoa học. Công cụ khác, Elicit, sử dụng LLM để viết các câu trả lời cho các tìm kiếm bài viết trong cơ sở dữ liệu học thuật. Consensus tìm và tổng hợp các tuyên bố nghiên cứu trong các bài báo, trong khi SciSpace tự xưng là một 'trợ lý nghiên cứu AI' có thể giải thích toán học hoặc văn bản có trong các bài báo khoa học. Tất cả các công cụ này đều cung cấp các câu trả lời bằng tiếng tự nhiên cho các truy vấn bằng tiếng tự nhiên.

Các công cụ tìm kiếm được tùy chỉnh cho cơ sở dữ liệu học thuật có thể sử dụng LLM để cung cấp các cách khác nhau để xác định, xếp hạng và truy cập các bài báo. Ngoài ra, các nhà nghiên cứu có thể sử dụng các hệ thống tìm kiếm hỗ trợ trí tuệ nhân tạo (AI) chung như Bing, với các truy vấn chỉ nhắm vào các cơ sở dữ liệu học thuật như CORE, PubMed và Crossref.

Tất cả các hệ thống tìm kiếm đều ảnh hưởng đến quyền truy cập thông tin của các nhà khoa học và tác động đến cách thức nghiên cứu được thực hiện. Tất cả đều có khả năng và giới hạn độc đáo. Tôi rất quen thuộc với điều này thông qua kinh nghiệm xây dựng Search Smart, một công cụ cho phép các nhà nghiên cứu so sánh khả năng của 93 công cụ tìm kiếm thông thường, bao gồm Google Scholar và PubMed. Các công cụ tìm kiếm bằng tiếng tự nhiên hỗ trợ AI sẽ không nghi ngờ sẽ ảnh hưởng đến nghiên cứu. Câu hỏi là: như thế nào?

Thời gian còn lại trước khi LLM được đưa vào sử dụng rộng rãi trong tìm kiếm học thuật phải được sử dụng để hiểu rõ các cơ hội và giới hạn. Các cuộc kiểm định độc lập của các công cụ này là rất quan trọng để đảm bảo tương lai của việc truy cập thông tin.

Tất cả các công cụ tìm kiếm được hỗ trợ bởi LLM đều có giới hạn. LLM có thể 'loạn tưởng': tạo ra các bài báo không tồn tại hoặc tóm tắt nội dung không chính xác bằng cách tạo ra các sự kiện không có thật. Mặc dù các hệ thống tìm kiếm được hỗ trợ LLM chuyên dụng cho học thuật ít có khả năng loạn tưởng vì họ đang truy vấn một cơ sở dữ liệu khoa học được thiết lập, nhưng mức độ giới hạn của chúng vẫn chưa rõ ràng. Và vì các hệ thống tìm kiếm hỗ trợ trí tuệ nhân tạo, kể cả các hệ thống mã nguồn mở, đều là 'hộp đen' - các cơ chế của chúng để phù hợp các thuật ngữ, xếp hạng kết quả và trả lời truy vấn không minh bạch - cần phải phân tích phương pháp để tìm hiểu liệu chúng có bỏ qua các kết quả quan trọng hoặc ưu tiên một loại bài báo cụ thể nào đó chẳng hạn. Theo kinh nghiệm một cách đơn giản, tôi nhận thấy khi tìm kiếm được lặp lại, Bing, trợ lý scite và SciSpace thường mang lại những kết quả khác nhau, dẫn đến sự không thể sao chép. Thiếu sự minh bạch có nghĩa là có lẽ vẫn có nhiều giới hạn phải tìm ra.

Đã có các luồng trên Twitter và các video YouTube lây lan nhanh chóng cho thấy tìm kiếm được hỗ trợ bởi trí tuệ nhân tạo có thể làm nhanh các đánh giá có hệ thống hoặc tạo điều kiện cho việc suy nghĩ và tóm tắt kiến thức. Nếu các nhà nghiên cứu không nhận thức được các giới hạn và thiên vị của các hệ thống như vậy, thì kết quả nghiên cứu sẽ bị suy yếu.

Quy định tồn tại cho LLM nói chung, một số trong cộng đồng nghiên cứu. Ví dụ, các nhà xuất bản và đại học đã đưa ra các chính sách để ngăn ngừa hành vi sai trái được bật mí bởi LLM như nhầm lẫn, đạo văn hoặc giả mạo đánh giá đồng nghiệp. Các tổ chức như Cục Dược phẩm và Thực phẩm Hoa Kỳ đánh giá và phê duyệt trí tuệ nhân tạo cho các ứng dụng cụ thể, và Ủy ban châu Âu đang đề xuất khung pháp lý riêng cho trí tuệ nhân tạo. Nhưng cần có các chính sách tập trung hơn dành riêng cho tìm kiếm được hỗ trợ bởi LLM.

Tại sao các mô hình AI sáng tạo mã nguồn mở là một lối đi đạo đức hợp lý cho khoa học

Trong quá trình làm việc trên Search Smart, tôi đã phát triển một cách để đánh giá tính năng của cơ sở dữ liệu và hệ thống tìm kiếm của chúng một cách có hệ thống và minh bạch. Tôi thường thấy tính năng hoặc giới hạn được bỏ qua hoặc mô tả không chính xác trong các câu hỏi thường hỏi của các công cụ tìm kiếm. Khi nghiên cứu, Google Scholar là công cụ tìm kiếm được sử dụng rộng rãi nhất. Tuy nhiên, chúng tôi đã phát hiện ra rằng khả năng của nó để giải thích các câu truy vấn tìm kiếm Boolean, chẳng hạn như những câu truy vấn liên quan đến OR và AND, là không đầy đủ và báo cáo không đầy đủ. Dựa trên những phát hiện này, chúng tôi khuyến nghị không nên phụ thuộc vào Google Scholar cho các công việc tìm kiếm chính trong các đánh giá toàn diện và phân tích meta.

Ngay cả khi các AI tìm kiếm là các hộp đen, hiệu suất của chúng vẫn có thể được đánh giá bằng cách sử dụng "thử nghiệm chuyển hóa". Điều này giống như kiểm tra tai nạn giao thông: nó chỉ hỏi liệu và cách passager sống sót trong các kịch bản đâm đụng khác nhau, mà không cần phải biết cách hoạt động của ô tô bên trong. Tương tự, kiểm thử AI nên ưu tiên đánh giá hiệu suất trong các nhiệm vụ cụ thể.

Người tạo ra LLMs không nên phụ thuộc vào việc thực hiện các thử nghiệm này. Thay vào đó, bên thứ ba nên tiến hành đánh giá chức năng của các hệ thống này một cách có hệ thống. Các tổ chức đã tổng hợp bằng chứng và ủng hộ các thực hành dựa trên bằng chứng như Cochrane hoặc Campbell Collaboration sẽ là các ứng viên lý tưởng. Họ có thể thực hiện đánh giá bản thân hoặc phối hợp với các thực thể khác. Người kiểm thử bên thứ ba có thể muốn hợp tác với các thủ thư, ai có lẽ sẽ đóng một vai trò quan trọng trong việc giảng dạy về trình độ thông tin xung quanh tìm kiếm được hỗ trợ bởi AI.

Mục đích của các kiểm thử độc lập này không phải là quyết định liệu LLMs có nên được sử dụng hay không, mà là đưa ra các hướng dẫn rõ ràng và thực tiễn để tìm kiếm được hỗ trợ bởi AI chỉ được sử dụng cho các nhiệm vụ của chúng có thể đảm nhiệm được. Ví dụ, một cuộc đánh giá có thể phát hiện rằng một công cụ có thể được sử dụng cho các tìm kiếm để xác định phạm vi của một dự án, nhưng không thể đáng tin cậy xác định các giấy báo trên chủ đề vì bị sai lệch thông tin.

Các hệ thống tìm kiếm hỗ trợ bởi AI phải được kiểm tra trước khi các nhà nghiên cứu vô tình giới thiệu kết quả Thiên vị trên một quy mô lớn. Hiểu rõ được những điều mà các hệ thống này có thể và không thể làm chỉ có thể cải thiện tính nghiêm túc khoa học.

doi: https://doi.org/10.1038/d41586-023-01613-w

M.G. là người sáng lập của Smart Search, một trang web miễn phí kiểm thử các hệ thống tìm kiếm học thuật.

Kiểm định công cụ tìm kiếm AI ngay bây giờ, trước khi chúng ảnh hưởng đến nghiên cứu.

Tin AI