Các mô hình ngôn ngữ lớn (LLM) đang là chủ đề nóng bỏng trong thời gian gần đây. Với khả năng đặc biệt và ứng dụng trong các lĩnh vực khác nhau, một bài báo nghiên cứu mới hoặc cập nhật mới trong LLM được phát hành hầu như mỗi ngày. Hiện tại, LLM hiện có số lượng tham số rất lớn, điều này khiến chi phí huấn luyện cực kỳ đắt đỏ. Chúng được huấn luyện trên hàng ngàn tỷ từ, điều này làm cho chúng trở nên siêu đắt đỏ.
Trong một bài báo nghiên cứu vừa được phát hành, một số sinh viên Đại học Stanford và Đại học Cornell đã đề xuất một phương pháp có thể giải quyết thách thức của các LLM đắt đỏ. Nhóm đã chia sẻ cách thức Mô hình Ngôn ngữ (LMs) đắt đỏ khi xử lý các tài liệu lớn. Họ đã trích dẫn ví dụ về chi phí chạy suy luận trên 55 triệu trang Wikipedia, giá trị của nó lớn hơn 100.000 đô la, và tương đương với giá hơn 0,002 đô la cho mỗi 1000 token. Phương pháp được đề xuất bởi các tác giả có thể giảm chi phí suy luận lên đến 110 lần trong khi cũng cải thiện chất lượng kết quả so với việc chạy suy luận trực tiếp trên mỗi tài liệu.
Được gọi là EVAPORATE, LLMs cung cấp sức mạnh cho hệ thống nguyên mẫu này và xác định hai chiến lược khác nhau để triển khai hệ thống. Chiến lược đầu tiên là yêu cầu LLM trích xuất giá trị trực tiếp từ các tài liệu. Chiến lược thứ hai là yêu cầu LLM tổng hợp mã code để thực hiện việc trích xuất. Nhóm đã đánh giá hai phương pháp này và tìm thấy sự phân bổ chi phí chất lượng giữa chúng. Trong khi tổng hợp mã code rẻ hơn, nó cũng không chính xác bằng việc xử lý trực tiếp mỗi tài liệu với LLM.
EVAPORATE xác định sự trùng lặp trên nhiều tài liệu và khai thác chúng để cải thiện hiệu quả. Nhóm đã sử dụng ví dụ về trích xuất thuộc tính phân loại thiết bị từ các báo cáo FDA cho các thiết bị y tế để minh họa điều này. Thay vì xử lý mỗi tài liệu bán cấu trúc với LLM, các tác giả khám phá việc sử dụng LLM để tạo ra các hàm có thể được sử dụng lại để trích xuất từ mọi tài liệu.
Để cải thiện chất lượng cũng như giảm chi phí, nhóm đã đề xuất một cài đặt tổng hợp mã mở rộng gọi là EVAPORATE-CODE. Phương pháp này tạo ra nhiều hàm ứng cử viên và tổ hợp trích xuất của chúng bằng giám sát yếu. Trong khi giám sát yếu thường được áp dụng cho các hàm được tạo bởi con người, EVAPORATE-CODE hoạt động với các hàm được tạo bởi máy và giải quyết các thách thức của cài đặt này để cho phép cải thiện chất lượng.
EVAPORATE đã được đánh giá trên 16 bộ tài liệu với định dạng, chủ đề và loại thuộc tính khác nhau. EVAPORATE-CODE vượt trội hơn các hệ thống SOTA bằng cách sử dụng một lần duyệt siêu tuyến tính qua các tài liệu với LLM, dẫn đến giảm 110 lần số lượng token LLM cần xử lý, áp dụng cho 16 cài đặt đánh giá của 10.000 tài liệu mỗi cài đặt.
Kết luận, báo cáo này trình bày một phương pháp hứa hẹn để tự động trích xuất bảng từ các tài liệu bán cấu trúc bằng LLM. Bằng cách xác định sự đánh đổi giữa trích xuất trực tiếp và tổng hợp mã và đề xuất một cài đặt mở rộng mang lại chất lượng tốt hơn trong khi giữ chi phí thấp, công trình này chắc chắn sẽ đóng góp vào cộng đồng quản lý dữ liệu.
Để biết thêm chi tiết, hãy truy cập Paper và Repo. Đừng quên tham gia 20k ML SubReddit của chúng tôi, Kênh Discord, và thư thông tin qua Email, nơi chúng tôi chia sẻ tin tức nghiên cứu AI mới nhất, các dự án AI thú vị và nhiều hơn nữa. Nếu bạn có bất kỳ câu hỏi nào về bài viết trên hoặc nếu chúng tôi đã bỏ sót điều gì đó, hãy gửi email cho chúng tôi tại [email protected]