Một vi mạch trí tuệ nhân tạo từ IBM tiêu thụ năng lượng hiệu quả hơn gấp nhiều lần so với các vi mạch thông thường trong việc nhận dạng giọng nói. Nhiều hệ thống trí tuệ nhân tạo gây tranh cãi, bao gồm ChatGPT và các mô hình ngôn ngữ lớn khác, cũng như trí tuệ nhân tạo tạo ra video và hình ảnh, có thể được hưởng lợi từ thiết bị này.
Theo IBM, độ chính xác của việc ghi âm tự động đã được cải thiện đáng kể trong thập kỷ qua nhờ vào trí tuệ nhân tạo. Tuy nhiên, phần cứng được sử dụng để huấn luyện và vận hành các hệ thống trí tuệ nhân tạo này và các hệ thống khác đã trở nên đắt đỏ và tốn năng lượng hơn. Để huấn luyện mô hình trí tuệ nhân tạo tiên tiến nhất của mình, GPT-3 của OpenAI đã chi khoảng 4,6 triệu đô la Mỹ để chạy 9.200 GPU trong hai tuần.
Một rào cản quan trọng là sự lãng phí năng lượng và thời gian trong việc chuyển dữ liệu lớn giữa bộ xử lý và bộ nhớ. Theo Hechen Wang, một nhà nghiên cứu khoa học tại Intel Labs ở Hillsboro, Oregon, người không tham gia vào nghiên cứu mới, năng lượng tiêu thụ điều đó có thể là ba đến 10.000 lần so với lượng tính toán thực tế.
Phần cứng bắt chước não giống như sự mô phỏng cách các tế bào học tính toán và lưu trữ dữ liệu trong hệ thống thần kinh sinh học. Ví dụ, vi mạch nhân tạo tương tự hoạt động tính toán trong bộ nhớ.
Các mô phỏng trước đây từ IBM cho thấy rằng vi mạch nhân tạo tương tự có thể tiết kiệm năng lượng gấp 40 đến 140 lần so với GPU tốt nhất cho ứng dụng trí tuệ nhân tạo. Tuy nhiên, viết thực tế cho những ước tính này chưa được có cho tới bây giờ.
Trong nghiên cứu mới, các nhà nghiên cứu của IBM đã thử nghiệm với bộ nhớ chuyển đổi giai đoạn. Thiết bị này dựa trên một vật liệu khi bị đập bằng xung điện, không chỉ có thể chuyển đổi giữa các giai đoạn không có cơ cấu và hình thức tinh thể như các dòng điện tử kỹ thuật số như 1 và 0, mà cũng có thể là các giai đoạn giữa các giá trị này. Điều này có nghĩa là bộ nhớ chuyển đổi giai đoạn có thể mã hóa kết quả của các hoạt động nhân tích (MAC) - phép tính cơ bản nhất trong các mạng nơ-ron sâu đang thúc đẩy sự bùng nổ hiện tại trong lĩnh vực trí tuệ nhân tạo - chỉ sử dụng một vài trở kháng hoặc điện dung trong bộ nhớ. Các phương pháp thông thường sử dụng hàng trăm hoặc hàng nghìn bóng bảo vệ.
Các nhà nghiên cứu đã tạo ra một vi mạch nhỏ 14 nanomet được tải bằng 35 triệu ô nhớ chuyển đổi giai đoạn qua 34 viên gạch. Tổng cộng, thiết bị có thể thực hiện lên đến 12.4 nghìn tỷ hoạt động mỗi giây mỗi watt, một hiệu suất năng lượng gấp hàng chục hoặc thậm chí hàng trăm lần so với CPU và GPU mạnh nhất hiện có.
Các nhà khoa học đã sử dụng hai chương trình mạng nơ-ron nhận dạng giọng nói để kiểm tra tính linh hoạt của thiết bị của họ. Một hệ thống nhỏ, Google Speech Commands, được sử dụng để phát hiện từ khóa cho các lệnh giọng nói, một nhiệm vụ mà tốc độ có thể là rất quan trọng. Một hệ thống lớn, Librispeech, được sử dụng để chuyển ghi lời nói thành văn bản, nơi khả năng phân tích dữ liệu lớn một cách hiệu quả có thể là rất quan trọng nhất. Họ đã phát hiện ra rằng thiết bị của họ hoạt động chính xác như mạng nơ-ron chạy trên phần cứng thông thường, trong khi thực hiện công việc nhanh gấp bảy lần cho trường hợp Google Speech Commands và tiết kiệm năng lượng gấp 14 lần cho trường hợp Librispeech.
Wang từ Laboratoires Intel lưu ý rằng vi mạch nhỏ mới này có thể hỗ trợ transformers, loại mạng nơ-ron hiện tại đằng sau các mô hình ngôn ngữ lớn (LLMs) hiện nay đang làm nên sức mạnh của các trợ lý trò chuyện như ChatGPT. ChatGPT, một phiên bản được tăng cường của tính năng tự động hoàn thiện từ mà điện thoại thông minh sử dụng để dự đoán phần còn lại của từ mà người dùng đang gõ, đã vượt qua các kỳ thi đại học và học viện luật, thành công trong việc trả lời câu hỏi phỏng vấn cho các công việc lập trình phần mềm, viết các thông tin bất động sản và phát triển nội dung quảng cáo.
Wang cho hay transformes cũng là khối xây dựng chính của trí tuệ nhân tạo phát sinh. Các hệ thống trí tuệ nhân tạo sinh sản như Stable Diffusion, Midjourney, và DALL-E đã được nhiều người yêu thích vì nghệ thuật mà chúng tạo ra. Vi mạch mới này "có tiềm năng giảm đáng kể công suất và chi phí của LLMs và trí tuệ nhân tạo sinh sản", Wang nói.
Tuy nhiên, LLMs và trí tuệ nhân tạo sinh sản cũng đã gây ra những trận bão của phê phán. Ví dụ, ChatGPT đã hiển thị nhiều nhược điểm, chẳng hạn viết các bài viết sai sót nhiều, và trí tuệ nhân tạo sinh sản đang gặp phải tranh cãi về tác động của nó đối với quyền sở hữu trí tuệ. (IBM từ chối bình luận cho câu truyện này.)
Ngoài ra, vi mạch mới không bao gồm tất cả các thành phần cần thiết để xử lý dữ liệu được cung cấp cho nó. "Do đó, hiệu suất của nó bị giới hạn bởi việc giao tiếp giữa các vi mạch và các thành phần ngoại vi", Wang nói.
Wang cho rằng còn năm bước nữa để đi đến trí tuệ nhân tạo tương tự thương mại. Những gì cần thiết là vi mạch mới vượt ra khỏi hoạt động của mạch MAC, để giảm sự phụ thuộc vào vi mạch kỹ thuật số; kiến trúc lai analog-đa số, để xử lý các tính toán mà các thiết bị analog không thể thực hiện; trình biên dịch tùy chỉnh có thể ánh xạ tác vụ một cách hiệu quả vào phần cứng có sẵn, để tối đa hóa hiệu suất; thuật toán tùy chỉnh tối ưu hóa cho lỗi mà tính toán analog thường gặp phải; và các ứng dụng được tối ưu hóa cho vi mạch analog.
Cuối cùng, trí tuệ nhân tạo tự nhiên "vẫn đang ở giai đoạn sơ khai và việc phát triển nó sẽ là một hành trình dài", Wang nói.
Các nhà khoa học của IBM đã chi tiết các phát hiện của họ trực tuyến vào ngày 23 tháng 8 trong tạp chí Nature.