Bởi Peter Grad, Tech Xplore

Một con chip trí tuệ nhân tạo analog 14nm hạng trong tay nhà nghiên cứu. Ảnh: Ryan Lavine cho IBM

Advances in AI, chips boost voice recognition

Các nghiên cứu độc lập về công nghệ nhận dạng giọng nói từ IBM và các trường đại học California tại San Francisco và Berkeley đều mang tin tức đáng mừng cho bệnh nhân mắc chứng liệt tiếng nói và mất khả năng nói chuyện.

IBM báo cáo việc tạo ra một con chip máy tính nhanh hơn và tiết kiệm năng lượng hơn, có khả năng tăng tốc đầu ra của mô hình nhận dạng giọng nói.

Với sự tăng trưởng mạnh mẽ của các mô hình ngôn ngữ lớn cho các dự án trí tuệ nhân tạo, những hạn chế về hiệu suất phần cứng dẫn đến thời gian đào tạo kéo dài và tiêu thụ năng lượng gia tăng đã được tiết lộ.

Về mặt tiêu thụ năng lượng, MIT Technology Review gần đây báo cáo rằng đào tạo một mô hình AI duy nhất tạo ra hơn 626.000 pounds khí CO2, gấp hơn năm lần lượng khí thải trung bình mà một chiếc ô tô Mỹ bình thường thải ra trong suốt tuổi thọ của nó.

Một yếu tố quan trọng phía sau việc tiêu thụ năng lượng lớn của các hoạt động trí tuệ nhân tạo là việc trao đổi dữ liệu đi lại giữa bộ nhớ và bộ xử lý.

Các nhà nghiên cứu của IBM đang tìm kiếm một giải pháp cho vấn đề này và nói rằng nguyên mẫu của họ tích hợp các thiết bị bộ nhớ thay đổi pha vào con chip, tối ưu hóa quá trình trí tuệ nhân tạo cơ bản được biết đến là các hoạt động tích lũy đa (MAC), giúp tăng tốc hoạt động của chip. Điều này bỏ qua quá trình truyền dữ liệu giữa bộ nhớ và bộ xử lý mất thời gian và năng lượng.

"Đây là, theo kiến thức của chúng tôi, những bằng chứng đầu tiên về mức độ chính xác liên quan đến mô hình có tính thương mại trên mô hình có tính thương mại," Stefano Ambrogia của IBM nói trong một nghiên cứu được công bố vào ngày 23 tháng 8 trên tạp chí Nature trực tuyến.

Con chip trí tuệ nhân tạo analog 14nm trên bảng kiểm tra. Ảnh: Ryan Lavine cho IBM

Advances in AI, chips boost voice recognition

"Công việc của chúng tôi cho thấy rằng, khi kết hợp với thiết kế hiệu quả về thời gian, diện tích và năng lượng của việc tích hợp tính năng tính toán phụ vào con chip, hiệu suất năng lượng cao và khả năng xử lý mà chúng tôi đạt được... có thể được mở rộng cho toàn bộ hệ thống trí tuệ nhân tạo analog," ông nói.

Trong các hoạt động nhận dạng giọng nói tốn nhiều xử lý, nguyên mẫu của IBM đã đạt được 12,4 nghìn tỷ hoạt động mỗi giây trên mỗi watt, một mức hiệu suất lên đến hàng trăm lần tốt hơn so với những CPU và GPU mạnh nhất hiện sử dụng.

Trong khi đó, các nhà nghiên cứu tại Đại học California, San Francisco và Đại học California, Berkeley cho biết họ đã phát triển một giao diện trí não - máy tính cho những người mất khả năng nói chuyện nhằm tạo ra từng từ từ suy nghĩ và cố gắng phát âm của người sử dụng.

Edward Chang, chủ tịch khoa ngoại thuật não học tại Đại học California, San Francisco, nói: "Mục tiêu của chúng tôi là khôi phục một cách trò chuyện đầy đủ và toàn diện, đó là cách tự nhiên nhất để chúng ta trò chuyện với người khác."

Chang và nhóm của ông đã cấy ghép hai cảm biến nhỏ trên bề mặt của não của một phụ nữ mắc chứng liệt tiếng nói và tổn thương tiến triển chậm do thoái hóa tiến trình thần kinh.

Mặc dù người dùng vẫn có thể phát âm, ALS hạn chế việc sử dụng môi, lưỡi và thanh giọng để diễn đạt những từ ngữ có ý nghĩa.

Các cảm biến được kết nối thông qua giao diện não-máy tính đến các máy tính chứa phần mềm giải mã ngôn ngữ.

Đĩa có đường kính 300mm được sử dụng để sản xuất chip trí tuệ nhân tạo. Ảnh: Ryan Lavine cho IBM.

Người phụ nữ đã trải qua 25 phiên huấn luyện kéo dài 4 giờ mỗi phiên, trong đó cô ấy đọc các bộ câu từ 260 đến 480 câu. Hoạt động não của cô ấy trong quá trình đọc đã được giải mã bởi bộ giải mã, phát hiện các nguyên âm và ghép chúng thành từ ngữ.

Advances in AI, chips boost voice recognition

Sau đó, các nhà nghiên cứu đã tổng hợp giọng nói của cô ấy, dựa trên một bản ghi của cô ấy nói chuyện tại một đám cưới nhiều năm trước đây, và thiết kế một "avatar" phản ánh các chuyển động khuôn mặt của cô ấy.

Kết quả rất đáng hứa hẹn.

Sau bốn tháng huấn luyện, mô hình đã có thể theo dõi những âm thanh cố gắng phát âm của chủ thể và chuyển đổi chúng thành từ ngữ rõ ràng.

Khi dựa trên từ vựng huấn luyện với 125.000 từ, bao gồm gần như mọi thứ mà chủ thể muốn nói, tỷ lệ chính xác đạt 76%.

Khi từ vựng bị giới hạn chỉ trong 50 từ, hệ thống dịch đã hoạt động tốt hơn, xác định chính xác câu nói của cô ấy 90% trong thời gian.

Hơn nữa, hệ thống có thể dịch ngôn ngữ - chuỗi hiệu sách của chủ thể với tốc độ 62 từ mỗi phút. Mặc dù gấp ba lần so với tốc độ nhận dạng từ trước trong các thí nghiệm tương tự, các nhà nghiên cứu nhận thức rằng cần cải thiện để đạt đến tốc độ 160 từ mỗi phút của ngôn ngữ tự nhiên.

"Đây là một lý thuyết khái niệm khoa học, không phải là thiết bị thực sự mà mọi người có thể sử dụng trong cuộc sống hàng ngày," nói Frank Willett, đồng tác giả của nghiên cứu được đăng ngày 23 tháng 8 trên Tạp chí Nature. "Tuy nhiên, đây là một tiến bộ lớn trong việc khôi phục giao tiếp nhanh chóng cho những người bị tê liệt không thể nói."

Thêm thông tin: S. Ambrogio et al, Một con chip AI tương tự cho nhận dạng và chuyển văn bản tiết kiệm năng lượng, Nature (2023). DOI: 10.1038/s41586-023-06337-5

Hechen Wang, Chip tương tự mở đường cho trí tuệ nhân tạo bền vững, Nature (2023). DOI: 10.1038/d41586-023-02569-7

Thông tin tạp chí: Nature © 2023 Science X Network