Một bài báo mới từ Đại học Tsinghua, Trung Quốc, mô tả về việc phát triển và vận hành một vi mạch xử lý trí tuệ nhân tạo (AI) siêu nhanh và hiệu quả cao đặc biệt dành cho các nhiệm vụ thị giác máy tính. Vi mạch All-analog Chip Combining Electronic and Light Computing (ACCEL), được gọi là vi mạch này, tận dụng việc tính toán quang và analog trong một kiến trúc đặc biệt có khả năng cung cấp hiệu suất hơn 3.000 lần so với Nvidia A100 với lượng tiêu thụ năng lượng thấp hơn 4 triệu lần. Vâng, đó là một vi mạch chuyên dụng - nhưng thay vì coi nó là sự phân mảnh thị trường, chúng ta có thể coi nó là một bước tiến khác hướng đến tương lai của vi tính không đồng nhất, nơi bán dẫn được thiết kế ngày càng nhiều để phù hợp với nhu cầu cụ thể thay vì cấu hình "tất cả trong một".

Theo công bố trong Nature, ACCEL được trích dẫn có tới 4,6 ngàn tỷ phép tính mỗi giây trong các nhiệm vụ thị giác - do đó có cải tiến hiệu suất 3.000 lần so với A100 (Ampere) của Nvidia và 0,312 ngàn tỷ phép tính. Theo bài báo nghiên cứu, ACCEL có thể thực hiện 74,8 ngàn tỷ phép tính mỗi giây với công suất 1 W (người nghiên cứu gọi là "hiệu suất năng lượng toàn hệ thống") và tốc độ tính toán 4,6 peta-phép tính mỗi giây. A100 của Nvidia đã được thay thế bằng Hopper và vi mạch siêu chip H100 với 80 tỷ transistor, nhưng ngay cả điều đó cũng không thể so sánh với kết quả này.

Tất nhiên, tốc độ là điều cần thiết trong bất kỳ hệ thống xử lý nào. Tuy nhiên, tính chính xác cũng là yếu tố cần thiết cho các nhiệm vụ thị giác máy tính. Sau tất cả, sự ứng dụng và các cách mà các hệ thống này được sử dụng để quản lý cuộc sống và nền văn minh của chúng ta rất đa dạng: từ thị trường thiết bị đeo được (có thể trong kịch bản XR) thông qua lái xe tự động, kiểm tra công nghiệp và các hệ thống nhận dạng và phát hiện hình ảnh khác nhau chung, chẳng hạn như nhận dạng khuôn mặt. Theo bài báo của Đại học Tsinghua, ACCEL đã được thử nghiệm thực nghiệm với Fashion-MNIST, phân loại ImageNet 3 lớp và nhiệm vụ nhận dạng video theo thời gian với mức độ chính xác "cạnh tranh cao" (tương ứng là 85,5%, 82,0% và 92,6%), đồng thời hiển thị khả năng chống chịu hệ thống vượt trội trong điều kiện ánh sáng yếu (0,14 fJ μm−2 trên mỗi khung hình).

a, Quá trình làm việc của phép tính quang điện truyền thống, bao gồm mảng photodiode và ADC quy mô lớn. b, Quá trình làm việc của ACCEL. Một mô-đun tính toán quang phân tán xử lý hình ảnh đầu vào trong miền quang để trích xuất đặc trưng và trường ánh sáng đầu ra của nó được sử dụng để tạo ra dòng điện quang trực tiếp bởi mảng photodiode cho tính toán điện tử tương tự. EAC tạo ra xung tuần tự tương ứng với nhiều nút đầu ra của mạng tương đương. Các trọng số nhị phân trong EAC được cấu hình lại trong mỗi xung bởi SRAM bằng cách chuyển kết nối của các photodiode sang các dòng V hoặc V-. Bộ so sánh đầu ra xung với điện áp lớn nhất là kết quả dự đoán của ACCEL. c, Sơ đồ của ACCEL với một OAC được tích hợp trực tiếp phía trước mạch EAC để xử lý tốc độ cao, tiết kiệm năng lượng cho các nhiệm vụ thị giác. MZI, máy giao thoa Mach-Zehnder; D2NN, mạng nơ-ron sâu phân tán" (Image credit: Tsinghua University/Nature)Trong trường hợp ACCEL, kiến trúc của Tsinghua hoạt động thông qua tính toán tương tự quang phân tán (OAC) được hỗ trợ bởi tính toán tương tự điện tử (EAC) với khả năng mở rộng, phi tuyến và linh hoạt trên một chip - nhưng 99% hoạt động của nó được thực hiện trong hệ thống quang. Theo bài báo, điều này giúp đấu tranh với các ràng buộc được tìm thấy trong các kiến trúc thị giác khác như máy giao thoa Mach-Zehnder và mạng nơ-ron sâu phân tán (DNN).

Diagrams on ACCEL

Con số 99% này là thông tin đáng chú ý ít nhất để giải thích sự chênh lệch về hiệu suất năng lượng giữa ACCEL và các phương pháp không tương tự tương tự: GPU của Nvidia là 100% kỹ thuật số, có nghĩa là hoạt động của nó dựa trên luồng liên tục của electron (và sản sinh nhiệt thải như kết quả).

Một hệ thống quang điện tử, quang học, tuy nhiên, tận dụng cách thức truyền, vận hành và mã hóa thông tin không phải điện. Điều này có thể được thực hiện thông qua các xung laser tại các bước sóng cụ thể (chúng tôi đã nghiên cứu điều này trong bài viết gần đây của chúng tôi về hệ thống vệ tinh phân phối Khóa Quantum [QKD] của Trung Quốc, cũng dựa trên quang học) được sử dụng để trích xuất và truyền các đặc trưng của dữ liệu hình ảnh (một hình ảnh) và thao tác ánh sáng đó (thay đổi nó) hầu như duy trì khi truyền qua

Kết quả của hệ thống xử lý quang học này là giảm yêu cầu năng lượng và sự lãng phí của electron trong hiệu năng nhiệt. Loại bỏ chi phí năng lượng cao và độ trễ của bộ chuyển đổi tương tự-số (Analog-to-Digital Converters) đóng vai trò quan trọng trong việc cải thiện hiệu suất do quang học giải phóng. Đó cũng là lý do tại sao các hệ thống quang học được sử dụng trong các cài đặt về máy tính lượng tử và HPC (Tính toán Hiệu năng Cao).

Cùng một lúc, chúng tôi thu được lợi ích về tốc độ từ việc di chuyển khỏi quá trình di chuyển gọn gàng nhưng lộn xộn của điện tử qua các bán dẫn và mở khóa tốc độ hoạt động chỉ bị giới hạn bởi ánh sáng chính. Kết quả, bài báo nghiên cứu khẳng định rằng các thử nghiệm nội bộ của vi mạch đã cho thấy độ trễ tính toán thấp của mỗi khung hình tại 72ns - tạo ra một lưu lượng xử lý ước tính khoảng 13.000 khung hình được tạo ra mỗi giây, hơn đủ để làm mất khả năng theo dõi thực tế của bất kỳ người chơi Doom nào. Dường như cũng sẽ có đủ khung hình cho một bộ xử lý phụ để phân tích một số hình ảnh trong bất kỳ nhiệm vụ thị giác tính toán nào. Có vẻ như việc xử lý học sâu các hình ảnh này thông qua ACCEL sẽ không trở thành điểm nghẽn."

"

a, Nguyên tắc của OAC để trích xuất đặc trưng của hình ảnh quy mô lớn. b, Những ví dụ mô phỏng về xử lý OAC

Diagrams on ACCEL

OAC mã hóa đầu vào gốc kích thước 28x28 thành các đặc trưng kích thước 4x4. Một mạng nơ-ron kết nối đầy đủ gồm ba lớp (Bảng bổ sung) tái tạo hình ảnh với các đặc trưng đầu ra từ OAC. c. Chỉ số tương đồng cấu trúc SSIM (structural similarity index) của kết quả tái tạo với đầu ra OAC dưới các tỷ lệ nén khác nhau được thu được thông qua mô phỏng số trên tập dữ liệu MNIST. Các ví dụ về hình ảnh tái tạo tương ứng với các tỷ lệ nén khác nhau được hiển thị ở góc. Tỷ lệ nén là tỷ lệ giữa số chiều của đầu ra OAC và số chiều của hình ảnh gốc. Hình ảnh ví dụ cho đầu vào gốc được thích nghi từ tập dữ liệu MNIST với sự cho phép. d. Độ chính xác phân loại bằng cách sử dụng đầu ra OAC như đầu vào được kết nối đến mạng nơ-ron kết nối đầy đủ gồm ba lớp (Bảng bổ sung) dưới các tỷ lệ nén khác nhau của OAC thu được thông qua mô phỏng số. Kích thước pixel của mặt nạ giai đoạn trong OAC là 3 µm và khoảng cách giao thoa là 3 mm. Số lượng điểm nơ-ron trong OAC là 500x500. Đường nét đứt màu đỏ là độ chính xác phân loại của mạng nơ-ron số dùng hình ảnh gốc mà không có OAC làm đầu vào. e. Hình ảnh vi mạch EAC. Thước đo, 500 μm. Vi mạch bao gồm một mảng 32x32 fotodiode, hai mô-đun bù công suất là P-CCM và N-CCM, mô-đun đầu ra điện áp và SRAM I/O và bộ điều khiển ngoại vi. f. Cấu trúc của mô-đun bù công suất. g. Cấu trúc của mảng EAC. h. Cấu trúc mạch phóng đại được phóng to của mỗi điểm ảnh. a.u., đơn vị tùy ý; Max., tối đa; Min., tối thiểu; Int., độ sáng; PD, fotodiode. (Image credit: Đại học Tsinghua/Nature) ACCEL có vẻ như là một phiên bản tương tự của một thiết kế Mạch tích hợp Đặc thù Ứng dụng (ASIC). Đó chính xác là vai trò của đơn vị tính toán tương tự điện tử (EAC), vì nó có thể tổ chức lại các đường dẫn tương tự bên trong để tăng tốc các nhiệm vụ cụ thể. Hãy tưởng tượng chúng như là các thuật toán được lập trình sẵn trong vi mạch, với EAC điều phối xem cấu hình nào sẽ được áp dụng cho nhiệm vụ nào.

Tiến sĩ Dai Qionghai, một trong những cộng tác viên chính của đội nghiên cứu, cho biết: "Phát triển một kiến trúc máy tính mới cho thời đại trí tuệ nhân tạo là một thành tựu đỉnh cao. Tuy nhiên, thách thức quan trọng hơn là đưa kiến trúc mới này vào ứng dụng thực tế, giải quyết các nhu cầu quốc gia và công cộng quan trọng, điều này là trách nhiệm của chúng tôi."

Chip ACCEL mới, với công nghệ liên quang và tương tự, có thể gợi nhớ đến thông báo gần đây của IBM về một con chip gia tốc trí tuệ nhân tạo khác (Hermes). Có thể thú vị khi chứng kiến rằng, ngay cả khi Trung Quốc đang phải đối mặt với tất cả các biện pháp trừng phạt, nghiên cứu và phát triển của đất nước này vẫn cho phép họ bắt kịp - và theo một số cách, có vẻ như cải thiện - những gì đã bị họ trì hoãn trước đó. Sự sáng tạo - khả năng vượt qua hạn chế - chắc chắn là cách Trung Quốc đang nghĩ về biện pháp trừng phạt.

Cũng quan trọng phải hiểu rằng, thế hệ chip tương tự được xây dựng trên công nghệ quang và tương tự đang được phát triển ở mức độ lithography rất thấp. Chẳng hạn, chip ACCEL được sản xuất trên công nghệ CMOS tiêu chuẩn 180 nm cho đơn vị Tính toán Tương tự Điện tử (EAC) - bộ não của hoạt động. Tự nhiên, cải tiến hiệu suất, tần số xung và hiệu quả có thể đạt được thông qua việc thu nhỏ quy trình đến các node CMOS thấp hơn nữa (H100 của Nvidia được chế tạo trên quy trình 4 nm). Hiện chưa rõ công việc nào có thể được tiếp tục để thu nhỏ mô-đun Tính toán Tương tự Quang học (OAC).

Có vẻ như việc triển khai hệ thống tính toán tương tự như ACCEL ở quy mô lớn hơn là một vấn đề về công suất sản xuất và sự thích ứng của công nghiệp hơn là vấn đề về khả năng vật lý. Nhưng có một lý do mà những con chip tương tự trí tuệ nhân tạo có hiệu suất cao vẫn chưa được triển khai ở quy mô lớn: hiện tại, quá trình sản xuất của chúng vẫn quá thấp để phục vụ những nỗ lực nghiên cứu và công việc nguyên mẫu. Hiện nay, chúng ta không có khả năng sản xuất và công suất khả dụng để thêm những con chip này vào những cam kết sản xuất đã được đưa ra đến năm 2025 tại các công ty như TSMC - nhưng những kết quả thử nghiệm này luôn được yêu cầu trước khi cam kết với việc mở rộng bất cứ điều gì. Và thị trường dành cho những con chip như thế này rất muốn có chúng. Cuối cùng, tất cả đều là vấn đề của kế hoạch, chi tiêu và thời gian.

Tham gia cùng các chuyên gia đọc Tom's Hardware để hiểu rõ về tin tức công nghệ PC chuyên sâu - đã làm như vậy suốt hơn 25 năm qua. Chúng tôi sẽ gửi tin tức nhanh chóng và những bài đánh giá chuyên sâu về CPU, GPU, trí tuệ nhân tạo, phần cứng thiết bị và nhiều hơn nữa trực tiếp vào hộp thư đến của bạn.