Trí thông minh nhân tạo đã phủ sóng lên trung tâm dữ liệu, buộc các công ty phải suy nghĩ lại cân bằng giữa tính toán, lưu trữ và mạng. Chính xác hơn, nó đã đẩy cân bằng của ba yếu tố này như chúng ta đã biết điện toán trung tâm hoàn toàn lộn xộn. Có vẻ như đột nhiên tất cả các đường cong nhu cầu đã trở nên cực kỳ tăng trưởng.
Chúng tôi muốn có được một cảm giác về cách AI đang đẩy kiến trúc mạng và đã có cuộc trò chuyện về điều này với Noam Mizrahi, giám đốc công nghệ của hãng Marvell. Mizrahi bắt đầu sự nghiệp của mình tại Marvell và ngoại trừ một thời gian làm việc tại Intel vào năm 2013 về định nghĩa sản phẩm và chiến lược cho CPU trong tương lai, anh ấy đã dành cả sự nghiệp của mình để thiết kế chip tại Marvell, bắt đầu với các giao diện CPU trên các bộ điều khiển PowerPC và MIPS khác nhau, cuối cùng trở thành một kiến trúc sư cho dòng điều khiển và sau đó là kiến trúc sư trưởng cho các thiết kế hệ thống dựa trên ArmadaXP Arm-based system on chip của hãng. Mizrahi được đặt làm Technology Fellow vào năm 2017 và Senior Fellow và CTO cho toàn bộ công ty vào năm 2020, đúng lúc đại dịch coronavirus đang đóng cửa thế giới.
Để cảm nhận tỷ lệ của những gì chúng ta đang nói đến, nền tảng GPT 4 được đào tạo bởi Microsoft và OpenAI trên một cụm máy chủ hình nón lên đến 10.000 GPU Nvidia "Ampere" A100 và 2.500 CPU, và tin đồn đồn đoán rằng GPT 5 sẽ được đào tạo trên một cụm máy chủ hình nón lên đến 25.000 GPU "Hopper" H100 - có thể có 3.125 CPU trên bộ xử lý máy chủ của họ và với GPU đưa ra khoảng 3X hiệu năng tính toán tại độ chính xác FP16 và lên đến 6X nếu bạn cắt độ phân giải của dữ liệu xuống đến độ chính xác FP8. Đó là một yếu tố tăng hiệu suất hiệu quả 15X giữa GPT 4 và GPT 5.
Các thiết lập này tuyệt đối đạt tới quy mô của các máy tính siêu tổ hợp exascale được xây dựng tại Mỹ, châu Âu và Trung Quốc.
Trong khi Nvidia sử dụng các cổng NVLink tốc độ cao trên GPU và các chip chuyển mạch bộ nhớ NVSwitch để nối chặt tám GPU Ampere hoặc Hopper trên các bo mạch hệ thống HGX với nhau, và đã tạo ra một mạng NVSwitch leaf / spine có thể kết nối cho đến 256 GPU vào một hình ảnh hệ thống duy nhất, việc mở rộng kết nối bộ nhớ GPU đó lên hai bậc vẫn chưa thực tế. Và, chúng tôi giả định, nhu cầu quy mô sẽ còn lớn hơn khi các thông số và số lượng mã thông báo GPT tiếp tục tăng để đào tạo mô hình ngôn ngữ lớn.
Kích thước vật lý của các cụm GPU hiện tại và tương lai và nhu cầu độ trễ thấp của chúng có nghĩa là phải tìm cách thực hiện kết nối quang học. Vậy, liệu Marvell có tạo ra cái gì đó giống như các công tắc quang học "Apollo" nằm ở trung tâm của các cụm TPUv4 do Google tạo ra không? Liệu họ có cách khác để thực hiện điều gì đó không quá đột phá nhưng vẫn mang lại các kết quả cần thiết cho việc đào tạo AI? Và nhu cầu về cơ sở hạ tầng phân tán và có thể tháo rời sẽ phù hợp với điều này như một lợi ích phụ có thể đến từ việc chuyển sang chuyển mạch và kết nối quang học. Và CXL protocol có nằm trong tất cả những điều này không?
Tìm hiểu bằng cách xem cuộc phỏng vấn phía trên.
Để xem những nội dung mới nhất, phân tích và câu chuyện trong tuần trực tiếp từ chúng tôi tới hộp thư đến của bạn mà không có gì ở giữa. Hãy đăng ký ngay bây giờ.