Công ty khởi nghiệp trong lĩnh vực học máy, Lamini, đã tiết lộ nền tảng điều chỉnh mô hình ngôn ngữ lớn (LLM) của mình đang chạy "độc quyền" trên thành phần vi mạch của The House of Zen.

Sau khi rời khỏi chế độ ẩn danh vào đầu năm nay, Lamini muốn giúp các doanh nghiệp xây dựng và vận hành các sản phẩm trí tuệ nhân tạo tự tạo bằng cách điều chỉnh các mô hình cơ bản hiện có - có thể kể đến GPT3 của OpenAI hoặc Llama 2 của Meta - dựa trên bộ dữ liệu nội bộ của họ.

Nếu điều này nghe quen quen, đó là vì bạn có thể đã thấy các dịch vụ tương tự từ các công ty như IBM với Watson-X. Tuy nhiên, điểm đặc biệt của Lamini nằm ở sự lựa chọn phần cứng. Trong khi hầu hết các cụm trí tuệ nhân tạo lớn mà chúng tôi đã thấy triển khai bởi Google, Meta, Microsoft và các công ty khác đều sử dụng Nvidia A100s hoặc H100s, Lamini đã chọn độc quyền sử dụng GPU Instinct của AMD.

Lamini khẳng định rằng nền tảng của họ, đã thu hút sự quan tâm từ Amazon, Walmart, eBay, GitLab và Adobe, chỉ chạy trên "hơn 100 GPU AMD trong suốt cả năm" và có thể mở rộng lên "hàng ngàn GPU MI".

GPU Instinct MI250X của AMD là trái tim của một số siêu máy tính mạnh nhất trên thế giới, bao gồm cả siêu máy tính Frontier với hiệu năng 1.1 exaflop nổi bật nhưng MI chưa được nhận xét như các con chip của Nvidia.

Trong tương lai, AMD hy vọng thu hút mọi người vào câu chuyện tăng tốc của họ. "Đây là ưu tiên chiến lược số một của chúng tôi và chúng tôi đang tiến sâu vào việc tương tác với khách hàng để mang đến các giải pháp chung cho thị trường", CEO Lisa Su nói trong cuộc gọi với các nhà phân tích Wall Street vào đầu năm nay.

Trong cuộc gọi công bố lợi nhuận quý 2 của AMD trong tháng trước, Su khoe rằng từ sự kiện trung tâm dữ liệu của hãng vào tháng 6, số lượng khách hàng tham gia trí tuệ nhân tạo đã tăng gấp bảy lần. "Rõ ràng rằng trí tuệ nhân tạo đại diện cho cơ hội tăng trưởng tỷ đô cho AMD," bà nhận xét. "Chỉ riêng trong lĩnh vực trung tâm dữ liệu, chúng tôi dự đoán thị trường máy tăng tốc trí tuệ nhân tạo sẽ đạt hơn 150 tỷ đô vào năm 2027."

Dòng nước này có thể chỉ đơn giản là sự cân bằng giữa cung cấp và cầu hỏi. Ít nhất đối với Lamini, một trong những điểm bán chính sau các phần cứng của AMD là khách hàng sẽ không phải chờ mòn mỏi để nhận được GPU. "Bạn có thể ngừng lo lắng về thời gian chờ 52 tuần để có Nvidia H100s," công ty nói đùa trong một bài viết trên blog.

Thách thức về hệ sinh thái của AMD

Tuy nhiên, chip không thể tiến xa một mình mà không có phần mềm chạy trên nó. Đây là một trong những thách thức mà chủ tịch AMD, Victor Peng đã làm việc trong vòng một năm qua với Bộ công cụ AI thống nhất của công ty. Mục tiêu của dự án này là phát triển một khung phần mềm chung để chạy các công việc suy luận trên danh mục ngày càng lớn của phần cứng AI của AMD, bao gồm CPUs, GPU Instinct và FPGA Xilinx.

Nhà sản xuất chip cũng đã làm việc với PyTorch - một framework học sâu phổ biến - để hỗ trợ ROCm stack phần mềm sử dụng bởi GPU Instinct của nó. Và vào tháng 6, công ty đã yêu cầu sự giúp đỡ của Hugging Face để tối ưu hóa các mô hình trí tuệ nhân tạo mã nguồn mở để chạy trên chip của mình.

Đối tác với Lamini là nỗ lực hệ sinh thái mới nhất của AMD để làm cho việc phát triển cho bộ gia tăng Instinct của họ và thời gian chạy ROCm trở nên dễ dàng hơn. Công ty khởi nghiệp tuyên bố rằng việc sử dụng phần mềm của nó, thời gian chạy ROCm của AMD đạt được tính khả dụng phần mềm tương đương với CUDA của Nvidia, ít nhất đối với các mô hình ngôn ngữ lớn.

Xây dựng một hệ sinh thái phần mềm AI mạnh mẽ nhằm thách thức Nvidia không chỉ là cuộc chiến của AMD. Tuần trước, Intel nhấn mạnh công việc mà họ đã làm để thúc đẩy sự áp dụng của các framework phần mềm oneAPI và OpenVINO sử dụng bởi vi xử lý của họ, và Giám đốc Công nghệ của công ty, Greg Lavender, thậm chí đã thách thức các nhà phát triển sử dụng trí tuệ nhân tạo để chuyển mã CUDA kế thừa sang chạy trên nền tảng chạy SYCL đa nền tảng của họ.

Phần cứng nhanh hơn đang đến

Các bộ gia tăng Instinct MI200 được sử dụng trong hệ thống của Lamini, gọi là LLM Superstations, đã được giới thiệu vào cuối năm 2021 và tốt từ 181 đến 383 TFLOPs của FP16 tùy thuộc vào hình dạng của nó.

Tuy nhiên, khách hàng của AMD sẽ không phải chờ lâu để sở hữu một vi xử lý mạnh mẽ hơn rất nhiều.

Các bộ gia tốc thế hệ tiếp theo Instinct MI300-series của AMD dự kiến sẽ ra mắt vào cuối năm nay, và hứa hẹn mang đến hiệu suất AI nhanh hơn gấp 8 lần, đồng thời đạt được hiệu suất trên mỗi watt tốt hơn gấp 5 lần. Dựa trên những khẳng định này, trang web anh em của chúng tôi The Next Platform đưa ra ước tính rằng chip sẽ mang đến khoảng 3 petaFLOPS hiệu suất FP8 hoặc 1.5 petaFLOPS hiệu suất FP16.

Phiên bản đầu tiên trong số này, gọi là MI300A - với "A" đại diện cho APU - ghép 24 lõi Zen 4 với sáu khối GPU CDNA 3 và lên đến 128GB bộ nhớ cao băng thông thế hệ thứ ba (HBM3). Chip này, đã được gửi mẫu cho khách hàng, được dự định sẽ làm việc trong siêu máy tính El Capitan sắp tới của Lawrence Livermore National Laboratory.

Phiên bản chỉ có GPU của chip, gọi là MI300X, bỏ bỏ đi lõi CPU để cung cấp thêm hai khối GPU và tăng khối lượng bộ nhớ HBM3 lên 192GB — nhiều hơn gấp đôi so với con chip đầu bảng H100 của Nvidia. Giống như các bộ gia tốc Instinct trước đó, tối đa tám GPU này có thể được kết nối với nhau bằng cách sử dụng "Kiến trúc Vô tận" của AMD.

Theo AMD, chúng ta có thể mong đợi thấy các chip này bắt đầu xuất hiện trên thị trường trong quý này. ®

NHẬN NGAY CÁC CÔNG NGHỆ MỚI CỦA CHÚNG TÔI