Bản phát hành đầu tiên của AI Stability, mô hình chuyển văn bản thành hình ảnh Stable Diffusion (thử nghiệm này viết tốt hơn hoặc ngang bằng phiên bản đóng như Google Imagen và DALL-E của OpenAI), không chỉ miễn phí mà còn có thể chạy trên máy tính đơn giản. Stable Diffusion làm nhiều hơn bất kỳ mô hình nào khác để kích hoạt sự phát triển mã nguồn mở xung quanh AI tạo hình ảnh năm ngoái.
Tuy nhiên lần này, Mostaque muốn kiểm soát mong đợi: StableLM không gần bằng GPT-4. "Có rất nhiều công việc cần được thực hiện", ông nói. "Điều này không giống như Stable Diffusion khi ngay lập tức bạn đã có cái gì đó rất dễ sử dụng. Mô hình ngôn ngữ khó hơn để huấn luyện."
Một vấn đề khác là các mô hình lớn càng khó huấn luyện thì chúng càng lớn. Điều đó không chỉ do chi phí của việc cung cấp công suất tính toán. Quá trình huấn luyện phá vỡ nhiều lần với các mô hình lớn hơn và cần được khởi động lại, khiến các mô hình đó trở nên đắt đỏ hơn để xây dựng.
Trong thực tế, có một giới hạn tối đa đối với số lượng tham số mà hầu hết các nhóm có thể đáp ứng chi phí để huấn luyện, Biderman nói. Điều này bởi vì các mô hình lớn phải được đào tạo trên nhiều GPU khác nhau và việc kết nối tất cả phần cứng đó là rắc rối. "Huấn luyện thành công các mô hình ở quy mô đó là một lĩnh vực nghiên cứu máy tính hiệu năng cao rất mới," cô nói.
Số chính xác này thay đổi khi công nghệ tiến bộ, nhưng hiện tại Biderman đặt giới hạn trần đó vào khoảng từ 6 đến 10 tỉ tham số. (So sánh với 175 tỉ tham số của GPT-3; LLaMA có 65 tỉ tham số.) Điều này không phải là mối tương quan chính xác, nhưng tổng thể, các mô hình lớn thường thực hiện tốt hơn rất nhiều.
Biderman hy vọng sự náo động của hoạt động xung quanh các mô hình ngôn ngữ lớn mã nguồn mở sẽ tiếp tục. Nhưng nó sẽ được tập trung vào việc mở rộng hoặc thích ứng một số mô hình được huấn luyện trước hiện có thay vì đẩy công nghệ cơ bản tiến lên. "Chỉ có một vài tổ chức đã huấn luyện trước các mô hình này, và tôi dự đoán điều đó sẽ tiếp tục trong tương lai gần," cô nói.
Đó là lý do tại sao nhiều mô hình nguồn mở được xây dựng trên nền tảng LLaMA, được đào tạo từ đầu bởi Meta AI hoặc các phiên bản của EleutherAI, một tổ chức phi lợi nhuận đóng góp độc đáo cho công nghệ mã nguồn mở. Biderman nói cô chỉ biết về duy nhất một nhóm khác giống như nó - và đó là ở Trung Quốc.
EleutherAI được bắt đầu nhờ OpenAI. Quay ngược thời gian đến năm 2020 và công ty đóng ở San Francisco vừa ra một mô hình mới nóng. "GPT-3 đã làm thay đổi lớn đối với nhiều người về cách họ nghĩ về AI quy mô lớn", Biderman nói. "Nó thường được công nhận như là một sự thay đổi xu hướng tư duy về những gì mà mọi người mong đợi từ những mô hình này."