StarCoder, một mô hình ngôn ngữ lớn (LLM) mã nguồn mở mới được phát triển từ ServiceNow và Hugging Face, đã được phát hành cho Visual Studio Code và được xem là một sự thay thế cho GitHub Copilot.
StarCoder là một LLM dựa trên transformer có khả năng tạo ra mã nguồn từ các mô tả ngôn ngữ tự nhiên, một ví dụ hoàn hảo về trào lưu "AI sinh sản" được phổ biến bởi ChatGPT, chatbot siêu năng lực của OpenAI, đối tác của Microsoft (cũng là người tạo ra Copilot).
Nó được tạo ra dưới sự hợp tác khoa học mở với tên gọi BigCode giữa Hugging Face (chuyên gia machine learning) và ServiceNow (công ty quản lý quy trình kỹ thuật số). Mặc dù không phải là mã nguồn mở tuyệt đối, nó được lưu trữ trong mã nguồn GitHub, trong đó mô tả rằng: "StarCoder là một mô hình ngôn ngữ (LM) được huấn luyện trên mã nguồn và văn bản tự nhiên. Dữ liệu huấn luyện của nó tích hợp hơn 80 ngôn ngữ lập trình khác nhau cũng như văn bản được trích xuất từ các vấn đề và cam kết trong GitHub và từ notebooks."
StarCoderEx là tiện ích của Visual Studio Code có thể được sử dụng để tạo ra mã nguồn từ các mô tả ngôn ngữ tự nhiên trong trình biên tập hoặc trong bảng điều khiển lệnh. Nó có sẵn trên trang ứng dụng của VS Code với tên gọi StarCoderEx.
Hugging Face đã đưa ra một bài đăng trên blog về dự án này vào cùng ngày, liên quan đến cả các mô hình LLM StarCoder và StarCoderBase. Công ty đã huấn luyện một mô hình gần 15 tỷ tham số cho 1 nghìn tỷ mã thông báo, điều chỉnh mô hình StarCoderBase cho 35 tỷ mã thông báo Python, dẫn đến một mô hình mới được gọi là StarCoder.
Hugging Face cũng đã xây dựng một thử nghiệm để xem xét xem StarCoder có thể hoạt động như một trợ lý kỹ thuật hay không. Họ đã xây dựng một trang trợ lý kỹ thuật cho phép mô hình hoạt động như một trợ lý kỹ thuật và trả lời các yêu cầu liên quan đến lập trình.
Mô hình được cấp phép theo thỏa thuận giấy phép BigCode OpenRAIL-M v1..
Kể từ khi được giới thiệu vào ngày thứ Sáu, ngày 5 Tháng 5, tiện ích VS Code - với tiêu đề "Tiện ích sử dụng GitHub Copilot thay thế (StarCoder API) trong VSCode" - đã được tải xuống 1.890 lần và được đánh giá trung bình 3,0 điểm (trên tổng số 5 điểm) từ bốn nhà đánh giá.