Meta tuyên bố đã tạo ra một công cụ trí tuệ nhân tạo (AI) cho lập trình tương tự với Copilot của GitHub.
Công ty đã thông báo tại một sự kiện tập trung vào nỗ lực cơ sở hạ tầng AI của nó, bao gồm các chip tùy chỉnh của Meta đang được xây dựng để tăng tốc độ huấn luyện các mô hình AI sinh động. Công cụ lập trình được gọi là CodeCompose và hiện chưa được công khai - ít nhất là hiện tại. Nhưng Meta cho biết các đội của nó sử dụng nó bên trong để có được đề xuất mã cho Python và các ngôn ngữ khác khi họ gõ trong các IDE như VS Code.
"Mô hình cơ bản được xây dựng trên cơ sở nghiên cứu công khai từ [Meta] mà chúng tôi đã điều chỉnh cho các trường hợp sử dụng và cơ sở mã của chúng tôi," Michael Bolin, kỹ sư phần mềm tại Meta, nói trong một video đã được ghi trước . "Về phía sản phẩm, chúng tôi có thể tích hợp CodeCompose vào bất kỳ bề mặt nào mà nhân viên phát triển hoặc nhà khoa học dữ liệu của chúng tôi làm việc với mã."
Mô hình CodeCompose lớn nhất trong số các mô hình cùng loại do Meta đào tạo có 6,7 tỷ tham số, chỉ hơn một nửa số tham số trong mô hình trên đó Copilot dựa. Các tham số là các phần của mô hình học từ dữ liệu đào tạo lịch sử và tạo nên kỹ năng của mô hình trong việc giải quyết một vấn đề, chẳng hạn như tạo văn bản.
CodeCompose được điều chỉnh trên mã bên mã đầu tiên của Meta, bao gồm các thư viện và framework nội bộ được viết bằng ngôn ngữ lập trình do Meta phát triển là Hack, để nó có thể tích hợp chúng vào các đề xuất lập trình của mình. Và bộ dữ liệu đào tạo cơ bản của nó được lọc để loại bỏ các thực hành mã hỏng và lỗi, chẳng hạn như các API bị lỗi thời, để giảm khả năng mô hình sai chỉ khi đề xuất một phần mã gây vấn đề.
Trong việc sử dụng, CodeCompose đưa ra đề xuất như là những chú thích và khai báo nhập trong khi người dùng gõ. Hệ thống có thể hoàn thành một dòng mã hoặc nhiều dòng, tùy chọn làm đầy toàn bộ các khối mã lớn.
"CodeCompose có thể tận dụng mã lệnh xung quanh để đưa ra đề xuất tốt hơn," Bolin tiếp tục. "Nó cũng có thể sử dụng những nhận xét về mã lệnh để tạo ra mã lệnh."
Meta cho biết hàng ngàn nhân viên đang chấp nhận các đề xuất từ CodeCompose mỗi tuần và tỷ lệ chấp nhận của họ là hơn 20%.
Tuy nhiên, công ty không đề cập đến các tranh cãi xung quanh AI tạo mã.
Microsoft, GitHub và OpenAI đang bị kiện trong một vụ kiện tập thể cáo buộc họ vi phạm luật bản quyền bằng cách cho phép Copilot tái sinh phần mục mã đã được cấp phép mà không cung cấp tín dụng. Ngoài trách nhiệm pháp lý, một số chuyên gia pháp lý đã cho rằng AI như Copilot có thể đưa các công ty vào rủi ro nếu họ vô tình tích hợp các đề xuất bản quyền của công cụ vào phần mềm sản xuất của họ.
Chưa rõ liệu CodeCompose cũng đã được đào tạo trên mã có bản quyền hay không. Khi được yêu cầu để bình luận, một người phát ngôn của Meta có những lời như sau:
"CodeCompose được đào tạo trên InCoder, được phát hành bởi phân ban nghiên cứu AI của Meta. Trong một bài báo chi tiết về InCoder, chúng tôi lưu ý rằng, để đào tạo InCoder, 'Chúng tôi thu thập một tập dữ liệu (1) mã lệnh công khai với các giấy phép mã nguồn mở không copyleft từ GitHub và GitLab và (2) câu hỏi, câu trả lời và bình luận từ StackOverflow' (Stack Overflow câu hỏi và câu trả lời về lập trình). Chúng tôi chỉ thực hiện huấn luyện bổ sung cho CodeCompose trên mã lệnh trong nội bộ của Meta."
Các công cụ lập trình sinh động cũng có thể giới thiệu mã không an toàn. Theo một nghiên cứu mới đây từ Stanford, các kỹ sư phần mềm sử dụng các hệ thống AI sinh mã lập trình có khả năng gây ra lỗ hổng bảo mật trong các ứng dụng họ phát triển. Mặc dù nghiên cứu không xem xét đặc biệt đến CodeCompose, nhưng có vẻ những nhà phát triển sử dụng nó sẽ dễ bị mắc kẹt trong cùng tình huống.
"Đại diện Bolin nhấn mạnh rằng các nhà phát triển không cần phải tuân thủ theo ý kiến đề xuất của CodeCompose và an ninh là một "yếu tố quan trọng" trong quá trình tạo mô hình này. "Chúng tôi rất hào hứng với tiến trình của chúng tôi trên CodeCompose cho đến nay, và chúng tôi tin rằng các nhà phát triển của chúng tôi sẽ được phục vụ tốt nhất bằng cách đưa công việc này vào trong nhà của mình", ông nói thêm.