Máy ký sinh trùng của ChatGPT

Table of contents

1, Đàn bò ăn cỏ quá đà
2, Làm khô giếng
3, Các đường cao tốc thông tin một chiều

Trong lĩnh vực công nghệ, chúng ta đều là ký sinh trùng. Như nhà sáng lập Drupal, Dries Buytaert nhấn mạnh rằng chúng ta đều là người "đòi hỏi" hơn là người "tạo ra". Buytaert đề cập đến hành vi thông thường trong cộng đồng mã nguồn mở: "Những người đòi hỏi không đóng góp trở lại cho dự án mã nguồn mở mà họ lấy, gây hại cho các dự án mà họ phụ thuộc vào". Thậm chí những người đóng góp sáng kiến mã nguồn mở nhiệt tình nhất cũng nhận lấy nhiều hơn họ đóng góp.

Xu hướng ký sinh cùng này cũng đã xuất hiện đối với Google, Facebook và Twitter - tất cả đều phụ thuộc vào nội dung của người khác - và có thể chính xác hơn với trí tuệ nhân tạo sinh sản (GenAI) hiện nay. Nhà phát triển Sourcegraph Steve Yegge tuyên bố: "Những mô hình ngôn ngữ lớn không chỉ là sự thay đổi lớn nhất kể từ khi xuất hiện các công nghệ xã hội, di động hay đám mây - chúng là điều lớn nhất kể từ World Wide Web", và chắc chắn ông ta đúng. Tuy nhiên, những mô hình ngôn ngữ lớn (LLMs) này về cơ bản là loài ký sinh: chúng phụ thuộc vào việc lấy cắp kho lưu trữ mã nguồn của người khác (GitHub), câu trả lời về công nghệ (Stack Overflow), văn học và nhiều hơn nữa.

Giống như trong mã nguồn mở, các nhà sản xuất và chủ đề tổng hợp đang bắt đầu ngăn chặn LLM truy cập vào nội dung của họ. Trong trường hợp của Stack Overflow, do lượng truy cập giảm dần, họ đã bắt LLM phải trả tiền để sử dụng dữ liệu của họ để đào tạo LLM, như chi tiết được Wired miêu tả. Đây là một bước đi táo bạo, gợi nhớ đến cuộc chiến cấp phép đã xuất hiện trong mã nguồn mở và các vách ngăn do các nhà xuất bản thiết lập để tránh bị Google hoặc Facebook cạnh tranh. Nhưng liệu nó có thành công không?

Đàn bò ăn cỏ quá đà

Tôi chắc chắn rằng lịch sử ký sinh trùng công nghệ tồn tại trước mã nguồn mở, nhưng đó là khi sự nghiệp của tôi bắt đầu, vì vậy tôi sẽ bắt đầu từ đó. Từ những ngày đầu của Linux hoặc MySQL, đã có các công ty được thành lập để kiếm lợi từ những đóng góp của người khác. Gần đây nhất, trong Linux ví dụ, Rocky Linux và Alma Linux đều hứa hẹn "khả năng tương thích từng lỗi cho từng lỗi" với Red Hat Enterprise Linux (RHEL), trong khi không đóng góp vào thành công của Red Hat. Thực sự, kết luận tự nhiên của sự thành công của hai bản sao RHEL này sẽ là loại bỏ máy chủ của họ, dẫn đến sự sụp đổ của chính họ, đó là lý do tại sao một người trong không gian Linux gọi họ là "dirtbags" trong mã nguồn mở.

Có lẽ là một cụm từ quá sặc sỡ, nhưng bạn có thấy ý kiến của họ. Đó là lời chỉ trích tương tự từng được ném vào AWS (một lời chỉ trích "đào lộn" mà mất đi ý nghĩa sau mỗi ngày) và đã thúc đẩy một số biến thể về cấp phép nguồn mở, các vòng xoắn mô hình kinh doanh và cuộc thảo luận seeming endless về sự bền vững mã nguồn mở.

Tất nhiên, mã nguồn mở vẫn chưa bao giờ mạnh mẽ hơn. Tuy nhiên, các dự án mã nguồn mở riêng lẻ có các mức độ sức khỏe khác nhau. Một số dự án (và các nhà quản lý dự án) đã tìm cách quản lý "người được hưởng lợi" trong cộng đồng của họ; những người khác chưa có. Như một xu hướng, tuy nhiên, mã nguồn mở vẫn tiếp tục tăng trong sự quan trọng và sức mạnh.

Làm khô giếng

Điều này đưa chúng ta đến với LLMs. Các doanh nghiệp lớn như JP Morgan Chase đang chi hàng tỉ đô la và thuê hơn 1000 nhà khoa học dữ liệu, kỹ sư học máy và những người khác để thúc đẩy lợi nhuận hàng tỷ đô la trong việc cá nhân hóa, phân tích, v.v. Mặc dù nhiều doanh nghiệp đã ngại công khai nhận những thứ như ChatGPT, nhưng thực tế là các nhà phát triển của họ đã sử dụng LLM trước đó để thúc đẩy tăng năng suất.

Chi phí của những lợi ích đó chỉ mới rõ ràng hiện tại. Tức là, chi phí đối với các công ty như Stack Overflow đã trở thành nguồn cải thiện năng suất trong quá khứ.

Ví dụ, lưu lượng truy cập vào Stack Overflow đã giảm trung bình mỗi tháng 6% kể từ tháng 1 năm 2022 và giảm đột ngột 13,9% vào tháng 3 năm 2023, như đã chi tiết bởi Similarweb. Có lẽ quá đơn giản khi đổ lỗi ChatGPT và các công cụ GenAI khác cho sự suy giảm như vậy, nhưng cũng ngây thơ nếu nghĩ rằng chúng không liên quan.

Chỉ cần hỏi Peter Nixey, người sáng lập Intentional.io và là một trong 2% người dùng hàng đầu trên Stack Overflow, có câu trả lời đã đạt được hơn 1,7 triệu nhà phát triển. Mặc dù ông ta nổi tiếng trên Stack Overflow, Nixey cho biết: "Không có khả năng tôi sẽ viết bất cứ điều gì ở đó nữa". Tại sao? Bởi vì LLMs như ChatGPT đang đe dọa làm cạn kiệt nguồn tri thức trên Stack Overflow.

"Nếu chúng ta dừng việc gom tổng kiến thức của chúng ta với nhau và thay vào đó đổ nó trực tiếp vào Máy?" Nixey hỏi. "Máy" mà ông ám chỉ là các công cụ GenAI như ChatGPT. Thật tuyệt vời khi nhận được câu trả lời từ một công cụ AI như GitHub's Copilot, được huấn luyện trên kho lưu trữ của GitHub, Stack Overflow Q&A, vv. Nhưng những câu hỏi đó, được đặt trong riêng tư, không mang lại bất kỳ kho tri thức công cộng nào, khác với Stack Overflow. "Vậy khi GPT4 được huấn luyện trên tất cả các câu hỏi được hỏi trước năm 2021 [trên Stack Overflow,] thì GPT6 sẽ được huấn luyện trên gì?" ông ấy hỏi.

Các đường cao tốc thông tin một chiều

Xem vấn đề chưa? Đó không phải là vấn đề tầm thường, và có thể nghiêm trọng hơn những gì chúng ta đã thảo luận trong lĩnh vực mã nguồn mở. "Nếu mô hình này tái hiện ở nơi khác và hướng của kiến thức chung của chúng ta đổi hướng từ bên ngoài tới bên trong của máy, thì chúng ta sẽ phụ thuộc vào nó một cách vượt trội so với tất cả các phụ thuộc của máy đó trước đây của chúng ta, "ông ấy đề xuất. Nói nhẹ thì đây là một vấn đề. "Giống như một biến thể COVID-19 bùng nổ nhanh chóng, AI sẽ trở thành nguồn tri thức chiếm ưu thế đơn giản chỉ bởi tốc độ phát triển của nó", ông ấy nhấn mạnh. "Nếu chúng ta lấy ví dụ về StackOverflow, hồ bơi kiến thức con người đó trước đây thuộc về chúng ta có thể bị giảm xuống chỉ là một trọng số bên trong bộ biến hình."

Có rất nhiều điều đang đặt cược, không chỉ là các khoản tiền lớn đang dồn vào lĩnh vực AI. Chúng ta cũng cần đánh giá lại giá trị tương đối của thông tin được tạo ra bởi các thứ như ChatGPT. Ví dụ, Stack Overflow đã cấm các câu trả lời phát triển từ ChatGPT vào tháng 12 năm 2022 vì chúng giàu văn bản nhưng thiếu thông tin: "Vì tỷ lệ trung bình nhận được câu trả lời chính xác từ ChatGPT quá thấp, việc đăng các câu trả lời được tạo ra bởi ChatGPT là gây nhiều hại cho trang web và cho người dùng đang hỏi và tìm kiếm câu trả lời chính xác [chú trọng trong nguyên bản]." Những thứ như ChatGPT không được thiết kế để đưa ra thông tin chính xác, nhưng thay vào đó cung cấp thông tin xác suất chỉ phù hợp với các mẫu trong dữ liệu. Nói cách khác, mã nguồn mở có thể đầy các "thông tin xấu tính", nhưng mà không có một luồng liên tục dữ liệu huấn luyện tốt, các LLMs có thể đơn giản là tái tạo chúng với thông tin rác, trở nên ít hữu ích.

Tôi không bôi nhọ sự hứa hẹn của LLMs và GenAI nói chung. Như với mã nguồn mở, nhà xuất bản tin tức và nhiều hơn nữa, chúng ta có thể biết ơn OpenAI và các công ty khác giúp chúng ta tận dụng thông tin được sản xuất chung một cách hiệu quả trong khi vẫn cổ vũ những người đóng góp như Reddit (một người tổng hợp đóng góp cá nhân) đã mong đợi được trả tiền cho những phần họ chơi. Mã nguồn mở đã có những cuộc chiến giấy phép của riêng nó, và có vẻ như chúng ta sắp có điều tương tự trong thế giới GenAI, nhưng với hậu quả lớn hơn.

Máy ký sinh trùng của ChatGPT

Đàn bò ăn cỏ quá đà

Làm khô giếng

Các đường cao tốc thông tin một chiều

Tin tức ChatGPT