Kiến trúc AI thống trị hiện nay, transformer, đặc biệt tương đồng với ngôn ngữ ngoài hành tinh trong bộ phim khoa học viễn tưởng "Arrival" năm 2016.
Nếu như trí tuệ nhân tạo hiện đại có một tài liệu sáng lập, một văn kiện linh thiêng, thì đó chính là bài báo nghiên cứu của Google năm 2017, có tiêu đề "Attention Is All You Need".
Bài báo này giới thiệu một kiến trúc học sâu mới mang tên transformer, đã đột phá lĩnh vực AI trong nửa thập kỷ qua.
Sự điên cuồng về trí tuệ nhân tạo tạo tạo ra hiện nay có thể được truy nguồn về sự phát minh của transformer. Mọi mô hình AI và sản phẩm chính trong tin tức ngày nay như ChatGPT, GPT-4, Midjourney, Stable Diffusion, GitHub Copilot, và nhiều hơn nữa được xây dựng bằng cách sử dụng transformers.
Transformers có tính phổ biến đáng kinh ngạc: ban đầu, chúng được phát triển cho việc dịch ngôn ngữ cụ thể, nhưng hiện nay chúng đang nâng cao trạng thái của nghệ thuật trong các lĩnh vực từ thị giác máy tính đến robotics và sinh học tính toán.
Nói một cách ngắn gọn, transformers đã trở thành chuẩn vàng không thể tranh cãi cho công nghệ AI ngày nay.
Tuy nhiên, không có công nghệ nào tồn tại mãi mãi.
Dường như đáng ngạc nhiên hoặc lạ lùng khi công nghệ transformer đang ở đỉnh cao ảnh hưởng của nó, nhưng lại phân tích về cái gì sẽ thay thế tiếp theo. Nhưng trong thế giới AI đang di chuyển nhanh, việc tìm cách "nhìn xung quanh góc" và nhìn thấy tương lai trước khi nó trở nên rõ ràng cũng thú vị và có lợi.
Với tinh thần đó, hãy cùng hỏi:
Cái gì có thể thay thế transformer?
Transformer 101
Để khám phá câu hỏi này, chúng ta cần hiểu transformer sâu hơn.
Bài báo transformer biểu tượng ngay bây giờ được đồng tác giả bao gồm tám nhà nghiên cứu cùng làm việc tại Google suốt cả năm 2017: Aidan Gomez, Llion Jones, Lukasz Kaiser, Niki Parmar, Illia Polosukhin, Noam Shazeer, Jakob Uszkoreit và Ashish Vaswani.
Một sự thật thường bị bỏ qua về bài báo là tất cả tám tác giả đều được liệt kê là những người đóng góp bằng nhau; thứ tự các tên tác giả xuất hiện trên bài báo được xác định ngẫu nhiên và không có ý nghĩa. Tuy nhiên, có thể thấy rõ rằng Uszkoreit đã đóng góp sự thúc đẩy trí tuệ ban đầu cho khái niệm transformer, trong khi Vaswani và Shazeer là hai tác giả tham gia sâu nhất vào mọi khía cạnh của công việc từ đầu đến cuối.
Tất cả tám tác giả đã trở thành những người nổi tiếng trong thế giới AI nhờ công việc trên bài báo. Không ai trong số họ còn làm việc ở Google. Cùng nhau, nhóm đã thành lập nhiều startup AI quan trọng ngày nay, bao gồm Cohere, Character.ai, Adept, Inceptive, Essential AI và Sakana AI.
Tại sao, chính xác là gì, transformer đã là một bước đột phá to lớn?
Trước khi bài báo "Chú ý tất cả những gì bạn cần" được xuất bản, trạng thái của trí tuệ nhân tạo ngôn ngữ tiên tiến nhất là một kiến trúc học sâu được biết đến là mạng nơ-ron hồi quy (RNNs).
Theo định nghĩa, RNNs xử lý dữ liệu theo tuần tự - nghĩa là, từng từ một, theo thứ tự từ xuất hiện.
Nhưng mối quan hệ quan trọng thường tồn tại giữa các từ, ngay cả khi chúng không đứng kề cạnh nhau trong một chuỗi. Để cải thiện khả năng cho RNNs tính đến mối quan hệ xa xôi này giữa các từ, một cơ chế được biết đến là attention gần đây đã trở nên phổ biến. (Những người tiên phong trong học sâu như Yoshua Bengio thường được cho là đã phát minh ra cơ chế attention thông qua một bài báo năm 2014.)
Attention cho phép một mô hình xem xét mối quan hệ giữa các từ bất kể khoảng cách chúng và xác định những từ và cụm từ quan trọng nhất trong một đoạn văn để "chú ý đến".
Trước bài báo transformer, các nhà nghiên cứu chỉ sử dụng attention như một thành phần bổ sung cho kiến trúc RNNs. Bước nhảy lớn của nhóm Google là loại bỏ hoàn toàn RNNs và dựa hoàn toàn vào attention để xây dựng mô hình ngôn ngữ. Do đó, tiêu đề bài báo là "Chú ý là tất cả những gì bạn cần".
(Một sự thực quyến rũ, ít người biết về bài báo này: theo cùng tác giả Llion Jones, tựa đề của nó là một gợi ý đến bài hát "All You Need Is Love" của ban nhạc Beatles.)
Tám nhà nghiên cứu đã tạo ra transformer.
Image Credit: Financial TimesSáng kiến cơ bản của transformer, được thực hiện nhờ cơ chế attention, là làm cho việc xử lý ngôn ngữ trở nên song song, có nghĩa là tất cả các từ trong một đoạn văn được phân tích cùng một lúc thay vì tuần tự.
Một bản sắc thú vị, Illia Polosukhin, một trong những tác giả, đã so sánh kiến trúc transformer với ngôn ngữ kỳ lạ ảo tưởng trong bộ phim khoa học viễn tưởng năm 2016 mang tên Arrival. Thay vì tạo ra chuỗi ký tự tuần tự để tạo thành từ và câu (như con người làm), người ngoài hành tinh trong phim sản xuất một biểu tượng phức tạp mỗi lần, tất cả đồng thời, mang ý nghĩa chi tiết mà con người phải giải thích như một tổng thể.
Việc song song hóa của transformer giúp chúng hiểu biết văn bản một cách toàn diện và chính xác hơn. Nó cũng làm cho chúng có hiệu suất tính toán cao hơn và có thể thu được quy mô lớn hơn so với RNNs. Transformers có thể được huấn luyện trên tập dữ liệu lớn hơn và được xây dựng với nhiều tham số hơn các kiến trúc trước đó, làm cho chúng mạnh mẽ và có khả năng tổng quát hơn. Thực tế, một đặc trưng của các mô hình dựa trên transformer hàng đầu ngày nay là quy mô của chúng.
Trong một trong những sự kết hợp lịch sử cùng lợi ích này của nhau, kiến trúc song song của transformer phù hợp với sự gia tăng của phần cứng GPU. GPU là một loại chip máy tính được song song hóa với nhau và vì vậy rất phù hợp để hỗ trợ công việc tính toán dựa trên transformer. (Nvidia, nhà sản xuất GPU hàng đầu thế giới, đã là người hưởng lợi lớn nhất trong cuộc bùng nổ trí tuệ nhân tạo ngày nay, vừa vượt qua ngưỡng vốn hóa thị trường 1 nghìn tỷ đô la trong bối cảnh nhu cầu về chip của họ tăng đáng kinh ngạc.)
Phần còn lại, như họ nói, đã trở thành lịch sử. Nhờ những ưu điểm vượt trội này, các bộ biến áp đã chinh phục thế giới kể từ khi được phát minh, mở ra thời đại của trí tuệ nhân tạo sinh sản.
Mỗi "chatbot" phổ biến ngày nay - ChatGPT của OpenAI, Bard của Google, Bing Chat của Microsoft, Claude của Anthropic, Pi của Inflection - đều dựa trên transformer. Tất cả các công cụ trí tuệ nhân tạo tạo ra hình ảnh hoặc video, từ Midjourney đến Stable Diffusion đến Runway, cũng đều dựa trên transformer. (Công nghệ chuyển văn bản thành hình ảnh và video được cung cấp bởi mô hình diffusion, mô hình diffusion sử dụng transformer.)
Ảnh hưởng của transformer không chỉ giới hạn trong lĩnh vực văn bản và hình ảnh. Nghiên cứu robot học tiên tiến nhất ngày nay dựa trên transformer. Thậm chí, công việc nghiên cứu robot học gần đây nhất của Google thực sự có tên gọi là RT-2, trong đó chữ cái T đại diện cho "transformer". Tương tự, một trong những con đường nghiên cứu mới triển vọng nhất trong lĩnh vực phương tiện tự động là việc sử dụng các hệ thống transformer về thị giác. Các mô hình dựa trên transformer đã mở ra những khả năng mới đầy ấn tượng trong ngành sinh học, bao gồm khả năng thiết kế các protein và axit nucleic tùy chỉnh chưa từng tồn tại trong tự nhiên.
Người đồng phát minh transformer Ashish Vaswani đã tóm tắt rõ ràng: "Transformer là một cách để nắm bắt tương tác rất nhanh chóng ngay từ đầu giữa các phần khác nhau của bất kỳ đầu vào nào. Đó là một phương pháp tổng quát để nắm bắt các tương tác giữa các mảnh trong một câu, hoặc các nốt nhạc trong âm nhạc, hoặc các pixel trong một hình ảnh, hoặc các phần của một protein. Nó có thể được sử dụng cho bất kỳ nhiệm vụ nào."
Tất Cả Cái Tốt Đều Kết Thúc?
Tuy nhiên, mặc dù có những điểm mạnh không thể chối cãi, transformer không thể tránh khỏi những hạn chế của nó. Những hạn chế này mở ra cánh cửa cho sự xuất hiện có thể của các kiến trúc mới và cải tiến hơn.
Trong số những hạn chế chính của transformer là chi phí tính toán chóng mắt.
Như bất kỳ ai quen thuộc với thế giới trí tuệ nhân tạo biết, một trong những đặc điểm xác định của các mô hình trí tuệ nhân tạo ngày nay là nhu cầu tính toán thèm muốn của chúng. Đào tạo một mô hình ngôn ngữ lớn cắt cạnh ngày nay đòi hỏi chạy hàng nghìn GPU suốt ngày đêm trong nhiều tháng. Lý do mà OpenAI đã gây sốc với việc huy động 10 tỷ đô la vào đầu năm nay, ví dụ, là để thanh toán cho khối lượng tài nguyên tính toán lớn cần thiết để xây dựng các mô hình trí tuệ nhân tạo tiên tiến. Một ví dụ khác, startup Inflection 18 tháng tuổi đã gây sốc với việc huy động hơn 1 tỷ đô la cùng với vốn đầu tư rủi ro để xây dựng một cụm GPU khổng lồ để đào tạo các mô hình ngôn ngữ của mình.
Mô hình dựa trên Transformer đòi hỏi rất nhiều tính toán, đến mức hiện nay, sự bùng nổ trí tuệ nhân tạo đã gây ra tình trạng thiếu hụt cung cấp toàn cầu, khi các nhà sản xuất phần cứng không thể sản xuất chip AI đủ nhanh để đáp ứng nhu cầu.
Tại sao Transformer đòi hỏi tính toán một cách khủng khiếp?
Một lời giải thích cơ bản là sức mạnh của Transformer cũng trở thành một điểm yếu: vì nó tỉ lệ tỷ lệ nhiều hơn so với kiến trúc trước đây, nên Transformer cho phép xây dựng các mô hình lớn hơn hàng chục lần so với trước đây. Những mô hình khổng lồ như vậy yêu cầu tính toán cũng rất lớn.
Tuy nhiên, còn có một lý do cụ thể khác khiến cho chi phí tính toán của Transformer cao hơn: kiến trúc Transformer tỉ lệ bình phương với độ dài chuỗi. Đơn giản nói, điều này có nghĩa là khi độ dài của một chuỗi mà Transformer xử lý (ví dụ: số từ trong một đoạn văn hay kích thước của một hình ảnh) tăng lên một lượng nhất định, tính toán yêu cầu tăng lên bình phương của lượng đó, trở nên rất lớn.
Điều này trình bày một lý do mạch lạc cho sự tăng theo đa thức, và nó là một đặc điểm bẩm sinh của thiết kế của Transformer.
Hãy nhớ rằng attention giúp ta hiểu được mối quan hệ giữa các từ mà không quan trọng chúng có cách xa nhau bao xa. Cách attention làm điều này như thế nào? Bằng cách so sánh mỗi từ trong một chuỗi với mọi từ khác trong chuỗi đó. Kết quả của việc so sánh từng cặp là do đó, khi độ dài của chuỗi tăng, số lượng bước tính toán cần thiết tăng theo đa thức thay vì tuyến tính. Ví dụ cụ thể, khi kéo dài độ dài chuỗi từ 32 dấu hiệu lên 64 dấu hiệu, chi phí tính toán cho một Transformer không chỉ tăng gấp đôi mà là bốn lần.
Quá trình tăng theo đa thức này dẫn đến một hạn chế liên quan khác: Transformer gặp khó khăn trong việc xử lý các chuỗi rất dài.
Khi độ dài của chuỗi tăng lên, việc đưa chúng vào Transformer cuối cùng trở nên không khả thi vì bộ nhớ và yêu cầu tính toán tăng lên theo thức bình phương. Hãy xem xét ví dụ việc xử lý toàn bộ sách giáo trình (với hàng triệu dấu hiệu) hoặc toàn bộ gene (với hàng tỷ dấu hiệu).
Việc tăng độ dài tối đa của chuỗi mà một mô hình có thể tiếp nhận vào một lần, được gọi là "cửa sổ ngữ cảnh" của mô hình, hiện đang là một lĩnh vực nghiên cứu tích cực đối với các mô hình ngôn ngữ lớn hiện nay. Cửa sổ ngữ cảnh cho mô hình GPT-4 gốc là 8,000 dấu hiệu. Một vài tháng trước, OpenAI đã phát hành phiên bản nâng cấp của GPT-4 với cửa sổ ngữ cảnh 32,000 dấu hiệu. Rồi đến công ty cạnh tranh của OpenAI là Anthropic tuyên bố gần đây ra mắt mô hình mới với cửa sổ ngữ cảnh 100,000 dấu hiệu.
Cuộc đua này chắc chắn sẽ còn tiếp diễn. Tuy nhiên, có những giới hạn về kích thước tối đa của cửa sổ ngữ cảnh mà OpenAI, Anthropic hoặc bất kỳ công ty nào khác có thể tạo ra nếu họ tiếp tục sử dụng kiến trúc Transformer.
Đã có nhiều nỗ lực để xây dựng phiên bản sửa đổi của Transformer mà vẫn sử dụng attention nhưng lại phù hợp hơn để xử lý các chuỗi dài. Tuy nhiên, những kiến trúc Transformer đã được chỉnh sửa này - với các tên như Longformer, Reformer, Performer, Linformer và Big Bird - thường hy sinh hiệu suất nên chưa được áp dụng rộng rãi.
Các thách thức đối với ngai vàng
Điều này đưa chúng ta đến vùng nghiên cứu phong phú nhất hiện nay trong nỗ lực tạo ra một giải pháp thay thế cho bộ biến áp. Nguyên tắc hướng dẫn cho trường phái nghiên cứu này là thay thế sự chú ý bằng một chức năng mới có tỷ lệ tăng phụ-quadrat. Tăng phụ-quadrat sẽ mở ra các mô hình AI mà (1) không tốn nhiều tài nguyên tính toán hơn và (2) xử lý chuỗi dài tốt hơn so với bộ biến áp. Tất nhiên, thách thức là làm được điều này trong khi vẫn đáp ứng đầy đủ khả năng của bộ biến áp.
Một nghiên cứu năm 2021 có tên S4 từ phòng thí nghiệm của Chris Ré tại Stanford đã đặt nền móng cho hướng đi này. Một số kiến trúc hứa hẹn dựa trên S4 đã được phát triển.
Một trong những kiến trúc mới thú vị nhất trong gia đình S4 là Hyena, được công bố vài tháng trước bởi một nhóm mạnh mẽ bao gồm Ré và Yoshua Bengio.
Thay vì sự chú ý, Hyena sử dụng hai hoạt động khác: tích chập dài và phép nhân phần tử.
Tích chập là một trong những phương pháp cũ nhất trong học máy, được ý tưởng đầu tiên của Yann LeCun từ những năm 1980. Cách tiếp cận mới của Hyena đối với kiến trúc đáng kính này là kéo dài và biến đổi kích thước của bộ lọc tích chập dựa trên độ dài chuỗi để tăng hiệu suất tính toán.
Kết quả ban đầu của Hyena là đáng kỳ vọng. Mô hình đạt được hiệu suất tiên tiến mới cho một mô hình ngôn ngữ không dựa trên sự chú ý. Nó đạt được kết quả tương đương với bộ biến áp trong một số tình huống trong khi sử dụng ít tài nguyên tính toán hơn đáng kể. Quan trọng hơn, lợi ích về hiệu suất của Hyena so với bộ biến áp trở nên đáng chú ý hơn khi độ dài chuỗi tăng lên, tô đậm những ưu điểm của nó đối với đầu vào rất dài: với một độ dài chuỗi 8.000 từ, các toán tử của Hyena nhanh gấp đôi so với sự chú ý, trong khi độ dài chuỗi 64.000 từ, chúng nhanh hơn hàng trăm lần.
Như tác giả của Hyena nói: "Vượt qua rào cản bậc hai là một bước quan trọng trong khả năng học sâu mới, chẳng hạn như sử dụng toàn bộ các sách giáo trình như ngữ cảnh, tạo âm nhạc dài hoặc xử lý hình ảnh tỉ lệ gigapixel."
Với ít nhất là một gợi ý hài hước, tác giả thêm: "Kết quả triển vọng của chúng tôi với quy mô số lượng thông số dưới tỷ sửa đề xuất rằng sự chú ý có thể không đáng kể."
Một ứng dụng hấp dẫn đầu tiên của kiến trúc Hyena là HyenaDNA, một mô hình cơ sở mới cho di truyền học tại Stanford. Tận dụng khả năng vượt trội của Hyena trong việc xử lý chuỗi dài, HyenaDNA có một cửa sổ ngữ cảnh gồm 1 triệu từ. Gen một con người là một trong những tập dữ liệu dài nhất (chưa kể đến một trong những tập dữ liệu quan trọng nhất) đã tồn tại: DNA của mỗi người chứa 3,2 tỷ nucleotide. Điều này khiến nó trở thành một trường hợp ứng dụng lý tưởng cho một kiến trúc mô hình như Hyena với khả năng nắm bắt phụ thuộc xuyên suốt dài.
Các tác giả HyenaDNA liệt kê một gợi ý hấp dẫn về những gì công nghệ này có thể mở khóa trong tương lai: "Hãy tưởng tượng bạn có thể khuyến khích ChatGPT với toàn bộ gen người - liệu có thú vị để đặt câu hỏi về các bệnh có khả năng xảy ra, dự đoán phản ứng của thuốc hoặc hướng dẫn các phương án điều trị dựa trên mã gen của bạn?
Một lưu ý quan trọng ở đây là công việc ban đầu về Hyena được tiến hành ở quy mô tương đối nhỏ. Mô hình Hyena lớn nhất có 1,3 tỷ tham số, so với 175 tỷ tham số của GPT-3 và sẽ có 1,8 tỷ tỷ tham số của GPT-4 (được đồn đoán). Một bài kiểm tra quan trọng cho kiến trúc Hyena sẽ là việc xem liệu nó có tiếp tục thể hiện hiệu suất mạnh mẽ và tăng cường hiệu quả khi nó được mở rộng đến kích thước của các mô hình transformer hiện nay.
Các kiến trúc học sâu tiên tiến khác trong họ gia đình này bao gồm Monarch Mixer (cũng từ phòng lab của Chris Ré tại Đại học Stanford), BiGS (từ Cornell và DeepMind) và MEGA (từ Meta).
Giống như Hyena, tất cả các mô hình này đều có tỷ lệ phụ tuyến tính, có nghĩa là chúng hiệu quả tính toán hơn và có khả năng xử lý chuỗi dài tốt hơn so với các transformer. Và giống như Hyena, tất cả đều tiềm năng nhưng chưa được chứng minh: chưa rõ liệu có mô hình nào trong số này có thể duy trì hiệu suất mạnh mẽ ở những tỷ lệ mà các mô hình transformer hoạt động hiện nay.
Nhìn chung, hiệu suất tính toán và phụ thuộc xa là không phải hai điểm yếu duy nhất của các transformer mà các kiến trúc mới nhằm cải thiện.
Một hạn chế khác của các mô hình transformer là khả năng học liên tục của chúng. Các mô hình transformer hiện nay có các tham số tĩnh. Khi một mô hình được huấn luyện, trọng số của nó (sức mạnh của các kết nối giữa các thần kinh) được thiết lập; các trọng số này không cập nhật dựa trên thông tin mới mà mô hình gặp phải khi được triển khai trong thế giới thực.
Một hạn chế thường được tham chiếu khác là khả năng giải thích của các transformer. Các mô hình dựa trên transformer là "hộp đen": cách hoạt động bên trong của chúng quá phức tạp và không đủ rõ ràng để con người hiểu chính xác tại sao chúng hoạt động như vậy. Điều này có thể là một vấn đề thực sự đối với các ứng dụng quan trọng về an toàn hoặc được quy định nghiêm ngặt, ví dụ như y tế.
Mạng neural lỏng (Liquid neural networks), một kiến trúc trí tuệ nhân tạo mới nghe được nhắc đến, cũng cáo buộc giải quyết cả hai giới hạn này.
Được tạo ra tại MIT bởi một nhóm nghiên cứu dẫn đầu bởi Ramin Hasani và Daniela Rus, mạng neural lỏng được lấy cảm hứng từ sinh học, cụ thể là cách hoạt động của não của giun C. elegans. "Lỏng" trong tên gọi chỉ ra rằng các trọng số của mô hình có tính xác suất thay vì cố định, cho phép chúng biến đổi linh hoạt tùy thuộc vào các đầu vào mà mô hình phải đối mặt.
Mạng neural lỏng cũng nhỏ hơn rất nhiều so với các mô hình transformer hiện nay. Trong một bằng chứng mới nhất, nhóm MIT đã xây dựng một hệ thống xe tự động có thể lái thành công trên đường công cộng chỉ với 19 thần kinh và 253 tham số.
Mọi người đều nói về việc mở rộng mạng lưới của họ," Hasani nói. "Chúng tôi muốn thu nhỏ, có ít nhưng nút giàu hơn."
Ngoài hiệu suất tính toán, kiến trúc nhỏ hơn này có nghĩa là mạng thần kinh lỏng trở nên rõ ràng và đọc được hơn so với transformer. Cuối cùng, người quan sát con người có thể diễn giải những gì đang xảy ra trong một mạng lưới với 253 kết nối hơn là một mạng lưới với 175 tỷ kết nối.
Rus là một trong những nhà robot hàng đầu của thế giới, và kiến trúc mạng thần kinh lỏng dường như rất phù hợp cho các ứng dụng robot, bao gồm các phương tiện tự hành và máy bay không người lái. Chúng chỉ hoạt động với dữ liệu chuỗi thời gian (tức là dữ liệu có chiều thời gian), có nghĩa là chúng không thể áp dụng cho hình ảnh hoặc các dạng dữ liệu tĩnh khác.
Có một nỗ lực cuối cùng để xây dựng "những gì xảy ra sau transformer" đáng đề cập. Llion Jones - một trong tám đồng tác giả của "Attention Is All You Need" - đã rời Google gần đây để thành lập một startup mới có tên Sakana AI cùng với cựu trưởng nhóm nghiên cứu của Stability AI là David Ha.
Sứ mệnh của Sakana là cải tiến so với đổi đá transformers với một cách tiếp cận lấy cảm hứng từ thiên nhiên và dựa trên nguyên tắc tiến hóa. Quan trọng đối với tầm nhìn của nhóm là khái niệm thông minh tập thể hoặc thông minh đàn, với một hệ thống nhiều mô hình nhỏ hoạt động cộng tác thay vì một mô hình toàn diện.
"Luôn luôn học là điều thắng lợi," Jones nói. "Lịch sử của trí tuệ nhân tạo phản ánh thực tế rằng luôn luôn tốt hơn khi có một mô hình tự học một cái gì đó thay vì một con người thiết kế bằng tay nó. Cuộc cách mạng học sâu chính là một ví dụ về điều này, khi chúng ta đã chuyển từ việc xây dựng bộ phát hiện đặc trưng bằng tay đến việc cho phép mạng thần kinh tự học các đặc trưng của riêng chúng. Đây sẽ là triết lý cốt lõi của chúng tôi tại Sakana AI và chúng tôi sẽ nhận lấy ý tưởng từ thiên nhiên bao gồm sự tiến hoá để khám phá không gian này."
Tầm nhìn xa
Transformer là một kiến trúc trí tuệ nhân tạo đáng chú ý.
Transformer đã trở thành nền tảng của trí tuệ nhân tạo hiện đại. Hầu như mọi hệ thống trí tuệ nhân tạo tiên tiến đều dựa trên transformer; mọi nhà nghiên cứu trí tuệ nhân tạo đều quen với việc làm việc với chúng. Transformer đã được tối ưu hóa bởi hàng nghìn nhà nghiên cứu xây dựng trên công việc của nhau trong những năm gần đây.
Điều này mang lại cho chúng lợi thế cạnh tranh mạnh mẽ khiến chúng trở nên khó đánh bại.
Tuy nhiên, ngoài ánh sáng sân khấu, xa rời các buổi trò chuyện đồng thanh về hứa hẹn là công việc tiếp theo để phát triển các kiến trúc trí tuệ nhân tạo thế hệ tiếp theo vượt trội hơn so với transformer theo các cách khác nhau.
Công việc này vẫn còn sớm và chưa được kiểm chứng. Chưa chắc rằng những kiến trúc mới này sẽ thành công trong việc thay thế transformer. Nhưng nếu thành công, những ảnh hưởng đối với thế giới trí tuệ nhân tạo sẽ là to lớn.
Trước thời của transformer, các kiến trúc trí tuệ nhân tạo khác nhau chiếm ưu thế trong các trường hợp sử dụng khác nhau: mạng nơ-ron hồi tiếp được sử dụng cho ngôn ngữ, mạng nơ-ron tích chập được sử dụng cho thị giác máy tính, học tăng cường được sử dụng cho chơi game, và vân vân.
Đã là điều đáng ngạc nhiên khi chứng kiến sự thống nhất tiến bộ của phương pháp trí tuệ nhân tạo trong những năm gần đây khi transformers đã chứng minh chúng là một trong những công nghệ tiên tiến nhất trong các lĩnh vực từ ngôn ngữ đến thị giác, robot học cho đến sinh sinh học.
Tuy nhiên, không hẳn là sẽ không có một phiên bản khác của tương lai: khi cuộc tiến chế trí tuệ nhân tạo tiến xa trong những năm tới, những kiến trúc mới được phát triển có thể chứng minh phù hợp hơn với các lĩnh vực cụ thể. Có thể, ví dụ, transformers vẫn tiếp tục kiểm soát lĩnh vực xử lý ngôn ngữ trong nhiều năm tới, trong khi một kiến trúc mới sớm thay thế transformer trở thành công nghệ tiên tiến nhất trong robot.
Hoặc có thể một phương pháp trí tuệ nhân tạo mới được phát triển vượt trội và nhanh chóng thay thế transformers trên tất cả các lĩnh vực.
Một điều chắc chắn là lĩnh vực trí tuệ nhân tạo ngày nay chuyển động nhanh và động lực đến mức chúng ta nên mong đợi sự thay đổi đến nhanh chóng, chúng ta không nên coi điều gì là đương nhiên và chúng ta nên chuẩn bị để bị ngạc nhiên bởi những gì tương lai mang lại.
Ghi chú: Tác giả là một Đối tác tại Radical Ventures, người là nhà đầu tư sáng lập của Cohere.