Google đã ra mắt một bộ tạo nhạc AI tiên tiến có thể biến một đoạn văn thành một bài hát - nhưng lo ngại pháp lý có thể ngăn các công ty công nghệ này khỏi việc chia sẻ công cụ này với công chúng. Cuộc cách mạng AI: ChatGPT, DALL-E 2 và các AI tiên tiến khác có khả năng tạo ra văn bản hay hình ảnh ấn tượng trong phản hồi các yêu cầu của người dùng đã trở nên rất phổ biến vào năm 2022, nhưng chúng không phải là những AI sinh ra ra đầu tiên, cũng không phải là những ví dụ duy nhất về những gì mà mạng nơ-ron có thể làm được. Một số công ty đã huấn luyện AI để tạo ra âm nhạc phản hồi với văn bản, âm thanh hoặc ảnh - OpenAI, cơ quan nghiên cứu đằng sau ChatGPT và DALL-E 2, đã phát hành một bộ tạo nhạc AI được gọi là "Jukebox" vào năm 2020. Tuy nhiên, các hệ thống này chưa được đón nhận nhiều như những đồng nghiệp tạo ra văn bản và hình ảnh của chúng, chủ yếu vì sản phẩm của chúng không ấn tượng bằng cách tạo ra bài hát truyền thống, ví dụ như các giai điệu lặp lại.
Google đã giới thiệu MusicLM, một bộ tạo nhạc AI tiên tiến được ra mắt vào tháng 1 năm 2023, có thể tạo ra nhạc phù hợp với mô tả văn bản và là một ví dụ ấn tượng về công nghệ này. Hệ thống này có thể tạo ra các clip dài đến 5 phút, dựa trên mô tả văn bản và âm nhạc được tạo ra có vẻ giống như một con người đã ghi âm, hơn các bản nhạc được tạo ra bởi các AI khác.
Google đã huấn luyện MusicLM trên hơn 280.000 giờ âm nhạc được lấy từ MuLan, một mô hình được huấn luyện để liên kết âm nhạc và mô tả viết bằng ngôn ngữ tự nhiên. Sau đó, họ tạo ra MusicCaps, một bộ dữ liệu có thể truy cập công khai với hơn 5.500 đoạn nhạc để sử dụng để đánh giá bộ tạo nhạc AI. Trong giai đoạn đánh giá, Google đã đối đầu MusicLM với hai AI khác - Mubert và Riffusion - sử dụng một số tiêu chí định lượng để đánh giá chất lượng âm thanh của đoạn nhạc và sự tuân thủ với mô tả văn bản.