“Google trình diễn bot giống ChatGPT chuyển những giai điệu và văn bản thành nhạc”

Google đã tung ra một hệ thống mới có thể tạo ra nhạc trong bất kỳ thể loại nào từ một mô tả văn bản đơn giản. Hệ thống mới này được gọi là MusicLM và được đào tạo bằng cách sử dụng cơ sở dữ liệu khổng lồ với hơn 280.000 giờ âm nhạc. MusicLM có khả năng tích hợp các yêu cầu trừu tượng hơn, cho phép người dùng tạo ra các bản nhạc dựa trên một số mô tả đã nhập. Ví dụ như tạo nhạc nền cho thời gian để thiền, thức dậy, chạy hoặc cống hiến. MusicLM còn có khả năng tạo nhạc nền từ bản vẽ và mô tả của nó dưới dạng lời nhắc. Mặc dù còn một số trục trặc về cấp phép, MusicLM vẫn là một bước tiến đáng kinh ngạc trong lĩnh vực AI âm nhạc.
ChatGPT cuối cùng đã đưa AI đến với đại chúng, thu hút hơn một triệu người dùng trong tuần đầu tiên phát hành vào tháng 12 năm 2022. Kể từ đó, chúng tôi đã thấy rất nhiều cách sử dụng sáng tạo cho hầu hết mọi thứ, từ tổ chức bữa ăn cho đám đông đến tổ chức đêm Ngục tối và Rồng. Tuy nhiên, ChatGPT nói đúng ra là một chatbot. Văn bản chảy vào, văn bản chảy ra.
Như bạn có thể biết từ vô số phương tiện do AI tạo ra trên mạng xã hội, cũng có những thuật toán rất mạnh có thể biến lời nhắc bằng văn bản thành hình ảnh hoặc video, đôi khi mang lại kết quả thú vị. Giờ đây, Google đang tung ra một hệ thống mới có thể tạo nhạc ở bất kỳ thể loại nào bắt đầu từ một mô tả văn bản đơn giản. Thậm chí còn có một tùy chọn để tạo nhạc dựa trên tiếng vo ve hoặc tiếng huýt sáo của bạn nếu bạn không thể nắm bắt ý tưởng của mình cho một bài hát bằng lời.
Một bot AI tạo ra âm nhạc
Đây không phải là AI chuyển văn bản thành nhạc đầu tiên mà chúng tôi từng thấy. Tuy nhiên, hệ thống mới, được gọi là MusicLM, vượt trội so với bất kỳ phiên bản nào trước đó.
Được đào tạo bằng cách sử dụng cơ sở dữ liệu khổng lồ với hơn 280.000 giờ âm nhạc, AI của Google có thể kết hợp nhiều thể loại và nhạc cụ để tạo ra một bản nhạc chiết trung đáng ngạc nhiên, cho dù đó là một bài hát ngắn hay toàn bộ danh sách phát. Nó cũng có khả năng tích hợp các yêu cầu trừu tượng hơn. Ví dụ: đây là một lời nhắc văn bản đã được sử dụng trong quá khứ và được các tác giả chia sẻ trong các bài nghiên cứu của họ:
“Nhạc nền chính của trò chơi arcade. Nó nhanh và lạc quan, với một đoạn riff guitar điện lôi cuốn. Âm nhạc lặp đi lặp lại và đáng nhớ, nhưng với những âm thanh bất ngờ, như tiếng chũm chọe hoặc tiếng trống.”
Và đây là âm thanh đầu ra:
Đây là một điều thú vị khác:
“Tiết tấu chậm, bài hát reggae được dẫn dắt bởi bass và trống. Guitar điện liên hoàn. Bongos cao độ với nhạc chuông. Giọng hát của anh ấy thoải mái với cảm giác thoải mái, rất biểu cảm.”
Ngoài ra còn có một chế độ câu chuyện mà bạn có thể sử dụng để tạo các bản nhạc dựa trên một số mô tả đã nhập, về mặt lý thuyết, bạn có thể sử dụng chế độ này để tạo toàn bộ bộ DJ. Điều này hữu ích nếu bạn đang tạo nhạc nền trong đó các phần khác nhau của bài hát cần gợi lên những cảm xúc khác nhau hoặc chơi theo các phong cách khác nhau, như trong ví dụ sau:
thời gian để thức dậy (0:15-0:30)
thời gian chạy (0:30-0:45)
thời gian để cống hiến 100% (0:45-0:60)
Một trong những nhà nghiên cứu của Google thực sự thích thú với phần tiếp theo, mở rộng giới hạn của MusicLM bằng cách yêu cầu phần mềm này tạo một bài hát bắt đầu bằng một số rung cảm vui nhộn chỉ để trở thành pop, rap và thậm chí là death metal trong khi vẫn giữ được sự gắn kết.
bài hát nhạc pop (0:15-0:30)
bài hát rock (0:30-0:45)
bài hát death metal (0:45-1:00)
bài rap (1:00-1:15)
tứ tấu đàn dây với vĩ cầm (1:15-1:30)
nhạc phim hoành tráng có trống (1:30-1:45)
Dân ca Scotland với nhạc cụ truyền thống (1:45-2:00)
Đây là một nhà phát triển của Google đang ngâm nga chủ đề chính của một bài hát dân ca phản đối của Ý chào người đẹp:
Và bây giờ, đây là MusicLM tái tạo giai điệu bằng nhiều nhạc cụ khác nhau:
Nhưng có lẽ tính năng thú vị nhất là khả năng AI tạo nhạc nền bằng cách sử dụng bản vẽ và mô tả của nó dưới dạng lời nhắc.


Có hàng chục bài hát mẫu khác được tạo bằng MusicLM được đăng trên GitHub.
Đó chắc chắn là một kết quả ấn tượng, mặc dù đừng hy vọng bất kỳ bài hát nào trong số này sẽ sớm giành được giải Grammy. Các tác phẩm, đôi khi mang tính giải trí và thậm chí là sáng tạo, chứa đầy những đồ tạo tác nghe có vẻ kỳ lạ khác nhau, chẳng hạn như bàn tay bảy ngón mà đôi khi bạn thấy trong nghệ thuật thị giác do AI tạo ra. Về chất lượng âm thanh, mặc dù Google tuyên bố AI tạo ra các tệp ở tần số 24 kHz, nhưng âm thanh đầu ra có thể giống như được trộn và làm chủ bởi một số kỹ sư âm thanh cấp dưới ở tầng hầm của nó.
Bất chấp những thiếu sót của nó, MusicLM vẫn khá ấn tượng. Hơn nữa, điều đó cho thấy rằng cả Google và đối thủ Meta của nó về vấn đề đó đều không ngồi yên trong khi mọi người phát cuồng vì ChatGPT. Google có thể có một chatbot tốt hơn OpenAI nhưng họ có thể chỉ giữ những tấm thẻ của mình bên mình, chờ đợi thời điểm thích hợp để tiết lộ công việc của chính họ. Nếu có bất cứ điều gì mà Google đã cho chúng ta thấy thông qua bộ phận DeepMind của mình, thì đó là nó có khả năng cung cấp những cỗ máy AI đáng kinh ngạc, như AlphaGo có thể vượt qua những nhà vô địch giỏi nhất thế giới về cờ vây (một trò chơi phức tạp hơn nhiều bậc so với cờ vua) hoặc AlphaFold, rằng phá vỡ cấu trúc của hơn 200 triệu protein.
Hiện tại, MusicLM không có sẵn công khai. Các tác giả nói rằng máy chưa sẵn sàng để phát hành công khai, vì các nhà nghiên cứu vẫn cần tìm ra cách giải quyết một số trục trặc, nhưng cũng có một số vấn đề nan giải về cấp phép có thể rất khó khăn. AI Stability và Midjourney—hai trong số những tên tuổi lớn nhất trong lĩnh vực bùng nổ hình ảnh do AI tạo ra—đã trở thành mục tiêu của một vụ kiện tập thể ở California do nhiều nghệ sĩ đệ đơn đòi bồi thường tài chính do vi phạm bản quyền. Các nghệ sĩ “lo ngại về việc các hệ thống AI được đào tạo trên một số lượng lớn các tác phẩm có bản quyền mà không có sự đồng ý, không có tín dụng và không được bồi thường” và Google có thể có những lo ngại tương tự rằng họ có thể bị kiện nếu phát hành một AI công khai được đào tạo về âm nhạc mà không có sự cho phép của tác giả.