Hôm nay, Stability AI đã chính thức giới thiệu công nghệ Stable Audio của mình, mang đến khả năng tạo ra âm thanh từ văn bản cho mọi người.
Stability AI đã nổi tiếng với công nghệ tạo hình ảnh đa sắc Stable Diffusion. Vào tháng 7, Stable Diffusion đã được nâng cấp với phiên bản cơ sở SDXL mới, cải thiện khả năng tạo thành hình. Tiếp đó, vào tháng 8, công ty đã mở rộng dịch vụ từ hình ảnh sang mã code với công nghệ StableCode.
StableAudio là một khả năng mới, nhưng nó dựa trên những kỹ thuật trí tuệ nhân tạo cốt lõi tương tự như Stable Diffusion để tạo ra hình ảnh. Cụ thể, công nghệ Stable Audio sử dụng một mô hình diffusion, được đào tạo trên âm thanh thay vì hình ảnh, nhằm tạo ra những đoạn âm thanh mới.
“Stability AI nổi tiếng với công việc về hình ảnh, nhưng giờ đây chúng tôi đang ra mắt sản phẩm đầu tiên về âm nhạc và tạo âm thanh, gọi là Stable Audio”, Ed Newton-Rex, Phó chủ tịch phụ trách âm thanh tại Stability AI chia sẻ. “Khái niệm thật đơn giản, bạn diễn tả âm nhạc hoặc âm thanh mà bạn muốn nghe thông qua văn bản, hệ thống của chúng tôi sẽ tạo ra nó cho bạn.”
Stable Audio làm việc bằng cách tạo ra các bài hát âm thanh mới, không phải các tệp MIDI. Công nghệ này không có nguồn gốc từ Jukedeck, công ty khởi nghiệp của Newton-Rex năm 2011 mà ông đã bán cho TikTok vào năm 2019. Mà thực ra, Stable Audio được tạo ra từ viện nghiên cứu âm nhạc của Stability AI có tên Harmonai, do Zach Evans thành lập.
Stable Audio hoạt động trực tiếp với các mẫu âm thanh gốc để đạt được chất lượng âm thanh cao hơn. Mô hình này đã được huấn luyện trên hơn 800.000 bản nhạc được cấp phép từ thư viện âm thanh AudioSparks.
Tuy nhiên, Stable Audio không cho phép người dùng yêu cầu mô hình trí tuệ nhân tạo tạo ra những bài hát giống như những bài hát của Beatles chẳng hạn. Thay vào đó, người dùng muốn sáng tạo và tạo ra âm nhạc mới.
Với khoảng 1,2 tỷ tham số, mô hình Stable Audio tương đương với phiên bản ban đầu của Stable Diffusion cho tạo hình ảnh. Mô hình văn bản được sử dụng để tạo ra câu hỏi để tạo ra âm thanh được xây dựng và huấn luyện bởi Stability AI. Đồng thời, Stability AI cũng đang phát hành một hướng dẫn chỉ dẫn để giúp người dùng tạo ra câu hỏi phù hợp để tạo ra loại tệp âm thanh mà họ muốn.
Stable Audio sẽ có phiên bản miễn phí và phiên bản Pro với giá 12 đô la mỗi tháng. Phiên bản miễn phí cho phép tạo ra 20 bài hát trong vòng một tháng có thời lượng tối đa 20 giây, trong khi phiên bản Pro sẽ tăng lên 500 bài và 90 giây.
Tổng kết lại, Stable Audio của Stability AI mang đến những cơ hội sáng tạo âm nhạc mới cho mọi người thông qua việc mô tả văn bản đơn giản. Đây là một bước tiến mới trong lĩnh vực trí tuệ nhân tạo và đại chúng sẽ có cơ hội sử dụng và khám phá công nghệ này. #AI #TriTuệNhânTạo #ÂmThanh #SựKiện
Head over to our on-demand library to view sessions from VB Transform 2023. Register Here
What comes after building generative AI technology for image and code generation? For Stability AI, it’s text-to-audio generation.
Stability AI today announced the initial public release of its Stable Audio technology, providing anyone with ability to use simple text prompts to generate short audio clips. Stability AI is best known as the organization behind the Stable Diffusion text-to-image generation AI technology.
Back in July, Stable Diffusion was updated with its new SDXL base model for improved image composition. The company followed up on that news by expanding its scope beyond image to code, with the launch of StableCode in August.
StableAudio is a new capability, though it is based on many of the same core AI techniques that enable Stable Diffusion to create images. Namely the Stable Audio technology makes use of a diffusion model, albeit trained on audio rather than images, in order to generate new audio clips.
Event
VB Transform 2023 On-Demand
Did you miss a session from VB Transform 2023? Register to access the on-demand library for all of our featured sessions.
“Stability AI is best known for its work in images, but now we’re launching our first product for music and audio generation, which is called Stable Audio,”Ed Newton-Rex, VP of Audio at Stability AI told VentureBeat. “The concept is really simple, you describe the music or audio that you want to hear in text and our system generates it for you.”
How Stable Audio works to generate new pieces of music, not MIDI files
Newton-Rex is no stranger to the world of computer generated music, having built his own startup called Jukedeck in 2011, which he sold to TikTok in 2019.
The technology behind Stable Audio however does not have its roots in Jukedeck, but rather in Stability AI’s internal research studio for music generation called Harmonai, which was created by Zach Evans.
“It’s a lot of taking the same ideas technologically from the image generation space and applying them to the domain of audio,” Evans told VentureBeat. “Harmonai is the research lab that I started and it is fully part of Stability AI and it is a basically a way to have this generative audio research happening as a community effort in the open.”
The ability to generate base audio tracks with technology is not a new thing. Individuals have been able to use what Evans referred to as ‘symbolic generation’ techniques in the past. He explained that symbolic generation commonly works with MIDI (Musical Instrument Digital Interface) files that can represent something like a drum roll for example. The generative AI power of Stable Audio is something different, enabling users to create new music that goes beyond the repetitive notes that are common with MIDI and symbolic generation.
Stable Audio works directly with raw audio samples for higher quality output. The model was trained on over 800,000 pieces of licensed music from audio library AudioSparks.
“Having that much data, it’s very complete metadata,” Evans said. “That’s one of the really hard things to do when you’re doing these text based models is having audio data that is not only high quality audio, but also has good corresponding metadata.”
Don’t expect to use Stable Audio to make a new Beatles tune
One of the common things that users do with image generation models is to create images in the style of a specific artist. For Stable Audio however, users will not be able to ask the AI model to generate new music, that for example sounds like a classic Beatles tune.
“We haven’t trained on the Beatles,” Newton-Rex said.”With audio sample generation for musicians, that has tended not to be what people want to go for.”
Newton-Rex noted that in his experience, most musicians do not want to start a new audio piece by asking for something in the style of The Beatles or any other specific musical group, rather they want to be more creative.
Learning the right prompts for text to audio generation
As a diffusion model, Evans said that the Stable Audio model has approximately 1.2 billion parameters, which is roughly on par with the original release of Stable Diffusion for image generation.
The text model used for prompts to generate audio was all built and trained by Stability AI. Evans explained that the text model is using a technique known as Contrastive Language Audio Pretraining (CLAP). As part of the Stable Audio launch, Stability AI is also releasing a prompt guide to help users with text prompts that will lead to the types of audio files that users want to generate.
Stable Audio will be available both for free and in a $12/month Pro plan. The free version allows 20 generations per month of up to 20 second tracks, while the Pro version increases this to 500 generations and 90 second tracks
“We want to give everyone the chance to use this and experiment with it,” said Newton-Rex.
VentureBeat’s mission is to be a digital town square for technical decision-makers to gain knowledge about transformative enterprise technology and transact. Discover our Briefings.
[ad_2]