Meta tiết lộ công nghệ Voicebox AI: Tái tạo giọng nói đặc biệt của người thân và bạn bè

#Meta #VoiceboxAI #TáiTạoGiọngNói #TríTuệNhânTạo #Chatbot #MáyPhátĐiệnNghệThuật

Meta vừa tiết lộ công nghệ Voicebox AI mới, cho phép tái tạo giọng nói của bạn bè và người thân yêu. Với sự phổ biến ngày càng tăng của chatbot AI và máy phát điện nghệ thuật, các doanh nghiệp đang cố gắng duy trì sự độc đáo của mình bằng cách sử dụng công cụ riêng của họ. Voicebox AI của Meta được trình bày là hệ thống trí tuệ nhân tạo mạnh mẽ nhất có khả năng tái tạo giọng nói hơn bất kỳ kiểu máy hiện có. Nó có thể tạo ra giọng nói dễ dàng như Trò chuyệnGPT tạo văn bản và Bing hoặc Dall-E 2 tạo hình ảnh. Mặc dù hệ thống này chưa phổ biến rộng rãi trong công chúng, nhưng Meta đã tạo ra trình diễn để mọi người có thể khám phá Voicebox.

Voicebox có khả năng được sử dụng trong chỉnh sửa âm thanh bởi biên tập viên nội dung, vì khả năng tái tạo giọng nói tự nhiên của nó tạo ra âm thanh chất lượng cao. Điều này cho phép nó chỉnh sửa tiếng ồn từ các đoạn thoại một cách thông minh, tái tạo giọng nói mà không bị lỡ nhịp. Một khả năng đáng chú ý của Voicebox là khả năng khớp với kiểu âm thanh của mẫu và chuyển đổi văn bản thành giọng nói. Điều này cho phép người dùng khiếm thị cung cấp một đoạn âm thanh của người bạn và Voicebox sẽ đọc lại tin nhắn bằng giọng nói của người bạn đó bằng AI. Voicebox có khả năng giải quyết các nhiệm vụ thông qua học tập theo ngữ cảnh, và có thể tạo ngữ cảnh và cách diễn đạt giống như một người đọc bằng cách sử dụng kiến thức hiện có để tìm hiểu và giải quyết những thách thức mới.

Tuy nhiên, đạo đức và vấn đề bảo mật của Voicebox vẫn là điểm cần quan tâm. Bất cứ ai cũng có thể tạo ra các đoạn âm thanh bằng cách sử dụng bản ghi giọng nói của người khác mà không có sự cho phép và yêu cầu họ nói bất kỳ điều gì. Meta tuyên bố rằng có một mô hình phân loại nhị phân có thể phân biệt giữa giọng nói thực tế và giọng nói được tạo ra bởi Voicebox. Tuy nhiên, vì hệ thống này không công khai, những nguy cơ vẫn còn tồn tại.

Voicebox đã được đào tạo trên hàng chục nghìn giờ sách nói tiếng Anh và nhiều ngôn ngữ khác nhau để đạt hiệu suất tốt nhất. So với các mô hình hiện đại khác, Voicebox giảm tỷ lệ lỗi và tăng độ tương tự của âm thanh. Ngoài ra, nó có khả năng chuyển đổi văn bản viết thành lời nói bằng nhiều ngôn ngữ khác nhau mà không cần đào tạo riêng cho từng ngôn ngữ.

Với những cải tiến này, Voicebox của Meta hứa hẹn mang lại trải nghiệm giọng nói tốt nhất cho người dùng và đóng vai trò quan trọng trong việc phát triển công nghệ AI.

Nguồn: https://www.zdnet.com/article/meta-unveils-voicebox-ai-to-replicate-the-voices-of-your-friends-and-loved-ones/#ftag=RSSbaffb68

Soundwave với micrô phía trên

Hình ảnh của SergeBitos / Getty

BẰNG chatbot AImáy phát điện nghệ thuật dường như trở nên phổ biến hơn theo từng phút, một số người chơi nổi bật nhất trong doanh nghiệp đang cố gắng duy trì trò chơi bằng các công cụ của riêng họ. meta vừa trình bày Hộp thoạihướng dẫn bằng văn bản, trí tuệ nhân tạo trình tạo giọng nói mạnh mẽ đến mức công ty tuyên bố vượt trội hơn tất cả các kiểu máy hiện có.

Hộp thoại đủ mạnh để tạo giọng nói dễ dàng như Trò chuyệnGPT có thể tạo văn bản và Bing hoặc Dall-E 2 có thể tạo hình ảnh. Mặc dù hệ thống chưa được phổ biến rộng rãi cho công chúng sử dụng, nhưng Meta đã tạo ra trình diễn bất kỳ ai muốn tìm hiểu thêm về Voicebox đều có thể truy cập được.

Cũng: Cuộc phỏng vấn xin việc tiếp theo của bạn có thể là với AI thay vì một người

Ví dụ, hệ thống này có thể được sử dụng trong chỉnh sửa âm thanh bởi người tạo và biên tập viên nội dung, vì khả năng tạo giọng nói của nó tạo ra các đoạn âm thanh có âm thanh tự nhiên. Nhưng nó đủ linh hoạt để chỉnh sửa tiếng ồn từ các đoạn thoại một cách thông minh, chẳng hạn như tiếng chó sủa và tái tạo giọng nói mà không bị lỡ nhịp.

Một trong những khả năng mà Hộp thoại thể hiện là nó có thể khớp với kiểu âm thanh của mẫu và tạo các clip chuyển văn bản thành giọng nói. Về cơ bản, người dùng khiếm thị có thể cung cấp cho Voicebox một đoạn âm thanh của một người bạn trong vòng hai giây và nó có thể đọc tin nhắn đã viết của người bạn đó bằng giọng nói của họ bằng AI.

Cái mới trí tuệ nhân tạo công cụ này có thể giải quyết các nhiệm vụ thông qua học tập theo ngữ cảnh, do đó, công cụ này có thể xử lý văn bản mà nó chưa từng được đưa ra trước đây và tạo ra ngữ cảnh và cách diễn đạt một cách chính xác giống như một người sẽ đọc nó bằng cách sử dụng kiến ​​thức hiện có để tìm hiểu và giải quyết những thách thức mới.

Cũng: Giám đốc điều hành của OpenAI cho biết AI sáng tạo nên bao quát hơn khi nó phát triển

Đạo đức và lời nói bóng gió hợp pháp của công cụ đột phá này không dễ bị loại bỏ. Bất kỳ ai cũng có thể tạo các đoạn âm thanh bằng cách sử dụng bản ghi âm giọng nói của một người mà không được phép và yêu cầu họ nói bất cứ điều gì họ muốn.

Trong bài báo đã xuất bản, Meta tuyên bố rằng một mô hình phân loại nhị phân có thể phân biệt giữa giọng nói trong thế giới thực và giọng nói mà Hộp thoại tạo ra. Dù bằng cách nào, vì hệ thống này không có sẵn công khai, nên đôi chân ẩn dụ của Meta vẫn chưa bị đốt cháy.

Cũng: Nhà khoa học trưởng về AI của Meta cho biết LLM thậm chí còn không thông minh bằng chó

Hộp thoại được đào tạo Meta trên 60.000 giờ sách nói tiếng Anh và 50.000 giờ sách nói đa ngôn ngữ bằng sáu ngôn ngữ để có hiệu suất tối ưu. Quá trình đào tạo của nó cho phép nó thực hiện chuyển văn bản thành giọng nói đa ngôn ngữ mà không cần đào tạo, khử nhiễu giọng nói, tạo kiểu, chỉnh sửa và tạo các mẫu giọng nói đa dạng.

trong một giấy xuất bản bởi Meta AI, công ty tuyên bố nó có thể tạo ra các mẫu âm thanh đa dạng nhanh hơn 20 lần so với của Microsoft VALL-E và dễ hiểu hơn.

Cũng: Ngay cả Google cũng cảnh báo nhân viên của mình về việc sử dụng AI chatbot

Ngoài việc nhanh hơn và mắc ít lỗi hơn so với các đối thủ cạnh tranh, Meta tuyên bố Hộp thoại có thể chuyển đổi văn bản viết thành lời nói bằng một hoặc nhiều ngôn ngữ mà không cần được đào tạo riêng cho từng ngôn ngữ.

So với mô hình hiện đại trước đây, TTS của bạnHộp thoại được phát hiện là giảm tỷ lệ lỗi từ trung bình từ 10,9% xuống 5,2%, cũng như tăng độ tương tự của âm thanh từ 0,335 lên 0,481.


[ad_2]

Leave a Reply

Your email address will not be published. Required fields are marked *