#MetaAI #HộpthoạiAI #Tươnglai #DallE #ChatGPT #Ngônngữ #Tạoâmthanh #Tạođoạnâmthanh #Tạoâmthanhgiọngnói #Meta #TomTom #MorganFreeman #Voicebox #ArtificialIntelligence #Bộdữliệuâmthanh #Côngnghệ
Hôm nay, Meta đã công bố một bước tiến quan trọng trong việc tạo ra một hộp thoại trí tuệ nhân tạo (AI) có khả năng chuyển đổi văn bản thành giọng nói tổng quát. Đây là một tiến bộ quan trọng trong tương lai của AI và đã được Meta hứa hẹn từ tháng Tư. Với công nghệ mới này, Meta đã phát triển mô hình tạo ra các đoạn âm thanh, tương tự như việc tạo ra văn bản và hình ảnh bởi ChatGPT và Dall-E.
Hộp thoại của Meta đã được huấn luyện dựa trên hơn 50.000 giờ âm thanh thu thập từ các sách nói công cộng viết bằng nhiều ngôn ngữ khác nhau như tiếng Anh, Pháp, Tây Ban Nha, Đức, Ba Lan và Bồ Đào Nha. Các dữ liệu đa dạng này cho phép hệ thống tạo ra các đoạn giọng nói có âm điệu đàm thoại dù ngôn ngữ được sử dụng là gì. Các nhà nghiên cứu của Meta cung cấp rằng “kết quả hiện tại cho thấy rằng mô hình nhận diện giọng nói dựa trên giọng nói tổng hợp của Hộp thoại hoạt động gần như tốt như mô hình được huấn luyện trên giọng nói thực.”
Một điểm đáng chú ý là bài phát biểu do hệ thống tạo ra chỉ có tỷ lệ lỗi giảm 1%, so với tỷ lệ giảm 45 đến 70% của các mô hình TTS hiện có. Hộp thoại của Meta đã được huấn luyện để dự đoán các phân đoạn lời nói dựa trên ngữ cảnh và bản chép lời của đoạn văn. Ngoài ra, hộp thoại cũng có khả năng chỉnh sửa và loại bỏ tiếng ồn khỏi bài phát biểu, thậm chí còn thay thế các từ bị phát âm sai.
Mặc dù công nghệ này có rất nhiều tiềm năng sử dụng, Meta cho biết rằng không công bố ứng dụng Voicebox và mã nguồn của nó vào thời điểm hiện tại do những rủi ro tiềm ẩn. Tuy nhiên, Meta đã cung cấp một loạt ví dụ âm thanh và tài liệu nghiên cứu ban đầu để tham khảo.
Trong tương lai, công nghệ hộp thoại này có thể được ứng dụng vào việc tạo ra các bộ phận giả cho bệnh nhân bị tổn thương dây thanh âm, các nhân vật không chơi (NPC) trong trò chơi và các trợ lý kỹ thuật số. Đây là một khía cạnh mới mẻ và tiềm năng của AI mà chúng ta đang từng bước tiến gần hơn đến tương lai ưu việt mà Meta đã hứa hẹn.
Hôm nay, chúng ta đang tiến một bước gần hơn đến tương lai của người nổi tiếng bất tử mà chúng ta đã hứa từ lâu (từ tháng Tư). Meta đã tiết lộ Hộp thoại, mô hình chuyển văn bản thành giọng nói tổng quát của nó hứa hẹn sẽ làm được điều mà ChatGPT và Dall-E đã làm đối với việc tạo văn bản và hình ảnh.
Về cơ bản, nó là một trình tạo văn bản thành đầu ra giống như GPT hoặc Dall-E — thay vì tạo văn xuôi hoặc hình ảnh đẹp, nó tạo ra các đoạn âm thanh. Meta định nghĩa hệ thống là “một mô hình đối sánh luồng không tự hồi quy được đào tạo để điền vào lời nói, dựa trên ngữ cảnh âm thanh và văn bản.” Nó đã được đào tạo trên hơn 50.000 giờ âm thanh chưa được lọc. Cụ thể, Meta đã sử dụng lời nói và bản chép lời được ghi âm từ một loạt sách nói thuộc phạm vi công cộng được viết bằng tiếng Anh, Pháp, Tây Ban Nha, Đức, Ba Lan và Bồ Đào Nha.
Theo các nhà nghiên cứu, bộ dữ liệu đa dạng đó cho phép hệ thống tạo ra nhiều giọng nói có âm thanh đàm thoại hơn, bất kể ngôn ngữ được sử dụng bởi mỗi bên. “Kết quả của chúng tôi cho thấy rằng các mô hình nhận dạng giọng nói được đào tạo trên giọng nói tổng hợp do Hộp thoại tạo ra hoạt động gần như tốt như các mô hình được đào tạo trên giọng nói thực.” Hơn nữa, bài phát biểu do máy tính tạo ra được thực hiện với tỷ lệ lỗi chỉ giảm 1 phần trăm, so với mức giảm 45 đến 70 phần trăm được thấy với các mô hình TTS hiện có.
Hệ thống lần đầu tiên được dạy để dự đoán các phân đoạn lời nói dựa trên các phân đoạn xung quanh chúng cũng như bản ghi của đoạn văn. Các nhà nghiên cứu của Meta giải thích: “Sau khi học cách điền lời nói từ ngữ cảnh, mô hình có thể áp dụng điều này trong các tác vụ tạo lời nói, bao gồm tạo các phần ở giữa bản ghi âm mà không cần phải tạo lại toàn bộ đầu vào”.
Hộp thoại cũng được cho là có khả năng chủ động chỉnh sửa các đoạn âm thanh, loại bỏ tiếng ồn khỏi bài phát biểu và thậm chí thay thế các từ bị phát âm sai. Các nhà nghiên cứu cho biết: “Một người có thể xác định đoạn thô nào của bài phát biểu bị nhiễu do tiếng ồn (như tiếng chó sủa), cắt đoạn đó và hướng dẫn mô hình tạo lại đoạn đó,” các nhà nghiên cứu cho biết, giống như sử dụng phần mềm chỉnh sửa hình ảnh để làm sạch ảnh. .
Trình tạo văn bản thành giọng nói đã xuất hiện được một phút — chúng là cách TomTom của bố mẹ bạn có thể đưa ra chỉ dẫn lái xe tinh ranh bằng giọng nói của Morgan Freeman. Lặp đi lặp lại hiện đại như phát biểu hoặc Prime Voice AI của Elevenlab có nhiều khả năng hơn nhưng phần lớn chúng vẫn yêu cầu hàng núi tài liệu nguồn để bắt chước chính xác chủ đề của chúng — và sau đó là một núi dữ liệu khác cho mọi thứ. đơn. khác. chủ đề bạn muốn nó được đào tạo.
Hộp thoại thì không, nhờ vào một phương pháp đào tạo chuyển văn bản thành giọng nói mới không có cú bắn mới mà Meta gọi là Khớp luồng. Các kết quả điểm chuẩn thậm chí còn không gần bằng vì AI của Meta được báo cáo là vượt trội so với trạng thái hiện tại của nghệ thuật cả về độ rõ ràng (tỷ lệ lỗi từ 1,9% so với 5,9%) và “độ tương tự âm thanh” (điểm tổng hợp là 0,681 so với 0,580 của SOA), tất cả trong khi hoạt động nhanh hơn gấp 20 lần so với các hệ thống TTS tốt nhất hiện nay.
Nhưng đừng để các nhà điều hướng nổi tiếng của bạn xếp hàng ngay, cả ứng dụng Voicebox và mã nguồn của nó đều không được phát hành ra công chúng vào thời điểm này, Meta đã xác nhận vào thứ Sáu, trích dẫn “những rủi ro tiềm ẩn của việc lạm dụng” mặc dù “có nhiều cách sử dụng thú vị”. trường hợp cho các mô hình bài phát biểu tổng quát. Thay vào đó, công ty đã phát hành một loạt các ví dụ âm thanh (xem bên trên/bên dưới) cũng như tài liệu nghiên cứu ban đầu của chương trình. Trong tương lai, nhóm nghiên cứu hy vọng công nghệ này sẽ được ứng dụng vào các bộ phận giả cho bệnh nhân bị tổn thương dây thanh âm, các NPC trong trò chơi và trợ lý kỹ thuật số.
[ad_2]