Meta công bố Hộp thoại – một mô hình tổng hợp giọng nói đa tác vụ
#Meta #Hộpthoại #AI #Tổnghợplớn #Tổnghợpxunghành
Hãy tham gia cùng các giám đốc điều hành hàng đầu tại San Francisco vào ngày 11-12 tháng 7, để nghe cách các nhà lãnh đạo đang tích hợp và tối ưu hóa các khoản đầu tư AI để thành công. Tìm hiểu thêm!
Tuần trước, Meta công bố một mô hình tổng hợp giọng nói mang tên Hộp thoại. Mô hình này có khả năng thực hiện nhiều tác vụ khác nhau, bao gồm chỉnh sửa, loại bỏ tiếng ồn và chuyển kiểu.
Meta đã sử dụng một phương pháp đặc biệt để đào tạo Hộp thoại, và kết quả ban đầu đã rất hứa hẹn. Mặc dù Meta chưa phát hành Hộp thoại do lo ngại về việc sử dụng sai mục đích, nhưng mô hình này có thể cung cấp năng lượng cho nhiều ứng dụng trong tương lai.
Hộp thoại là một mô hình tổng hợp giọng nói đa ngôn ngữ, trong đó có tiếng Anh, tiếng Pháp, tiếng Tây Ban Nha, tiếng Đức, tiếng Ba Lan và tiếng Bồ Đào Nha. Mô hình này đã được đào tạo với một nhiệm vụ rất chung chung, có thể sử dụng cho nhiều ứng dụng khác nhau.
Khác với các mô hình ngôn ngữ lớn khác, Hộp thoại đã được đào tạo để tìm hiểu các mẫu ánh xạ âm thanh từ văn bản. Mô hình này có thể thực hiện nhiều tác vụ mà chưa được đào tạo trước đó.
Một trong những ứng dụng thú vị của Hộp thoại là khả năng tạo lời nói từ một chuỗi văn bản. Mô hình này cũng có thể sửa đổi lời nói và chỉnh sửa âm thanh.
Tuy nhiên, Hộp thoại cũng có những giới hạn. Vì đào tạo dựa trên dữ liệu sách nói, mô hình này không chuyển tốt sang giọng nói đàm thoại thông thường và âm thanh không lời.
Meta đang nghiên cứu các kỹ thuật để khắc phục những hạn chế này trong tương lai.
Cùng tham gia sự kiện Chuyển đổi 2023 tại San Francisco vào ngày 11-12 tháng 7, để nghe các giám đốc điều hành hàng đầu chia sẻ cách họ đã tích hợp và tối ưu hóa các khoản đầu tư vào AI để đạt được thành công và tránh những cạm bẫy phổ biến. Đăng ký ngay!
#Chuyểndổi2023 #SanFrancisco #Giámđốcđiềuhành #AI #Tốiưuhoá
Tham gia cùng các giám đốc điều hành hàng đầu tại San Francisco vào ngày 11-12 tháng 7, để nghe cách các nhà lãnh đạo đang tích hợp và tối ưu hóa các khoản đầu tư AI để thành công. Tìm hiểu thêm
Tuần trước, nhánh nghiên cứu trí tuệ nhân tạo của Meta Platforms đã giới thiệu Hộp thoại, một mô hình máy học có thể tạo lời nói từ văn bản. Điều làm nên sự khác biệt của Hộp thoại so với các mô hình chuyển văn bản thành giọng nói khác là khả năng thực hiện nhiều tác vụ mà nó chưa được đào tạo, bao gồm chỉnh sửa, loại bỏ tiếng ồn và chuyển kiểu.
Mô hình được đào tạo bằng một phương pháp đặc biệt do các nhà nghiên cứu Meta phát triển. Mặc dù Meta chưa phát hành Voicebox do những lo ngại về đạo đức về việc sử dụng sai mục đích, nhưng kết quả ban đầu rất hứa hẹn và có thể cung cấp năng lượng cho nhiều ứng dụng trong tương lai.
‘Kết hợp dòng chảy’
Hộp thoại là một mô hình tổng quát có thể tổng hợp giọng nói trên sáu ngôn ngữ, bao gồm tiếng Anh, tiếng Pháp, tiếng Tây Ban Nha, tiếng Đức, tiếng Ba Lan và tiếng Bồ Đào Nha. Giống như các mô hình ngôn ngữ lớn, nó đã được đào tạo về một nhiệm vụ rất chung chung có thể được sử dụng cho nhiều ứng dụng. Nhưng trong khi các LLM cố gắng tìm hiểu các quy tắc thống kê của các từ và chuỗi văn bản, Voicebox đã được đào tạo để tìm hiểu các mẫu ánh xạ các mẫu âm thanh giọng nói vào bản chép lời của chúng.
Sau đó, một mô hình như vậy có thể được áp dụng cho nhiều tác vụ xuôi dòng mà không cần hoặc rất ít điều chỉnh. “Mục tiêu là xây dựng một mô hình duy nhất có thể thực hiện nhiều tác vụ tạo lời nói có hướng dẫn bằng văn bản thông qua học tập trong ngữ cảnh,” các nhà nghiên cứu của Meta viết trong giấy của họ (PDF) mô tả chi tiết kỹ thuật của Voicebox.
Sự kiện
Chuyển đổi 2023
Hãy tham gia cùng chúng tôi tại San Francisco vào ngày 11-12 tháng 7, nơi các giám đốc điều hành hàng đầu sẽ chia sẻ cách họ đã tích hợp và tối ưu hóa các khoản đầu tư vào AI để đạt được thành công và tránh những cạm bẫy phổ biến.
Đăng ký ngay
Mô hình đã được đào tạo Meta’s “Phù hợp với dòng chảy”, kỹ thuật này hiệu quả và tổng quát hơn so với phương pháp học tập dựa trên sự lan tỏa được sử dụng trong các mô hình thế hệ khác. Kỹ thuật này cho phép Hộp thoại “học từ dữ liệu giọng nói đa dạng mà không cần phải dán nhãn cẩn thận các biến thể đó”. Không cần gắn nhãn thủ công, các nhà nghiên cứu đã có thể huấn luyện Voicebox trên 50.000 giờ bài phát biểu và bản chép lời từ sách nói.
Mô hình sử dụng tính năng “điền lời nói có hướng dẫn bằng văn bản” làm mục tiêu đào tạo, có nghĩa là nó phải dự đoán một đoạn lời nói dựa trên âm thanh xung quanh và bản ghi văn bản hoàn chỉnh. Về cơ bản, điều đó có nghĩa là trong quá trình đào tạo, mô hình được cung cấp một mẫu âm thanh và văn bản tương ứng. Sau đó, các phần của âm thanh được che và mô hình cố gắng tạo phần bị che bằng cách sử dụng âm thanh xung quanh và bản ghi làm ngữ cảnh. Bằng cách làm đi làm lại điều này, mô hình học cách tạo ra lời nói có âm thanh tự nhiên từ văn bản theo cách tổng quát.
Tái tạo giọng nói trên nhiều ngôn ngữ, chỉnh sửa lỗi trong lời nói, v.v.
Không giống như các mô hình chung được đào tạo cho một ứng dụng cụ thể, Hộp thoại có thể thực hiện nhiều tác vụ chưa được đào tạo. Ví dụ: mô hình có thể sử dụng mẫu giọng nói dài hai giây để tạo giọng nói cho văn bản mới. Meta cho biết khả năng này có thể được sử dụng để mang lại lời nói cho những người không thể nói hoặc tùy chỉnh giọng nói của các nhân vật trong trò chơi không thể chơi được và trợ lý ảo.
Hộp thoại cũng thực hiện chuyển kiểu theo nhiều cách khác nhau. Ví dụ: bạn có thể cung cấp cho mô hình hai mẫu âm thanh và văn bản. Nó sẽ sử dụng mẫu âm thanh đầu tiên làm tham chiếu kiểu và sửa đổi mẫu thứ hai để phù hợp với giọng nói và âm sắc của tham chiếu. Thật thú vị, mô hình này có thể làm điều tương tự trên các ngôn ngữ khác nhau, điều này có thể được sử dụng để “giúp mọi người giao tiếp một cách tự nhiên, xác thực — ngay cả khi họ không nói cùng một ngôn ngữ”.
Mô hình cũng có thể thực hiện nhiều tác vụ chỉnh sửa khác nhau. Ví dụ: nếu có tiếng chó sủa trong nền khi bạn đang ghi âm giọng nói của mình, bạn có thể cung cấp âm thanh và bản chép lời cho Hộp thoại và che đi đoạn có tiếng ồn nền. Mô hình sẽ sử dụng bản chép lời để tạo phần âm thanh còn thiếu mà không có tiếng ồn xung quanh.
Kỹ thuật tương tự có thể được sử dụng để chỉnh sửa lời nói. Ví dụ: nếu bạn phát âm sai một từ, bạn có thể che phần đó của mẫu âm thanh và chuyển nó tới Hộp thoại cùng với bản ghi của văn bản đã chỉnh sửa. Mô hình sẽ tạo phần còn thiếu với văn bản mới theo cách phù hợp với giọng nói và âm điệu xung quanh.
Một trong những ứng dụng thú vị của Voicebox là lấy mẫu giọng nói. Mô hình có thể tạo các mẫu giọng nói khác nhau từ một chuỗi văn bản. Khả năng này có thể được sử dụng để tạo dữ liệu tổng hợp nhằm huấn luyện các mô hình xử lý giọng nói khác. “Kết quả của chúng tôi cho thấy rằng các mô hình nhận dạng giọng nói được đào tạo trên giọng nói tổng hợp do Hộp thoại tạo ra hoạt động gần như tốt như các mô hình được đào tạo trên giọng nói thực, với tỷ lệ lỗi giảm xuống 1% so với mức giảm từ 45 đến 70% với giọng nói tổng hợp từ tính năng chuyển văn bản thành giọng nói trước đó các mô hình,” Meta viết.
Hộp thoại cũng có giới hạn. Vì nó đã được đào tạo về dữ liệu sách nói nên nó không chuyển tốt sang giọng nói đàm thoại thông thường và chứa âm thanh không lời. Nó cũng không cung cấp toàn quyền kiểm soát các thuộc tính khác nhau của giọng nói được tạo, chẳng hạn như kiểu giọng nói, âm sắc, cảm xúc và điều kiện âm thanh. Nhóm nghiên cứu Meta đang khám phá các kỹ thuật để khắc phục những hạn chế này trong tương lai.
Mô hình không được phát hành
Mối lo ngại ngày càng tăng về các mối đe dọa của nội dung do AI tạo ra. Ví dụ: tội phạm mạng gần đây đã cố lừa đảo một phụ nữ bằng cách gọi cho cô ấy và sử dụng giọng nói do AI tạo ra để mạo danh cháu nội. Các hệ thống tổng hợp giọng nói nâng cao như Hộp thoại có thể được sử dụng cho các mục đích tương tự hoặc các hành vi bất chính khác, chẳng hạn như tạo bằng chứng giả hoặc thao túng âm thanh thực.
Meta đã viết trên blog AI của mình: “Cũng như những cải tiến AI mới mạnh mẽ khác, chúng tôi nhận ra rằng công nghệ này có khả năng bị lạm dụng và gây hại ngoài ý muốn. Do những lo ngại này, Meta đã không phát hành mô hình nhưng cung cấp các chi tiết kỹ thuật về kiến trúc và quy trình đào tạo trong tài liệu kỹ thuật. Bài báo cũng chứa thông tin chi tiết về mô hình phân loại có thể phát hiện giọng nói và âm thanh do Hộp thoại tạo ra để giảm thiểu rủi ro khi sử dụng mô hình.
Niềm tin của GamesBeat khi bao trùm ngành công nghiệp trò chơi là “nơi đam mê gặp gỡ kinh doanh.” Điều đó có nghĩa là gì? Chúng tôi muốn cho bạn biết tin tức quan trọng như thế nào đối với bạn — không chỉ với tư cách là người ra quyết định tại studio trò chơi mà còn với tư cách là người hâm mộ trò chơi. Cho dù bạn đọc bài viết của chúng tôi, nghe podcast hay xem video của chúng tôi, GamesBeat sẽ giúp bạn tìm hiểu về ngành và tận hưởng việc tương tác với ngành. Khám phá Briefings của chúng tôi.
[ad_2]