Elevenlabs vừa ra mắt mô hình phát biểu độc lập đầu tiên của riêng mình có tên là Scribe. Với khả năng hỗ trợ hơn 99 ngôn ngữ và độ chính xác cao, mô hình này đánh bại nhiều đối thủ lớn trong ngành. #Elevenlabs #Scribe #AI #Phatbieu #Congnghe #NgayHomNay
Nguồn: https://techcrunch.com/2025/02/26/elevenlabs-is-launching-its-own-speech-to-text-model/
Elevenlabsmột công ty khởi nghiệp AI vừa nâng cao một Vòng tài trợ lớn 180 triệu đô lachủ yếu được biết đến với năng lực tạo âm thanh. Công ty đã có một bước theo một hướng công nghệ khác bằng cách ra mắt mô hình bài phát biểu độc lập đầu tiên của mình có tên là Scribe.
Khởi nghiệp, có giá trị 3,3 tỷ đô lađã hỗ trợ nhiều công ty khác trong việc cung cấp các dịch vụ phát ngôn từ văn bản thông qua thư viện tiếng nói rộng lớn của mình. Tuy nhiên, công ty hiện đang tìm cách phát hiện lời nói và cạnh tranh với GladiaThì Bài phát biểuThì Lắp rápThì Sâuvà các mô hình thì thầm của Openai.
Mô hình Scribe của Elevenlabs hỗ trợ hơn 99 ngôn ngữ khi ra mắt. Công ty phân loại hơn 25 ngôn ngữ trong danh mục độ chính xác tuyệt vời cho mô hình trong đó tỷ lệ lỗi từ nhỏ hơn 5%. Danh sách này bao gồm tiếng Anh (tỷ lệ chính xác được yêu cầu là 97%), tiếng Pháp, tiếng Đức, tiếng Hindi, người Indonesia, Nhật Bản, Kannada, Malayalam, Ba Lan, Bồ Đào Nha, Tây Ban Nha và Việt Nam. Các ngôn ngữ khác được xếp hạng trong các loại khác nhau với tỷ lệ lỗi từ cao (5-10%), tỷ lệ lỗi tốt (10 đến 20%) và tỷ lệ lỗi từ trung bình (25 đến 50%).
Công ty cho biết mô hình vượt trội so với Google Gemini 2.0 Flash và thì thầm V3 lớn trên nhiều ngôn ngữ trong các bài kiểm tra điểm chuẩn giọng nói Fleurs & thông thường.

Elevenlabs đã phát triển thành phần phát biểu từ văn bản cho nền tảng đại lý trò chuyện AI của mình, được phát hành vào năm ngoái. Tuy nhiên, đây là lần đầu tiên Công ty đang phát hành mô hình phát hiện lời nói độc lập. Trong một cuộc trò chuyện với TechCrunch vào tháng trước, CEO Mati Staniszewski đã nói về việc cải thiện các mô hình phát hiện lời nói.
“Chúng tôi muốn hiểu những gì đang được bạn nói trong một cuộc trò chuyện tốt hơn. Chúng tôi đang làm việc trên các cách để tránh xa việc chỉ tạo ra nội dung và sự hiểu biết và phiên âm lời nói, ông Stan Staniszewski nói vào thời điểm đó. Nhiều người nói rằng lời nói từ văn bản là một vấn đề được giải quyết. Nhưng đối với nhiều ngôn ngữ, nó là khá tệ. Chúng tôi nghĩ rằng chúng tôi có thể xây dựng các mô hình phát hiện lời nói tốt hơn bởi vì chúng tôi có các nhóm trong nhà để chú thích dữ liệu và cung cấp cho chúng tôi phản hồi nhanh chóng.
Mô hình cũng có tựa nhật loa thông minh để cho bạn biết ai đang nói, dấu thời gian ở cấp độ từ cho phụ đề chính xác và các sự kiện âm thanh gắn thẻ tự động như những người cười của khán giả. Khởi động đang cung cấp một cách để khách hàng phiên âm trực tiếp nội dung video để thêm phụ đề hoặc chú thích trong studio của mình.
Scribe hiện chỉ hoạt động với các định dạng âm thanh được ghi trước. Công ty cho biết họ sẽ sớm phát hành phiên bản thời gian thực có độ trễ thấp của mô hình. Điều đó có nghĩa là nó chưa hiệu quả để gặp gỡ phiên âm hoặc ghi chú giọng nói.
Elevenlabs đang định giá ghi chép ở mức 0,40 đô la cho một giờ âm thanh được phiên âm. Trong khi tỷ lệ cạnh tranh, Một số đối thủ của nó Cung cấp giá thấp hơn Đối với phiên âm âm thanh tại thời điểm này với một số tính năng khác biệt.