Tham gia các bản tin hàng ngày và hàng tuần của chúng tôi để cập nhật mới nhất và nội dung độc quyền về bảo hiểm AI hàng đầu trong ngành. Tìm hiểu thêm
Ôm khuôn mặtKhởi nghiệp AI có giá trị hơn 4 tỷ đô la, đã giới thiệu FastrtcMột thư viện Python nguồn mở giúp loại bỏ một trở ngại lớn cho các nhà phát triển xây dựng các ứng dụng AI âm thanh và video thời gian thực.
Xây dựng các ứng dụng WEBRTC và WebSocket thời gian thực rất khó để có được ngay trong Python. Cho đến bây giờ, ”Freddy Boulton, một trong những người sáng tạo của FASTRTC, trong một thông báo trên x.com.
Webrtc Công nghệ cho phép giao tiếp với trình duyệt trực tiếp đến trình duyệt cho âm thanh, video và chia sẻ dữ liệu mà không cần plugin hoặc tải xuống. Mặc dù rất cần thiết cho các trợ lý giọng nói hiện đại và các công cụ video, việc triển khai WEBRTC vẫn là một bộ kỹ năng chuyên dụng mà hầu hết các kỹ sư học máy chỉ đơn giản là không sở hữu.
Xây dựng các ứng dụng WEBRTC và WebSocket thời gian thực rất khó để có được ngay trong Python.
Cho đến bây giờ – giới thiệu FASTRTC, thư viện truyền thông thời gian thực cho Python pic.twitter.com/pr67kiz9ke
– Freddy A Boulton (@freddy_alfonso_) Ngày 25 tháng 2 năm 2025
Voice AI Gold Rush gặp rào cản kỹ thuật của nó
Thời điểm không thể chiến lược hơn. Tiếng nói AI đã thu hút sự chú ý và vốn rất lớn – Elevenlabs gần đây được bảo đảm 180 triệu đô la tài trợ, trong khi các công ty thích KyutaiThì AlibabaVà FIXIE.AI Tất cả đã phát hành các mô hình âm thanh chuyên dụng.
Tuy nhiên, sự mất kết nối vẫn tồn tại giữa các mô hình AI tinh vi này và cơ sở hạ tầng kỹ thuật cần thiết để triển khai chúng trong các ứng dụng thời gian thực đáp ứng. Như khuôn mặt ôm được ghi nhận trong Bài viết trên blogCác kỹ sư của ML ML có thể không có kinh nghiệm với các công nghệ cần thiết để xây dựng các ứng dụng thời gian thực, chẳng hạn như WEBRTC.
Fastrtc Giải quyết vấn đề này với các tính năng tự động xử lý các phần phức tạp của giao tiếp thời gian thực. Thư viện cung cấp phát hiện giọng nói, khả năng quay vòng, giao diện thử nghiệm và thậm chí tạo số điện thoại tạm thời để truy cập ứng dụng.
Muốn xây dựng các ứng dụng thời gian thực với @Googledeepmind Song Tử 2.0 flash? FASTRTC cho phép bạn xây dựng các ứng dụng thời gian thực dựa trên Python bằng gradio-ui. ?
? Chuyển đổi các hàm Python thành các luồng âm thanh/video hai chiều với mã tối thiểu
– Philipp Schmid (@_philschmid) Ngày 26 tháng 2 năm 2025
? Phát hiện giọng nói tích hợp và tự động pic.twitter.com/O835HTR0HL
Từ cơ sở hạ tầng phức tạp đến năm dòng mã
Lợi thế chính của thư viện là sự đơn giản của nó. Các nhà phát triển có thể tạo ra các ứng dụng âm thanh thời gian thực cơ bản chỉ trong một vài dòng mã-một sự tương phản nổi bật với các tuần công việc phát triển cần thiết trước đây.
Sự thay đổi này giữ ý nghĩa đáng kể cho các doanh nghiệp. Các công ty trước đây cần các kỹ sư truyền thông chuyên ngành hiện có thể tận dụng các nhà phát triển Python hiện tại của họ để xây dựng các tính năng AI của Voice và Video.
Bạn có thể sử dụng bất kỳ API LLM/Text-to-Speech/Speech-to-Intext hoặc thậm chí là mô hình phát biểu thành bài phát biểu. Mang theo các công cụ bạn yêu thích-FASTRTC chỉ cần xử lý lớp giao tiếp thời gian thực, thông báo giải thích.
Take Take: WebRTC nên là một dòng mã Python
Giới thiệu fastrtc⚡ từ Gradio!
Bắt đầu ngay: PIP Cài đặt FASTRTC
Những gì bạn nhận được:
– Gọi AI của bạn từ một chiếc điện thoại thực
– Phát hiện giọng nói tự động
– Hoạt động với bất kỳ mô hình nào
– UI tốt nghiệp ngay lập tức để kiểm traĐiều này thay đổi mọi thứ pic.twitter.com/kvx436xbgn
– gradio (@gradio) Ngày 25 tháng 2 năm 2025
Làn sóng sắp tới của đổi mới giọng nói và video
Việc giới thiệu FASTRTC báo hiệu một bước ngoặt trong phát triển ứng dụng AI. Bằng cách loại bỏ một rào cản kỹ thuật quan trọng, công cụ mở ra các khả năng vẫn là lý thuyết cho nhiều nhà phát triển.
Tác động có thể đặc biệt có ý nghĩa đối với các công ty nhỏ hơn và các nhà phát triển độc lập. Trong khi những người khổng lồ công nghệ thích Google Và Openai Có các nguồn lực kỹ thuật để xây dựng cơ sở hạ tầng truyền thông thời gian thực tùy chỉnh, hầu hết các tổ chức không có. FASTRTC về cơ bản cung cấp quyền truy cập vào các khả năng trước đây được dành cho những người có đội chuyên dụng.
Thư viện “Sách nấu ănĐã giới thiệu các ứng dụng đa dạng: Trò chuyện bằng giọng nói được cung cấp bởi các mô hình ngôn ngữ khác nhau, phát hiện đối tượng video thời gian thực và tạo mã tương tác thông qua các lệnh thoại.
Điều đặc biệt đáng chú ý là thời gian. FASTRTC đến giống như các giao diện AI đang chuyển từ các tương tác dựa trên văn bản sang các trải nghiệm đa phương thức tự nhiên hơn. Các hệ thống AI tinh vi nhất hiện nay có thể xử lý và tạo văn bản, hình ảnh, âm thanh và video-nhưng việc triển khai các khả năng này trong các ứng dụng thời gian thực đáp ứng vẫn còn đầy thách thức.
Bằng cách thu hẹp khoảng cách giữa các mô hình AI và giao tiếp thời gian thực, FASTRTC không chỉ giúp phát triển dễ dàng hơn-nó có khả năng tăng tốc sự thay đổi rộng hơn đối với các trải nghiệm AI của giọng nói đầu tiên và tăng cường video, cảm thấy giống con người hơn và ít như máy tính hơn.
Đối với người dùng, điều này có thể có nghĩa là giao diện tự nhiên hơn giữa các ứng dụng. Đối với các doanh nghiệp, nó có nghĩa là thực hiện nhanh hơn các tính năng mà khách hàng của họ ngày càng mong đợi.
Cuối cùng, FASTRTC giải quyết một vấn đề cổ điển trong công nghệ: khả năng mạnh mẽ thường không được sử dụng cho đến khi chúng có thể tiếp cận được với các nhà phát triển chính thống. Bằng cách đơn giản hóa những gì đã từng phức tạp, Face Face đã loại bỏ một trong những trở ngại lớn cuối cùng giữa các mô hình AI tinh vi ngày nay và các ứng dụng thoại đầu tiên của ngày mai.