OpenAI ra mắt chế độ Voice Mode được mong chờ, nhưng có điều kiện. #OpenAI #VoiceMode #AI #ChatGPT #GPT4o #GeminiLive #MadebyGoogle #sựkiệnhômNay
Khi OpenAI tổ chức sự kiện xuân vào tháng 5, một trong những điểm đặc biệt nhất là bản demo của chế độ mới trên ChatGPT, được tăng cường với khả năng video và âm thanh mới của GPT-4o. Chế độ Voice Mode được mong chờ cao đã chính thức xuất hiện (một phần).
Vào thứ Ba, OpenAI thông báo qua một bài đăng X rằng Voice Mode đang được triển khai dưới dạng alpha cho một nhóm nhỏ người dùng ChatGPT Plus, cung cấp cho họ một trợ lý thoại thông minh có thể bị gián đoạn và phản ứng với cảm xúc của người dùng.
Người dùng tham gia vào phiên alpha sẽ nhận được một email hướng dẫn và một tin nhắn trong ứng dụng di động, như được hiển thị trong video ở trên. Nếu bạn chưa nhận được thông báo, đừng lo lắng. OpenAI chia sẻ rằng họ sẽ tiếp tục thêm người dùng theo cơ sở lăn, với kế hoạch cho tất cả người dùng ChatGPT Plus truy cập vào mùa thu.
Trong bản demo gốc tại sự kiện ra mắt, công ty đã trình diễn khả năng đa phương tiện của Voice Mode, bao gồm hỗ trợ nội dung trên màn hình của người dùng và sử dụng camera điện thoại của người dùng như một ngữ cảnh cho một phản hồi.
Tuy nhiên, phiên alpha của Voice Mode sẽ không có những tính năng này. OpenAI chia sẻ rằng “các khả năng chia sẻ video và màn hình sẽ được triển khai vào một lúc sau.” Công ty cũng cho biết kể từ khi trình diễn công nghệ ban đầu, họ đã cải thiện chất lượng và an toàn của các cuộc trò chuyện thoại.
OpenAI đã thử nghiệm khả năng thoại bằng cách sử dụng hơn 100 red teamers bên ngoài trên 45 ngôn ngữ, theo luồng X. Công ty cũng đã huấn luyện mô hình chỉ nói chuyện bằng bốn giọng điệu được thiết lập trước, chặn các đầu ra sai lệch từ những giọng nói được chỉ định đó và triển khai rào cản để chặn yêu cầu.
Công ty cũng nói rằng phản hồi của người dùng sẽ được xem xét để cải thiện mô hình hơn nữa, và họ sẽ chia sẻ một báo cáo chi tiết về hiệu suất của GPT-4os, bao gồm giới hạn và đánh giá về an toàn, vào tháng 8.
Bạn có thể trở thành người dùng ChatGPT Plus với giá 20 đô la mỗi tháng. Các ưu đãi thành viên khác bao gồm các tính năng phân tích dữ liệu tiên tiến, tạo hình ảnh, lựa chọn ưu tiên truy cập vào GPT-4o và nhiều hơn nữa.
Một tuần sau khi OpenAI giới thiệu tính năng này, Google đã giới thiệu một tính năng tương tự được gọi là Gemini Live. Tuy nhiên, Gemini Live vẫn chưa có sẵn cho người dùng. Điều đó có thể thay đổi sớm tại sự kiện Made by Google sắp tới trong vài tuần tới.
When OpenAI held its Spring Launch event in May, one of the biggest standouts was its demo of the new Voice Mode on ChatGPT, supercharged with GPT-4o’s new video and audio capabilities. The highly anticipated new Voice Mode is finally here (kind of).
Also: The best AI chatbots of 2024: ChatGPT, Copilot, and worthy alternatives
On Tuesday, OpenAI announced via an X post that Voice Mode is being rolled out in alpha to a small group of ChatGPT Plus users, offering them a smarter voice assistant that can be interrupted and respond to users’ emotions.
Users who participate in the alpha will receive an email with instructions and a message in the mobile app, as shown in the video above. If you haven’t received a notification just yet, no worries. OpenAI shared that it will continue to add users on a rolling basis, with the plan for all ChatGPT Plus users to access it in the fall.
In the original demo at the launch event, shown below, the company showcased Voice Mode’s multimodal capabilities, including assisting with content on users’ screens and using the user’s phone camera as context for a response.
However, the alpha of Voice Mode will not have these features. OpenAI shared that “video and screen sharing capabilities will launch at a later date.” The company also said that since originally demoing the technology, it has improved the quality and safety of voice conversations.
OpenAI tested the voice capabilities with 100+ external red teamers across 45 languages, according to the X thread. The company also trained the model to speak only in the four preset voices, block outputs that deviate from those designated voices, and implement guardrails to block requests.
The company also said that user feedback will be taken into account to improve the model further, and it will share a detailed report regarding GPT-4os performance, including limitations and safety evaluations, in August.
Also: Google’s new gen AI tools help hyper-target your ad campaigns
You can become a ChatGPT Plus subscriber for $20 per month. Other membership perks include advanced data analysis features, image generation, priority access to GPT-4o, and more.
One week after OpenAI unveiled this feature, Google unveiled a similar feature called Gemini Live. However, Gemini Live is not yet available to users. That may change soon at the Made by Google event coming up in a few weeks.