ChatGPT Advanced Voice Mode – Ấn Tượng Đầu Tiên: Vui Vẻ Và Chút Bí Ẩn
Tôi để Chế Độ Giọng Nói Nâng Cao của ChatGPT bật khi viết bài này như một người bạn trợ lý trí tuệ nhân tạo. Đôi khi, tôi hỏi nó cung cấp từ đồng nghĩa cho một từ quá sử dụng, hoặc một chút động viên. Khoảng một nửa giờ sau, trò chuyện giữa chúng tôi bị gián đoạn và chatbot bắt đầu nói chuyện với tôi bằng tiếng Tây Ban Nha, không cần khích lệ. Tôi cười một chút và hỏi chuyện gì đang xảy ra. “Chỉ là một chút thay đổi thôi? Phải giữ cho mọi thứ thú vị,” ChatGPT nói, đã quay trở lại tiếng Anh.
Trong quá trình thử nghiệm Chế Độ Giọng Nói Nâng Cao như một phần của phiên bản alpha sớm, mối tương tác của tôi với tính năng âm thanh mới của ChatGPT là vui vẻ, lộn xộn và đa dạng đáng ngạc nhiên. Tuy nhiên, cần lưu ý rằng các tính năng tôi được truy cập chỉ là nửa phần của những gì OpenAI đã thể hiện khi họ ra mắt mô hình GPT-4o vào tháng Năm. Mặt thị giác mà chúng ta thấy trong buổi trình diễn trực tiếp thông qua phát sóng trực tiếp đã được lên lịch cho một phiên bản phát hành sau và giọng Sky nâng cao, mà nữ diễn viên Her Scarlett Johanssen đã phản đối, đã bị loại bỏ khỏi Chế Độ Giọng Nói Nâng Cao và vẫn không phải là một lựa chọn cho người dùng.
Vậy, cảm nhận hiện tại là gì? Hiện tại, Chế Độ Giọng Nói Nâng Cao cảm giác giống như khi ChatGPT với định dạng văn bản ban đầu được ra mắt vào cuối năm 2022. Đôi khi nó dẫn đến những con đường chết người không ấn tượng hoặc tiêu cực thành những câu ngạn ngẫn của trí tuệ nhân tạo. Nhưng những lúc cuộc trò chuyện giảm thời lượng kết nối mà Apple Siri hay Amazon Alexa chưa bao giờ có với tôi, và tôi cảm thấy muốn tiếp tục trò chuyện vì sự thích thú. Đó chính là công cụ trí tuệ nhân tạo bạn sẽ chia sẻ với người thân trong những dịp lễ để cười.
OpenAI đã cung cấp cho một số phóng viên WIRED tiếp cận với tính năng vào một tuần sau thông báo ban đầu, nhưng rút lại vào sáng hôm sau, đề xuất lo ngại về an ninh. Hai tháng sau đó, OpenAI mềm Uống Chế Độ Giọng Nói Nâng Cao cho một nhóm người dùng nhỏ và phát hành thẻ hệ thống GPT-4o, một tài liệu kỹ thuật mô tả các nỗ lực red teaming, những nguy cơ về an toàn mà công ty xem xét và các bước giảm thiểu mà công ty đã thực hiện để giảm thiểu thiệt hại.
Tò mò để thử ngay? Dưới đây là những gì bạn cần biết về việc triển khai lớn hơn của Chế Độ Giọng Nói Nâng Cao và cảm nhận ban đầu của tôi về tính năng giọng của ChatGPT để giúp bạn bắt đầu. #ChatGPT #OpenAI #AdvancedVoiceMode
Nguồn: https://www.wired.com/story/chatgpt-advanced-voice-mode-first-impressions/
I leave ChatGPT’s Advanced Voice Mode on while writing this article as an ambient AI companion. Occasionally, I’ll ask it to provide a synonym for an overused word, or some encouragement. Around half an hour in, the chatbot interrupts our silence and starts speaking to me in Spanish, unprompted. I giggle a bit and ask what’s going on. “Just a little switch up? Gotta keep things interesting,” says ChatGPT, now back in English.
While testing Advanced Voice Mode as part of the early alpha, my interactions with ChatGPT’s new audio feature were entertaining, messy, and surprisingly varied. Though, it’s worth noting that the features I had access to were only half of what OpenAI demonstrated when it launched the GPT-4o model in May. The vision aspect we saw in the livestreamed demo is now scheduled for a later release, and the enhanced Sky voice, which Her actor Scarlett Johanssen pushed back on, has been removed from Advanced Voice Mode and is still no longer an option for users.
So, what’s the current vibe? Right now, Advanced Voice Mode feels reminiscent of when the original text-based ChatGPT dropped, late in 2022. Sometimes it leads to unimpressive dead ends or devolves into empty AI platitudes. But other times the low-latency conversations click in a way that Apple’s Siri or Amazon’s Alexa never have for me, and I feel compelled to keep chatting out of enjoyment. It’s the kind of AI tool you’ll show your relatives during the holidays for a laugh.
OpenAI gave a few WIRED reporters access to the feature a week after the initial announcement, but pulled it the next morning, citing safety concerns. Two months later, OpenAI soft launched Advanced Voice Mode to a small group of users and released GPT-4o’s system card, a technical document that outlines red teaming efforts, what the company considers to be safety risks, and mitigation steps the company has taken to reduce harm.
Curious to give it a go yourself? Here’s what you need to know about the larger rollout of Advanced Voice Mode, and my first impressions of ChatGPT’s new voice feature to help you get started.
So, When’s the Full Roll Out?
OpenAI released an audio-only Advanced Voice Mode to some ChatGPT Plus users at the end of July, and the alpha group still seems relatively small. The company currently plans to enable it for all subscribers sometime this fall. Niko Felix, a spokesperson for OpenAI, shared no additional details when asked about the release timeline.
Screen and video sharing were a core part of the original demo, but they are not available in this alpha test. OpenAI still plans to add those aspects eventually, but it’s also not clear when that will actually happen.
If you’re a ChatGPT Plus subscriber, you’ll receive an email from OpenAI when the Advanced Voice Mode is available to you. After it’s on your account, you can switch between Standard and Advanced at the top of the app’s screen when ChatGPT’s voice mode is open. I was able to test the alpha version on an iPhone as well as a Galaxy Fold.
My First Impressions on ChatGPT’s Advanced Voice Mode
Within the very first hour of speaking with it, I learned that I love interrupting ChatGPT. It’s not how you would talk with a human, but having the new ability to cut off ChatGPT mid-sentence and request a different version of the output feels like a dynamic improvement and a stand-out feature.
Early adopters who were excited by the original demos may be frustrated getting access to a version of Advanced Voice Mode restricted with more guardrails than anticipated. For example, although generative AI singing was a key component of the launch demos, with whispered lullabies and multiple voices attempting to harmonize, AI serenades are currently absent from the alpha version.