Ứng dụng ChatGPT có thể nói chuyện với bạn – và xem vào cuộc sống của bạn ngay bây giờ.

Ứng dụng ChatGPT giờ đây có thể nói chuyện với bạn và nhìn vào cuộc sống của bạn.

OpenAI, công ty trí tuệ nhân tạo đã giới thiệu ChatGPT vào thế giới vào tháng 11 năm ngoái, đang làm cho ứng dụng trò chuyện này trở nên thân thiện hơn.

Phiên bản nâng cấp của ứng dụng di động ChatGPT cho iOS và Android được công bố hôm nay cho phép người dùng nói câu hỏi của mình đến chatbot và nghe nó trả lời bằng giọng hợp thành của riêng nó. Phiên bản mới của ChatGPT cũng bổ sung tính năng thông minh về hình ảnh: tải lên hoặc chụp ảnh từ ChatGPT và ứng dụng sẽ trả lời bằng một mô tả về hình ảnh và cung cấp thêm bối cảnh tương tự tính năng Lens của Google.

Các khả năng mới của ChatGPT cho thấy OpenAI đang xem xét các mô hình trí tuệ nhân tạo của mình, đã được phát triển từ nhiều năm nay, như những sản phẩm với cập nhật định kỳ. Trò chuyện ChatGPT, cho phép người dùng trò chuyện tự nhiên, trông giống một ứng dụng tiêu dùng cạnh tranh với Siri của Apple hay Alexa của Amazon.

Việc làm cho ứng dụng ChatGPT hấp dẫn hơn có thể giúp OpenAI trong cuộc đua với các công ty trí tuệ nhân tạo khác như Google, Anthropic, InflectionAI và Midjourney, bằng cách cung cấp một nguồn dữ liệu phong phú từ người dùng để huấn luyện các bộ máy trí tuệ AI mạnh mẽ của mình. Việc cung cấp dữ liệu âm thanh và hình ảnh vào các mô hình học máy đằng sau ChatGPT cũng có thể giúp thực hiện tầm nhìn dài hạn của OpenAI về việc tạo ra trí tuệ giống con người hơn.

Các mô hình ngôn ngữ của OpenAI, đứng sau chatbot của họ, bao gồm phiên bản gần đây nhất, GPT-4, đã được tạo ra bằng cách sử dụng lượng lớn văn bản được thu thập từ các nguồn khác nhau trên web. Nhiều chuyên gia trí tuệ nhân tạo tin rằng, tương tự như trí tuệ của động vật và con người sử dụng nhiều loại dữ liệu giác quan khác nhau, việc tạo ra trí tuệ AI tiến bộ hơn có thể yêu cầu cung cấp thông tin âm thanh và hình ảnh cùng với văn bản.

Người ta đồn đoán rằng phiên bản AI quan trọng tiếp theo của Google, Gemini, có khả năng “đa phương thức”, có nghĩa là nó sẽ có thể xử lý không chỉ văn bản mà có thể cho phép video, hình ảnh và lệnh thoại. “Từ khía cạnh hiệu suất mô hình, từ trực giác chúng ta sẽ hy vọng các mô hình đa phương thức sẽ vượt qua các mô hình được huấn luyện trên một phương thức duy nhất,” Trevor Darrell, giáo sư tại Trường Đại học California, Berkeley và là một trong những người sáng lập Prompt AI, một công ty khởi nghiệp đang làm việc về kết hợp ngôn ngữ tự nhiên với tạo và chỉnh sửa hình ảnh, cho biết.

Công nghệ tạo giọng nói mới của ChatGPT, được phát triển bởi OpenAI, cũng mở ra cơ hội mới cho công ty cấp phép công nghệ của mình cho người khác sử dụng. Ví dụ, Spotify cho biết họ hiện đang lên kế hoạch sử dụng thuật toán tổng hợp giọng nói của OpenAI để thử nghiệm tính năng dịch các podcast sang các ngôn ngữ khác nhau, bằng nguồn giọng được tạo ra bằng công nghệ trí tuệ nhân tạo.

Phiên bản mới của ứng dụng ChatGPT có biểu tượng tai nghe ở phía trên bên phải và biểu tượng ảnh và máy ảnh trong menu mở rộng ở góc dưới bên trái. Những tính năng giọng nói và hình ảnh này hoạt động bằng cách chuyển đổi thông tin đầu vào thành văn bản, sử dụng công nghệ nhận dạng hình ảnh hoặc giọng nói để chatbot có thể tạo ra phản hồi. Ứng dụng sau đó sẽ phản hồi thông qua giọng nói hoặc văn bản, tùy thuộc vào chế độ người dùng đang sử dụng. Khi một nhà báo WIRED hỏi ChatGPT mới bằng giọng nói liệu nó có “nghe” được hay không, ứng dụng trả lời: “Tôi không thể nghe bạn, nhưng tôi có thể đọc và trả lời tin nhắn văn bản của bạn,” vì câu hỏi bằng giọng nói của bạn thực tế là đang được xử lý thành văn bản. Ứng dụng sẽ phản hồi bằng một trong năm giọng nói, với tên Juniper, Ember, Sky, Cove hoặc Breeze. #ChatGPT #OpenAI #trí_tuệ_nhân_tạo #tương_tác_người_máy

Nguồn: https://www.wired.com/story/chatgpt-can-now-talk-to-you-and-look-into-your-life/

OpenAI, the artificial intelligence company that unleashed ChatGPT on the world last November, is making the chatbot app a lot more chatty.

An upgrade to the ChatGPT mobile apps for iOS and Android announced today lets a person speak their queries to the chatbot and hear it respond with its own synthesized voice. The new version of ChatGPT also adds visual smarts: Upload or snap a photo from ChatGPT and the app will respond with a description of the image and offer more context, similar to Google’s Lens feature.

ChatGPT’s new capabilities show that OpenAI is treating its artificial intelligence models, which have been in the works for years now, as products with regular, iterative updates. The company’s surprise hit, ChatGPT, is looking more like a consumer app that competes with Apple’s Siri or Amazon’s Alexa.

Making the ChatGPT app more enticing could help OpenAI in its race against other AI companies, like Google, Anthropic, InflectionAI, and Midjourney, by providing a richer feed of data from users to help train its powerful AI engines. Feeding audio and visual data into the machine learning models behind ChatGPT may also help OpenAI’s long-term vision of creating more human-like intelligence.

OpenAI’s language models that power its chatbot, including the most recent, GPT-4, were created using vast amounts of text collected from various sources around the web. Many AI experts believe that, just as animal and human intelligence makes use of various types of sensory data, creating more advanced AI may require feeding algorithms audio and visual information as well as text.

Google’s next major AI model, Gemini, is widely rumored to be “multimodal,” meaning it will be able to handle more than just text, perhaps allowing video, images, and voice inputs. “From a model performance standpoint, intuitively we would expect multimodal models to outperform models trained on a single modality,” says Trevor Darrell, a professor at UC Berkeley and a cofounder of Prompt AI, a startup working on combining natural language with image generation and manipulation. “If we build a model using just language, no matter how powerful it is, it will only learn language.”

ChatGPT’s new voice generation technology—developed in-house by the company—also opens new opportunities for the company to license its technology to others. Spotify, for example, says it now plans to use OpenAI’s speech synthesis algorithms to pilot a feature that translates podcasts into additional languages, in an AI-generated imitation of the original podcaster’s voice.

The new version of the ChatGPT app has a headphones icon in the upper right and photo and camera icons in an expanding menu in the lower left. These voice and visual features work by converting the input information to text, using image or speech recognition, so the chatbot can generate a response. The app then responds via either voice or text, depending on what mode the user is in. When a WIRED writer asked the new ChatGPT using her voice if it could “hear” her, the app responded, “I can’t hear you, but I can read and respond to your text messages,” because your voice query is actually being processed as text. It will respond in one of five voices, wholesomely named Juniper, Ember, Sky, Cove, or Breeze.


[ad_2]

Leave a Reply

Your email address will not be published. Required fields are marked *