Tại sao ‘AI đa phương thức’ đang trở thành hiện tượng nóng trong công nghệ hiện nay

Tại sao ‘Multimodal AI’ là điều ‘hot’ nhất trong công nghệ ngay bây giờ? OpenAI và Google đã giới thiệu công nghệ AI mới nhất và tốt nhất của họ vào tuần này. Trong hai năm qua, các công ty công nghệ đã đua nhau để làm cho các mô hình AI thông minh hơn, nhưng bây giờ một trọng tâm mới đã xuất hiện: làm cho chúng trở nên multimodal. OpenAI và Google đang tập trung vào việc phát triển AI có thể chuyển đổi một cách mượt mà giữa miệng, mắt và tai của nó.

#”Multimodal” là từ khóa lớn nhất khi các công ty công nghệ đặt cược vào hình thức hấp dẫn nhất của các mô hình AI trong cuộc sống hàng ngày của bạn. Các chatbot AI đã mất đi sự quyến rũ của mình kể từ khi ChatGPT ra mắt vào năm 2022. Vì vậy, các công ty hy vọng rằng việc trò chuyện và chia sẻ thông tin một cách trực quan với trợ lý AI sẽ cảm thấy tự nhiên hơn là gõ phím. Khi bạn thấy multimodal AI hoạt động tốt, nó cảm giác như là khoa học viễn tưởng trở thành hiện thực.

Trong ngày thứ Hai, OpenAI đã trình diễn GPT-4 Omni, một mô hình AI lấy cảm hứng từ bộ phim đen tối về sự mất kết nối của con người Her. Omni đại diện cho “omnichannel”, và OpenAI tuyên bố về khả năng của mô hình xử lý video cùng âm thanh. Buổi demo hiển thị ChatGPT nhìn vào một bài toán toán học thông qua camera điện thoại, khi một nhân viên OpenAI yêu cầu chatbot hướng dẫn họ qua nó. OpenAI cho biết đang triển khai cho người dùng Premium ngay bây giờ.

Ngày hôm sau, Google giới thiệu dự án Astra, hứa hẹn sẽ làm gần như cùng một điều đó. Florence Ion của Gizmodo đã sử dụng multimodal AI để xác định loại hoa giả mạo cô đang nhìn thấy, mà nó đúng là hoa tulip. Tuy nhiên, dự án Astra dường như chậm hơn mô hình GPT-4o, và giọng nói cũng thêm nhiều yếu tố máy móc hơn. Giống như Siri hơn là ‘Her’, nhưng tôi sẽ để bạn quyết định xem đó có phải là điều tốt không. Google nói rằng đây mới chỉ là giai đoạn đầu, và thậm chí còn ghi chú một số thách thức hiện tại mà OpenAI đã vượt qua.

#”Trong khi chúng tôi đã tiến xa trong việc phát triển hệ thống AI có thể hiểu thông tin multimodal, giảm thời gian phản hồi xuống một cấp độ trò chuyện là một thách thức kỹ thuật khó”, Google nói trong một bài đăng trên blog. Bây giờ bạn có thể nhớ đến video demo của Gemini của Google từ tháng 12 năm 2023 được chỉnh sửa nhiều. Sáu tháng sau, Google vẫn chưa sẵn sàng để phát hành những gì họ đã thể hiện trong video đó, nhưng OpenAI đang nhanh chóng tiến lên với GPT-4o. Multimodal AI đại diện cho cuộc đua lớn tiếp theo trong phát triển AI, và OpenAI dường như đang dẫn đầu.

Một điểm khác biệt chính cho GPT-4o là mô hình AI duy nhất có thể xử lý audio, video và văn bản một cách tự nhiên. Trước đây, OpenAI cần các mô hình AI riêng lẻ để dịch âm thanh và video thành văn bản để mô hình GPT-4, dựa trên ngôn ngữ, có thể hiểu được các phương tiện khác nhau này. Có vẻ như Google vẫn đang sử dụng nhiều mô hình AI để thực hiện các nhiệm vụ này, vì thời gian phản hồi chậm hơn.

Chúng ta cũng đã thấy sự áp dụng rộng rãi hơn của AI có thể đeo được khi các công ty công nghệ chấp nhận multimodal AI. Humane AI Pin, Rabbit R1 và Meta Ray-Bans là các ví dụ về các thiết bị được kích hoạt bởi AI sử dụng các phương tiện khác nhau này. Những thiết bị này hứa hẹn giúp chúng ta trở nên ít phụ thuộc hơn vào điện thoại thông minh, mặc dù có thể rằng Siri và Google Assistant cũng sẽ sớm được cung cấp tính năng multimodal AI.

Multimodal AI có lẽ là một điều mà bạn sẽ nghe nhiều hơn trong những tháng và năm tới. Sự phát triển và tích hợp của công nghệ này vào các sản phẩm có thể làm cho AI trở nên đáng tin cậy hơn đáng kể. Công nghệ cuối cùng giúp giảm áp lực khỏi bạn để chuyển thông tin thế giới thành LLM và cho phép AI “nhìn thấy” và “nghe thấy” thế giới cho riêng nó.

#MultimodalAI #OpenAI #Google #AI #CôngNghệ

Nguồn: https://gizmodo.com/why-multimodal-ai-is-the-hottest-thing-in-tech-right-1851478570

OpenAI and Google showcased their latest and greatest AI technology this week. For the last two years, tech companies have raced to make AI models smarter, but now a new focus has emerged: make them multimodal. OpenAI and Google are zeroing in on AI that can seamlessly switch between its robotic mouth, eyes, and ears.

“Multimodal” is the biggest buzzword as tech companies place bets on the most enticing form of their AI models in your everyday life. AI chatbots have lost their luster since ChatGPT’s launch in 2022. So companies are hoping that talking to and visually sharing things with an AI assistant feels more natural than typing. When you see multimodal AI done well, it feels like science fiction come to life.

On Monday, OpenAI showed off GPT-4 Omni, which was oddly reminiscent of the dystopian movie about lost human connection Her. Omni stands for “omnichannel,” and OpenAI touted the model’s ability to process video alongside audio. The demo showed ChatGPT looking at a math problem through a phone camera, as an OpenAI staff member verbally asked the chatbot to walk them through it. OpenAI says it’s rolling out now to Premium users.

The next day, Google unveiled Project Astra, which promised to do roughly the same thing. Gizmodo’s Florence Ion used multimodal AI to identify what faux flowers she was looking at, which it correctly identified as tulips. However, Project Astra seemed a little slower than GPT-4o, and the voice was far more robotic. More Siri than Her, but I’ll let you decide whether that’s a good thing. Google says this is in the early stages, however, and even notes some current challenges that OpenAI has overcome.

“While we’ve made incredible progress developing AI systems that can understand multimodal information, getting response time down to something conversational is a difficult engineering challenge,” said Google in a blog post.

Now you might remember Google’s Gemini demo video from Dec. 2023 that turned out to be highly manipulated. Six months later, Google still isn’t ready to release what it showed in that video, but OpenAI is speeding ahead with GPT-4o. Multimodal AI represents the next big race in AI development, and OpenAI seems to be winning.

A key difference maker for GPT-4o is that the single AI model can natively process audio, video, and text. Previously, OpenAI needed separate AI models to translate speech and video into text so that the underlying GPT-4, which is language-based, could understand these different mediums. It seems like Google may still be using multiple AI models to perform these tasks, given the slower response times.

We’ve also seen a wider adoption of AI wearables as tech companies embrace multimodal AI. The Humane AI Pin, Rabbit R1, and Meta Ray-Bans are all examples of AI-enabled devices that utilize these various mediums. These devices promise to make us less dependent on smartphones, though it’s possible that Siri and Google Assistant will also be empowered with multimodal AI soon enough.

Multimodal AI is likely something you’ll hear a lot more about in the months and years to come. Its development and integration into products could make AI significantly more useful. The technology ultimately takes the weight off of you to transcribe the world to an LLM and allows the AI to “see” and “hear” the world for itself.


Leave a Reply

Your email address will not be published. Required fields are marked *