Trong sự kiện Google I/O 2024 hôm nay, Google đã tiết lộ một cái nhìn về nơi mà trợ lý trí tuệ nhân tạo đang đi đến trong tương lai. Đó là tính năng đa dạng chế độ kết hợp sự thông minh của Gemini với khả năng nhận diện hình ảnh như bạn thấy trong Google Lens, cùng với khả năng phản hồi tự nhiên mạnh mẽ. Tuy nhiên, sau khi trải nghiệm thực tế, rõ ràng có một đoạn đường dài phía trước trước khi một sản phẩm như Astra xuất hiện trên điện thoại của bạn. Dưới đây là ba điều quan trọng chúng tôi nhận được từ trải nghiệm đầu tiên với trí tuệ nhân tạo thế hệ mới của Google.
#GoogleIO #AITechnology #MultiModalAI #GoogleGemini #GoogleLens #TechnologyInnovation #AIAssistants #DigitalAssistant #FutureTech
Sam chia sẻ:
Hiện nay, phần lớn mọi người tương tác với trợ lý kỹ thuật số bằng giọng nói, vì vậy tính đa dạng chế độ của Astra (tức là sử dụng thị giác và âm thanh bên cạnh văn bản/âm thanh) để giao tiếp với một trợ lý trí tuệ là khá mới mẻ. Lý thuyết, điều này cho phép các thực thể dựa trên máy tính làm việc và hành vi giống hệt như một trợ lý thực sự hoặc đại lý – đó là một trong những từ ngữ quảng cáo lớn của Google cho sự kiện – thay vì một cái gì đó cần đáp ứng chỉ bằng lệnh nói.
Trong buổi trình diễn của chúng tôi, chúng tôi được lựa chọn để yêu cầu Astra kể một câu chuyện dựa trên một số đối tượng chúng tôi đặt trước camera, sau đó nó đã kể cho chúng tôi một câu chuyện đáng yêu về một con khủng long và chiếc baguette trung thành của nó cố gắng thoát khỏi ánh sáng đỏ đáng sợ. Đó thực sự là một trải nghiệm vui vẻ và câu chuyện đáng yêu, và trí tuệ nhân tạo hoạt động cũng tốt như bạn mong đợi. Nhưng cùng lúc đó, nó đang cách xa khối lượng trợ lý như chúng ta thấy trong video giới thiệu của Google. Và ngoại trừ việc giải trí cho một đứa trẻ bằng một câu chuyện dành riêng cho buổi tối, Astra không cho cảm giác làm nhiều việc với thông tin như bạn muốn.
Karissa chia sẻ:
Trong tất cả các tiến bộ trí tuệ nhân tạo sinh ra, trí tuệ đa dạng chế độ là điều khiến tôi quan tâm nhất. Mạnh mẽ như các mô hình mới nhất, tôi khó mà hứng thú với các cập nhật chạy theo dạng tương tự với chatbot dựa trên văn bản. Nhưng ý tưởng của trí tuệ nhân tạo có thể nhận ra và phản hồi các câu hỏi về môi trường xung quanh bạn trong thời gian thực giống như trong một phim khoa học viễn tưởng. Điều đó cũng cho thấy rõ hơn cách mà cú sóng tiến bộ mới nhất của trí tuệ nhân tạo sẽ tìm đường vào thiết bị mới như kính thông minh.
Google đã để một cái hiển thị về điều đó với dự án Astra, mà có thể một ngày nào đó sẽ có một phần kính. Nhưng cho đến hiện tại, dự án Astra chủ yếu là thử nghiệm (video trong buổi diễn thuyết I/O dường như chỉ là một “nguyên mẫu nghiên cứu”.) Tuy nhiên, trong trải nghiệm trực tiếp, dự án Astra không thể cảm giác như một điều gì đó trong phim khoa học viễn tưởng. Nó đã có khả năng nhận ra chính xác các đối tượng đã được đặt xung quanh phòng và đáp ứng câu hỏi tinh tế về chúng, như “đồ chơi nào trong số này mà một đứa trẻ 2 tuổi nên chơi.” Nó có thể nhận ra những gì tôi vẽ và tạo ra câu chuyện về các đồ chơi khác chúng tôi cho nó xem.
Nhưng hầu hết khả năng của Astra có vẻ tương đương với những gì Meta có sẵn với kính thông minh của mình. Trí tuệ đa dạng chế độ của Meta cũng có thể nhận biết môi trường của bạn và viết một chút văn chương sáng tạo thay bạn. Và trong khi Meta cũng coi các tính năng là thử nghiệm, chúng ít nhất là phổ biến.
Tính năng của Astra có thể giúp phương pháp của Google trở nên khác biệt là việc nó có một “bộ nhớ” tích hợp. Sau khi quét một loạt đồ vật, nó vẫn “gọi” được vị trí cụ thể của các mục. Hiện tại, dường như bộ nhớ của Astra chỉ hạn chế trong một khoảng thời gian ngắn, nhưng các thành viên trong nhóm nghiên cứu đã cho biết rằng nó có thể được mở rộng lý thuyết. Điều đó sẽ mở ra nhiều khả năng hơn cho công nghệ, khiến cho Astra trở nên giống thật sự như một trợ lý. Tôi không cần biết tôi đã để lại cặp kính của mình từ 30 giây trước, nhưng nếu bạn có thể nhớ nó ở đâu mà tôi để nó từ tối qua, đó sẽ thực sự là như trong một bộ phim khoa học viễn tưởng.
Tóm lại, nhìn chung, những tiềm năng thú vị nhất của trí tuệ nhân tạo đang ở những điều chưa xảy ra. Astra có thể đạt được điều đó cuối cùng, nhưng hiện tại, cảm giác của nó vẫn giống như Google cần phải làm nhiều công việc để đạt được. Đọc thêm tất cả tin tức từ Google I/O 2024 tại đây!
At I/O 2024, Google’s teaser for gave us a glimpse at where AI assistants are going in the future. It’s a multi-modal feature that combines the smarts of Gemini with the kind of image recognition abilities you get in Google Lens, as well as powerful natural language responses. However, while the promo video was slick, after getting to try it out in person, it’s clear there’s a long way to go before something like Astra lands on your phone. So here are three takeaways from our first experience with Google’s next-gen AI.
Sam’s take:
Currently, most people interact with digital assistants using their voice, so right away Astra’s multi-modality (i.e. using sight and sound in addition to text/speech) to communicate with an AI is relatively novel. In theory, it allows computer-based entities to work and behave more like a real assistant or agent – which was one of Google’s big buzzwords for the show – instead of something more robotic that simply responds to spoken commands.
In our demo, we had the option of asking Astra to tell a story based on some objects we placed in front of camera, after which it told us a lovely tale about a dinosaur and its trusty baguette trying to escape an ominous red light. It was fun and the tale was cute, and the AI worked about as well as you would expect. But at the same time, it was far from the seemingly all-knowing assistant we saw in Google’s teaser. And aside from maybe entertaining a child with an original bedtime story, it didn’t feel like Astra was doing as much with the info as you might want.
Then my colleague Karissa drew a bucolic scene on a touchscreen, at which point Astra correctly identified the flower and sun she painted. But the most engaging demo was when we circled back for a second go with Astra running on a Pixel 8 Pro. This allowed us to point its cameras at a collection of objects while it tracked and remembered each one’s location. It was even smart enough to recognize my clothing and where I had stashed my sunglasses even though these objects were not originally part of the demo.
In some ways, our experience highlighted the potential highs and lows of AI. Just the ability for a digital assistant to tell you where you might have left your keys or how many apples were in your fruit bowl before you left for the grocery store could help you save some real time. But after talking to some of the researchers behind Astra, there are still a lot of hurdles to overcome.
Unlike a lot of Google’s recent AI features, Astra (which is described by Google as a “research preview”) still needs help from the cloud instead of being able to run on-device. And while it does support some level of object permanence, those “memories” only last for a single session, which currently only spans a few minutes. And even if Astra could remember things for longer, there are things like storage and latency to consider, because for every object Astra recalls, you risk slowing down the AI, resulting in a more stilted experience. So while it’s clear Astra has a lot of potential, my excitement was weighed down with the knowledge that it will be some time before we can get more full-feature functionality.
Karissa’s take:
Of all the generative AI advancements, multimodal AI has been the one I’m most intrigued by. As powerful as the latest models are, I have a hard time getting excited for iterative updates to text-based chatbots. But the idea of AI that can recognize and respond to queries about your surroundings in real-time feels like something out of a sci-fi movie. It also gives a much clearer sense of how the latest wave of AI advancements will find their way into new devices like smart glasses.
Google offered a hint of that with Project Astra, which may one day have a glasses component, but for now is mostly experimental (the video during the I/O keynote were apparently a “research prototype.”) In person, though, Project Astra didn’t exactly feel like something out of sci-fi flick.
It was able to accurately recognize objects that had been placed around the room and respond to nuanced questions about them, like “which of these toys should a 2-year-old play with.” It could recognize what was in my doodle and make up stories about different toys we showed it.
But most of Astra’s capabilities seemed on-par with what Meta has available with its smart glasses. Meta’s multimodal AI can also recognize your surroundings and do a bit of creative writing on your behalf. And while Meta also bills the features as experimental, they are at least broadly available.
The Astra feature that may set Google’s approach apart is the fact that it has a built-in “memory.” After scanning a bunch of objects, it could still “remember” where specific items were placed. For now, it seems Astra’s memory is limited to a relatively short window of time, but members of the research team told us that it could theoretically be expanded. That would obviously open up even more possibilities for the tech, making Astra seem more like an actual assistant. I don’t need to know where I left my glasses 30 seconds ago, but if you could remember where I left them last night, that would actually feel like sci-fi come to life.
But, like so much of generative AI, the most exciting possibilities are the ones that haven’t quite happened yet. Astra might get there eventually, but right now it feels like Google still has a lot of work to do to get there.
Catch up on all the news from Google I/O 2024 right here!