Hệ thống trí tuệ nhân tạo Ferret-UI 2 mới của Apple có thể điều khiển ứng dụng trên iPhone, iPad, Android và Apple TV.

Apple đã phát triển một hệ thống trí tuệ nhân tạo mới được gọi là Ferret-UI 2 có khả năng đọc và điều khiển ứng dụng trên các thiết bị iPhone, iPad, Android, trình duyệt web và Apple TV. Hệ thống này đã đạt điểm số 89.73 trong các bài kiểm tra nhận diện yếu tố giao diện người dùng, đáng kể cao hơn so với điểm số của GPT-4o là 77.73. Ferret-UI 2 cũng cho thấy sự cải thiện đáng kể so với phiên bản trước đó trong các nhiệm vụ cơ bản như nhận dạng văn bản và nút, cũng như các hoạt động phức tạp hơn.

Hệ thống này sử dụng một kiến trúc linh hoạt nhận diện các yếu tố giao diện người dùng trên các nền tảng khác nhau. Nó bao gồm một thuật toán tự động cân bằng độ phân giải hình ảnh và yêu cầu xử lý cho mỗi nền tảng. Theo các nhà nghiên cứu, phương pháp này “vừa bảo tồn thông tin vừa hiệu quả cho mã hóa cục bộ.”

Việc thử nghiệm cho thấy hiệu suất chuyển đổi giữa các nền tảng mạnh mẽ, với các mô hình được đào tạo trên dữ liệu iPhone đạt độ chính xác 68% trên iPad và 71% trên thiết bị Android. Tuy nhiên, hệ thống gặp khó khăn hơn khi chuyển đổi giữa các thiết bị di động và giao diện TV hoặc Web, mà các nhà nghiên cứu quy về sự khác biệt trong bố cục màn hình.

Công việc của Apple đến khi các công ty khác cũng đẩy mạnh với hệ thống trí tuệ nhân tạo hiểu giao diện người dùng của riêng mình. Anthropic gần đây đã phát hành phiên bản Claude 3.5 Sonnet cập nhật với tương tác giao diện người dùng, trong khi Microsoft đã phát hành OmniParser, một công cụ mã nguồn mở chuyển đổi nội dung màn hình thành dữ liệu cấu trúc, cho mục đích tương tự.

#Apple #FerretUI2 #AI #GiaoDiệnNgườiDùng

Nguồn: https://the-decoder.com/apples-new-ferret-ui-2-ai-system-can-control-apps-across-iphones-ipads-android-and-apple-tv/


summarySummary

Apple has developed a new AI system called Ferret-UI 2 that can read and control apps across iPhones, iPads, Android devices, web browsers, and Apple TV.

The system scored 89.73 in UI element recognition tests, significantly higher than GPT-4o’s score of 77.73. It also shows significant improvements over its predecessor in basic tasks such as text and button recognition, as well as more complex operations.

Comparison table: benchmark results of various UI models with different backbones, showing performance values for elementary and advanced tasks.
Apple tested the system with several language models. While Llama-3 showed the best results, the smaller Gemma-2B also performed well. | Image: Apple

Understanding user intent

Instead of relying on specific click coordinates, Ferret-UI 2 aims to understand user intent. When given a command such as “Please confirm your input,” the system can identify the appropriate button without requiring precise location data. Apple’s research team used GPT-4o’s visual capabilities to generate high-quality training data that helped the system better understand how UI elements relate to each other spatially.

Ferret-UI 2 uses an adaptive architecture that recognizes UI elements across platforms. It includes an algorithm that automatically balances image resolution and processing requirements for each platform. According to the researchers, this approach is “both information-preserving and efficient for local encoding.”

Ad

Four UI screenshots with conversation examples: iPhone settings, iPad weather app, MacBook product page and Apple TV interface with model answers.
Ferret-UI 2 interaction examples. | Image: Apple

Testing showed strong cross-platform performance, with models trained on iPhone data achieving 68 percent accuracy on iPads and 71 percent accuracy on Android devices. However, the system had more difficulty transitioning between mobile devices and TV or Web interfaces, which the researchers attribute to differences in screen layouts.

Microsoft releases UI understanding tool as open source

Apple’s work comes as other companies push forward with their own UI understanding AI systems. Anthropic recently released an updated Claude 3.5 Sonnet with UI interaction, while Microsoft released OmniParser, an open-source tool that converts screen content into structured data, for the same purpose.

Apple also recently unveiled CAMPHOR, a framework that uses specialized AI agents coordinated by a master reasoning agent to handle complex tasks. Combined with Ferret-UI 2, this technology could enable voice assistants like Siri to analyze and perform complex tasks, such as finding and booking a specific restaurant, that involve navigating apps or the web using only voice commands.


[ad_2]

Leave a Reply

Your email address will not be published. Required fields are marked *