#AI #TựĐộngHóaGUI #Microsoft #NghiênCứu #CôngNghệAI Nguồn: https://venturebeat.com/ai/ai-that-clicks-for-you-microsoft-research-points-to-the-future-of-gui-automation/
Tham gia các bản tin hàng ngày và hàng tuần của chúng tôi để có những cập nhật mới nhất và nội dung độc quyền về phạm vi phủ sóng AI hàng đầu trong ngành. Tìm hiểu thêm
Một cách toàn diện khảo sát mới từ các nhà nghiên cứu và đối tác học thuật của Microsoft tiết lộ rằng các tác nhân trí tuệ nhân tạo được hỗ trợ bởi các mô hình ngôn ngữ lớn (LLM) đang ngày càng có khả năng kiểm soát giao diện đồ họa người dùng (GUI), có khả năng thay đổi cách con người tương tác với phần mềm.
Về cơ bản, công nghệ này mang lại cho hệ thống AI khả năng nhìn và thao tác với giao diện máy tính giống như con người – nhấp vào nút, điền vào biểu mẫu và điều hướng giữa các ứng dụng. Thay vì yêu cầu người dùng học các lệnh phần mềm phức tạp, các “tác nhân GUI” này có thể diễn giải các yêu cầu ngôn ngữ tự nhiên và tự động thực hiện các hành động cần thiết.
Các nhà nghiên cứu cho biết: “Các tác nhân này đại diện cho một sự thay đổi mô hình, cho phép người dùng thực hiện các nhiệm vụ phức tạp, nhiều bước thông qua các lệnh hội thoại đơn giản”. viết. “Các ứng dụng của họ trải rộng trên điều hướng web, tương tác ứng dụng di động và tự động hóa máy tính để bàn, mang đến trải nghiệm người dùng có tính biến đổi, cách mạng hóa cách các cá nhân tương tác với phần mềm.”
Hãy nghĩ về việc có một trợ lý điều hành có tay nghề cao, người có thể thay mặt bạn vận hành bất kỳ chương trình phần mềm nào. Bạn chỉ cần nói với trợ lý những gì bạn muốn thực hiện và họ sẽ xử lý tất cả các chi tiết kỹ thuật để biến điều đó thành hiện thực.
Sự nổi lên của trợ lý AI doanh nghiệp thay đổi mọi thứ
Các công ty công nghệ lớn đang chạy đua để đưa những khả năng này vào sản phẩm của họ. của Microsoft Tự động hóa nguồn sử dụng LLM để giúp người dùng tạo quy trình làm việc tự động trên các ứng dụng. của công ty Trợ lý AI của phi công phụ có thể trực tiếp điều khiển phần mềm dựa trên lệnh văn bản. nhân chủng học Sử dụng máy tính Chức năng của Claude cho phép AI tương tác với giao diện web và thực hiện các tác vụ phức tạp. Google được cho là đang phát triển Dự án Jarvismột hệ thống AI sẽ sử dụng trình duyệt Chrome để thực hiện các tác vụ dựa trên web như nghiên cứu, mua sắm và đặt chỗ du lịch, mặc dù khả năng này vẫn đang được phát triển và chưa được phát hành công khai.
Bài báo lưu ý: “Sự ra đời của Mô hình ngôn ngữ lớn, đặc biệt là các mô hình đa phương thức, đã mở ra một kỷ nguyên mới về tự động hóa GUI”. “Họ đã thể hiện khả năng đặc biệt trong việc hiểu ngôn ngữ tự nhiên, tạo mã, khái quát hóa nhiệm vụ và xử lý hình ảnh.”
Điều này thể hiện một tiềm năng Cơ hội thị trường 68,9 tỷ USD theo các nhà phân tích tại BCC Research, đến năm 2028, khi các doanh nghiệp tìm cách tự động hóa các tác vụ lặp đi lặp lại và làm cho phần mềm của họ dễ tiếp cận hơn đối với những người dùng không rành về kỹ thuật. Thị trường dự kiến sẽ tăng từ 8,3 tỷ USD vào năm 2022 lên con số này, với tốc độ tăng trưởng kép hàng năm (CAGR) là 43,9% trong giai đoạn dự báo.
Tác động của doanh nghiệp: Những thách thức và cơ hội trong tự động hóa AI
Tuy nhiên, vẫn còn những trở ngại đáng kể trước khi công nghệ này được doanh nghiệp áp dụng rộng rãi. Các nhà nghiên cứu xác định một số hạn chế chính, bao gồm mối quan ngại về quyền riêng tư khi các tác nhân xử lý dữ liệu nhạy cảm, các hạn chế về hiệu suất tính toán và nhu cầu đảm bảo độ tin cậy và an toàn tốt hơn.
Bài viết nêu rõ: “Mặc dù chúng có hiệu quả đối với các quy trình công việc được xác định trước, nhưng các phương pháp này thiếu tính linh hoạt và khả năng thích ứng cần thiết cho các ứng dụng động trong thế giới thực”.
Nhóm nghiên cứu đưa ra lộ trình chi tiết để giải quyết những thách thức này, nhấn mạnh tầm quan trọng của việc phát triển các mô hình hiệu quả hơn. có thể chạy cục bộ trên thiết bịthực hiện các biện pháp bảo mật mạnh mẽ và tạo ra các khung đánh giá được tiêu chuẩn hóa.
Các nhà nghiên cứu lưu ý: “Bằng cách kết hợp các biện pháp bảo vệ và hành động có thể tùy chỉnh, các tác nhân này đảm bảo hiệu quả và bảo mật khi xử lý các lệnh phức tạp”, đồng thời nêu bật những tiến bộ gần đây trong việc giúp công nghệ sẵn sàng cho doanh nghiệp.
Đối với các nhà lãnh đạo công nghệ doanh nghiệp, sự xuất hiện của các tác nhân GUI được hỗ trợ bởi LLM vừa là cơ hội vừa là sự cân nhắc chiến lược. Mặc dù công nghệ này hứa hẹn tăng năng suất đáng kể thông qua tự động hóa, nhưng các tổ chức sẽ cần đánh giá cẩn thận các tác động bảo mật và yêu cầu cơ sở hạ tầng khi triển khai các hệ thống AI này.
Bài viết giải thích: “Lĩnh vực tác nhân GUI đang hướng tới kiến trúc đa tác nhân, khả năng đa phương thức, bộ hành động đa dạng và các chiến lược ra quyết định mới lạ”. “Những cải tiến này đánh dấu những bước quan trọng hướng tới việc tạo ra các tác nhân thông minh, có khả năng thích ứng, có khả năng hoạt động hiệu suất cao trên các môi trường năng động và đa dạng.”
Các chuyên gia trong ngành dự đoán rằng đến năm 2025, ít nhất 60% doanh nghiệp lớn sẽ thí điểm một số dạng tác nhân tự động hóa GUI, có khả năng mang lại hiệu quả lớn nhưng cũng đặt ra những câu hỏi quan trọng về quyền riêng tư dữ liệu và chuyển dịch công việc.
Cuộc khảo sát toàn diện cho thấy chúng ta đang ở thời điểm mà giao diện AI đàm thoại về cơ bản có thể thay đổi cách con người tương tác với phần mềm – mặc dù việc nhận ra tiềm năng này sẽ đòi hỏi những tiến bộ liên tục trong cả công nghệ cơ bản và thực tiễn triển khai doanh nghiệp.
Các nhà nghiên cứu kết luận: “Những phát triển này đang đặt nền tảng cho các tác nhân linh hoạt và mạnh mẽ hơn có khả năng xử lý các môi trường năng động, phức tạp”, đồng thời chỉ ra một tương lai nơi trợ lý AI trở thành một phần không thể thiếu trong cách chúng ta làm việc với máy tính.