#Anthropic #SửDụngMáyTính #NghiênCứuAI #Claude #TươngTácNhưConNgười
Đánh giá của mô hình cung cấp cái nhìn về khả năng tự động hóa tác vụ trong nhiều lĩnh vực, nhưng còn nhiều hạn chế cần được cải thiện. Việc áp dụng công nghệ này trong doanh nghiệp cần cân nhắc kỹ lưỡng về tính ổn định và bảo mật.
#TựĐộngHóa #DoanhNghiệp #CôngNghệ #KhảNăngTươngTác #HạnChế #NghiênCứuMới Nguồn: https://venturebeat.com/ai/anthropics-computer-use-mode-shows-strengths-and-limitations-in-new-study/
Tham gia các bản tin hàng ngày và hàng tuần của chúng tôi để có những cập nhật mới nhất và nội dung độc quyền về phạm vi phủ sóng AI hàng đầu trong ngành. Tìm hiểu thêm
Từ nhân loại đã phát hành “Sử dụng máy tính” dành cho Claude vào tháng 10, đã có rất nhiều hứng thú về những gì các đặc vụ AI có thể làm khi được trao quyền bắt chước các tương tác của con người. MỘT nghiên cứu mới qua Hiển thị phòng thí nghiệm tại Đại học Quốc gia Singapore cung cấp một cái nhìn tổng quan về những gì chúng ta có thể mong đợi từ thế hệ tác nhân giao diện đồ họa người dùng (GUI) hiện tại.
Claude là mô hình biên giới đầu tiên có thể tương tác như một tác nhân GUI với một thiết bị thông qua cùng giao diện mà con người sử dụng. Mô hình này chỉ truy cập vào ảnh chụp màn hình của máy tính để bàn và tương tác bằng cách kích hoạt các thao tác bàn phím và chuột. Tính năng này hứa hẹn sẽ cho phép người dùng tự động hóa các tác vụ thông qua các hướng dẫn đơn giản và không cần quyền truy cập API vào ứng dụng.
Các nhà nghiên cứu đã thử nghiệm Claude trên nhiều nhiệm vụ khác nhau bao gồm tìm kiếm trên web, hoàn thành quy trình làm việc, năng suất văn phòng và trò chơi điện tử. Các tác vụ tìm kiếm trên web liên quan đến việc điều hướng và tương tác với các trang web, chẳng hạn như tìm kiếm và mua các mặt hàng hoặc đăng ký dịch vụ tin tức. Các tác vụ của quy trình làm việc liên quan đến tương tác đa ứng dụng, chẳng hạn như trích xuất thông tin từ trang web và chèn thông tin đó vào bảng tính. Các tác vụ năng suất văn phòng kiểm tra khả năng của tác nhân trong việc thực hiện các thao tác thông thường như định dạng tài liệu, gửi email và tạo bản trình bày. Nhiệm vụ trò chơi điện tử đánh giá khả năng của tác nhân trong việc thực hiện các nhiệm vụ nhiều bước đòi hỏi phải hiểu logic của trò chơi và lập kế hoạch hành động.
Mỗi nhiệm vụ kiểm tra khả năng của mô hình trên ba khía cạnh: lập kế hoạch, hành động và phê bình. Đầu tiên, người mẫu phải đưa ra được kế hoạch mạch lạc để hoàn thành nhiệm vụ. Sau đó, nó phải có khả năng thực hiện kế hoạch bằng cách chuyển từng bước thành một hành động, chẳng hạn như mở trình duyệt, nhấp vào các thành phần và nhập văn bản. Cuối cùng, yếu tố phê bình xác định liệu mô hình có thể đánh giá tiến độ và thành công của nó trong việc hoàn thành nhiệm vụ hay không. Mô hình phải có khả năng hiểu được liệu nó có mắc lỗi trong quá trình thực hiện hay không và điều chỉnh hướng đi. Và nếu nhiệm vụ không thể thực hiện được thì cần đưa ra lời giải thích hợp lý. Các nhà nghiên cứu đã tạo ra một khuôn khổ dựa trên ba thành phần này và xem xét, đánh giá tất cả các thử nghiệm do con người thực hiện.
Nhìn chung, Claude đã hoàn thành xuất sắc nhiệm vụ phức tạp. Nó có thể suy luận và lập kế hoạch cho nhiều bước cần thiết để thực hiện một nhiệm vụ, thực hiện các hành động và đánh giá tiến độ của nó theo từng bước. Nó còn có thể phối hợp giữa các ứng dụng khác nhau như sao chép thông tin từ trang web và dán vào bảng tính. Hơn nữa, trong một số trường hợp, nó sẽ xem lại kết quả khi kết thúc nhiệm vụ để đảm bảo mọi thứ đều phù hợp với mục tiêu. Dấu vết suy luận của mô hình cho thấy nó có hiểu biết chung về cách thức hoạt động của các công cụ và ứng dụng khác nhau và có thể phối hợp chúng một cách hiệu quả.
Tuy nhiên, nó cũng có xu hướng mắc phải những lỗi nhỏ mà người dùng bình thường sẽ dễ dàng tránh được. Ví dụ: trong một tác vụ, mô hình không thể hoàn thành đăng ký vì nó không cuộn xuống trang web để tìm nút tương ứng. Trong các trường hợp khác, nó không thực hiện được các tác vụ rất đơn giản và rõ ràng, chẳng hạn như chọn và thay thế văn bản hoặc thay đổi dấu đầu dòng thành số. Hơn nữa, mô hình không nhận ra lỗi của mình hoặc đưa ra những giả định sai về lý do tại sao nó không thể đạt được mục tiêu mong muốn.
Theo các nhà nghiên cứu, những đánh giá sai lầm của mô hình về tiến trình của nó nêu bật “sự thiếu sót trong cơ chế tự đánh giá của mô hình” và gợi ý rằng “một giải pháp hoàn chỉnh cho vấn đề này vẫn có thể yêu cầu cải tiến đối với khung tác nhân GUI, chẳng hạn như mô-đun phê bình nghiêm ngặt được nội bộ hóa. ” Từ kết quả, cũng rõ ràng là các tác nhân GUI không thể sao chép tất cả các sắc thái cơ bản về cách con người sử dụng máy tính.
Nó có ý nghĩa gì đối với doanh nghiệp?
Lời hứa về việc sử dụng các mô tả văn bản cơ bản để tự động hóa các tác vụ là rất hấp dẫn. Nhưng ít nhất hiện tại, công nghệ này vẫn chưa sẵn sàng để triển khai hàng loạt. Hoạt động của các mô hình không ổn định và có thể dẫn đến những kết quả không thể đoán trước, có thể gây ra hậu quả tai hại trong các ứng dụng nhạy cảm. Thực hiện các hành động thông qua các giao diện được thiết kế cho con người cũng không phải là cách nhanh nhất để hoàn thành các nhiệm vụ có thể thực hiện thông qua API.
Và chúng ta vẫn chưa tìm hiểu nhiều về những rủi ro bảo mật khi trao quyền kiểm soát chuột và bàn phím cho các mô hình ngôn ngữ lớn (LLM). Ví dụ, một nghiên cứu cho thấy các đại lý web có thể dễ dàng trở thành nạn nhân của các cuộc tấn công thù địch mà con người sẽ dễ dàng bỏ qua.
Việc tự động hóa các tác vụ trên quy mô lớn vẫn yêu cầu cơ sở hạ tầng mạnh mẽ, bao gồm các API và vi dịch vụ có thể được kết nối an toàn và phục vụ trên quy mô lớn. Tuy nhiên, các công cụ như Claude Computer Use có thể giúp nhóm sản phẩm khám phá ý tưởng và lặp lại các giải pháp khác nhau cho một vấn đề mà không cần đầu tư thời gian và tiền bạc vào việc phát triển các tính năng hoặc dịch vụ mới để tự động hóa các tác vụ. Sau khi phát hiện ra giải pháp khả thi, nhóm có thể tập trung vào phát triển mã và các thành phần cần thiết để cung cấp giải pháp đó một cách hiệu quả và đáng tin cậy.