Sự kiện ngày hôm nay: #AI #LLM #TácNhânAI

Tại sao AI đa tác nhân giải quyết được sự phức tạp mà LLM không thể?

Sự ra đời của ChatGPT đã mang lại mô hình ngôn ngữ lớn (LLM) được sử dụng rộng rãi trong cả ngành công nghệ và phi công nghệ. Tuy nhiên, LLM vẫn tồn tại một số hạn chế như kiến thức hạn chế, lý luận hạn chế và không có tính động. Để vượt qua những thách thức này, cần có một cách tiếp cận nâng cao hơn – các đại lý đa tác nhân.

Khái niệm về tác nhân thông minh trong AI đã phát triển qua hai thập kỷ, với việc triển khai thay đổi theo thời gian. Ngày nay, các đại lý đa tác nhân được coi là giải pháp cho các thách thức của LLM. Chúng có thể giúp suy luận, truy cập thông tin từ Internet và hoàn thành nhiệm vụ một cách tự chủ.

Các thành phần của tác nhân AI bao gồm các công cụ, trí nhớ, reasoner và hành động. Chúng giúp tác nhân xử lý các nhiệm vụ phức tạp và nâng cao hiệu suất của LLM.

Sự kết hợp giữa LLM và đa tác nhân đã tạo ra những tiến bộ đáng kể trong việc giải quyết các vấn đề ngày càng phức tạp. Tuy nhiên, việc đưa các giải pháp đa tác nhân vào sản xuất có thể gặp một số thách thức như quy mô, độ trễ và các vấn đề về hiệu suất và ảo giác.

Nhưng trong tương lai, đa tác nhân sẽ tiếp tục phát triển cùng với LLM và thu hẹp khoảng cách giữa LLM và AGI. Các hệ thống đa tác nhân sẽ tiếp tục tiến bộ và giải quyết các nhiệm vụ ngày càng phức tạp, là bước tiến quan trọng trên con đường đến trí thông minh tổng hợp nhân tạo.

Abhishek Gupta là nhà khoa học dữ liệu chính tại Phần mềm Talentica.

#DataDecisionMakers #AI #LLM #TácNhânAI #TríTuệNhânTạo #CôngNghệDữLiệu #SựKiệnNgàyHômNay Nguồn: https://venturebeat.com/ai/why-multi-agent-ai-conquers-complexities-llms-cant/

Tham gia các bản tin hàng ngày và hàng tuần của chúng tôi để có những cập nhật mới nhất và nội dung độc quyền về phạm vi phủ sóng AI hàng đầu trong ngành. Tìm hiểu thêm

Sự ra đời của ChatGPT đã mang lại mô hình ngôn ngữ lớn (LLM) được sử dụng rộng rãi trong cả ngành công nghệ và phi công nghệ. Sự phổ biến này chủ yếu là do hai yếu tố:

LLM như một kho kiến thức: LLM được đào tạo về một lượng lớn dữ liệu internet và được cập nhật định kỳ (nghĩa là GPT-3, GPT-3.5, GPT-4, GPT-4o và các dữ liệu khác);

Các khả năng mới nổi: Khi LLM phát triển, chúng sẽ thể hiện khả năng không tìm thấy trong các mô hình nhỏ hơn.

Phải chăng điều này có nghĩa là chúng ta đã đạt đến trí thông minh ở cấp độ con người, thứ mà chúng ta gọi là trí tuệ tổng hợp nhân tạo (AGI)? Gartner định nghĩa AGI là một dạng AI sở hữu khả năng hiểu, học hỏi và áp dụng kiến thức trên nhiều nhiệm vụ và lĩnh vực. Con đường đến với AGI còn dài, với một trở ngại chính là tính chất tự động thoái lui của quá trình đào tạo LLM dự đoán các từ dựa trên các chuỗi trong quá khứ. Là một trong những người tiên phong trong nghiên cứu AI, Yann LeCun chỉ ra rằng LLM có thể làm mất đi các phản hồi chính xác do tính chất tự hồi quy của chúng. Do đó, LLM có một số hạn chế:

Kiến thức hạn chế: Mặc dù được đào tạo về dữ liệu khổng lồ, LLM thiếu kiến thức cập nhật về thế giới.
Lý luận hạn chế: LLM có khả năng suy luận hạn chế. Như Subbarao Kambhampati đã chỉ ra LLM là công cụ thu thập kiến thức tốt nhưng những nhà lý luận không giỏi.
Không có tính động: LLM tĩnh và không thể truy cập thông tin theo thời gian thực.

Để vượt qua những thách thức của LLM, cần có một cách tiếp cận nâng cao hơn. Đây là nơi các đại lý trở nên quan trọng.

Đặc vụ đến giải cứu

Khái niệm về tác nhân thông minh trong AI đã phát triển qua hai thập kỷ, với việc triển khai thay đổi theo thời gian. Ngày nay, các đại lý được thảo luận trong bối cảnh LLM. Nói một cách đơn giản, một đặc vụ giống như một con dao quân đội Thụy Sĩ cho các thách thức LLM: Nó có thể giúp chúng ta suy luận, cung cấp phương tiện để lấy thông tin cập nhật từ Internet (giải quyết các vấn đề về tính năng động với LLM) và có thể hoàn thành nhiệm vụ một cách tự chủ. Với LLM là xương sống, một tác nhân chính thức bao gồm các công cụ, bộ nhớ, lý luận (hoặc lập kế hoạch) và các thành phần hành động.

*Các thành phần của một* Mộtquý ông (Tín dụng hình ảnh: Lilian Weng)

Các thành phần của tác nhân AI

Các công cụ cho phép các đại lý truy cập thông tin bên ngoài — cho dù từ internet, cơ sở dữ liệu hay API — cho phép họ thu thập dữ liệu cần thiết.
Trí nhớ có thể ngắn hạn hoặc dài hạn. Nhân viên sử dụng bộ nhớ bảng ghi nhớ để tạm thời lưu giữ kết quả từ nhiều nguồn khác nhau, trong khi lịch sử trò chuyện là một ví dụ về bộ nhớ dài hạn.
Reasoner cho phép các tác nhân suy nghĩ một cách có phương pháp, chia các nhiệm vụ phức tạp thành các nhiệm vụ phụ có thể quản lý để xử lý hiệu quả.
Hành động: Tác nhân thực hiện các hành động dựa trên môi trường và lý luận của họ, điều chỉnh và giải quyết các nhiệm vụ lặp đi lặp lại thông qua phản hồi. ReAct là một trong những phương pháp phổ biến để thực hiện lặp đi lặp lại lý luận và hành động.

Đại lý giỏi về cái gì?

Các đại lý xuất sắc trong các nhiệm vụ phức tạp, đặc biệt khi ở trong một nhập vai chế độ, tận dụng hiệu suất nâng cao của LLM. Ví dụ: khi viết blog, một nhân viên có thể tập trung vào nghiên cứu trong khi người khác xử lý việc viết – mỗi người giải quyết một vấn đề mục tiêu phụ cụ thể. Cách tiếp cận đa tác nhân này áp dụng cho nhiều vấn đề thực tế.

Việc nhập vai giúp các đặc vụ tập trung vào các nhiệm vụ cụ thể để đạt được các mục tiêu lớn hơn, giảm ảo giác một cách rõ ràng. bộ phận xác định của một lời nhắc – chẳng hạn như vai trò, hướng dẫn và bối cảnh. Vì hiệu suất LLM phụ thuộc vào các lời nhắc có cấu trúc tốt nên nhiều khung khác nhau chính thức hóa quy trình này. Một khuôn khổ như vậy, Phi hành đoànAIcung cấp một cách tiếp cận có cấu trúc để xác định việc nhập vai, như chúng ta sẽ thảo luận tiếp theo.

Nhiều đại lý so với một đại lý

Lấy ví dụ về thế hệ tăng cường truy xuất (RAG) bằng cách sử dụng một tác nhân duy nhất. Đó là một cách hiệu quả để trao quyền cho LLM xử lý các truy vấn theo tên miền cụ thể bằng cách tận dụng thông tin từ các tài liệu được lập chỉ mục. Tuy nhiên, đại lý đơn lẻ RAG có những hạn chế riêngchẳng hạn như hiệu suất truy xuất hoặc xếp hạng tài liệu. RAG đa tác nhân khắc phục những hạn chế này bằng cách sử dụng các tác nhân chuyên biệt để hiểu, truy xuất và xếp hạng tài liệu.

Trong kịch bản nhiều tác nhân, các tác nhân cộng tác theo nhiều cách khác nhau, tương tự như các mẫu điện toán phân tán: nhóm tin nhắn tuần tự, tập trung, phi tập trung hoặc chia sẻ. Các khung như CrewAI, Autogen và langGraph+langChain cho phép giải quyết vấn đề phức tạp bằng các phương pháp tiếp cận đa tác nhân. Trong bài viết này, tôi đã sử dụng CrewAI làm khung tham chiếu để khám phá khả năng quản lý quy trình làm việc tự động.

Quản lý quy trình làm việc: Trường hợp sử dụng cho hệ thống đa tác nhân

Hầu hết các quy trình công nghiệp đều xoay quanh việc quản lý quy trình công việc, có thể là xử lý khoản vay, quản lý chiến dịch tiếp thị hoặc thậm chí là DevOps. Các bước, tuần tự hoặc theo chu kỳ, được yêu cầu để đạt được một mục tiêu cụ thể. Theo cách tiếp cận truyền thống, mỗi bước (chẳng hạn như xác minh đơn xin vay tiền) yêu cầu con người thực hiện nhiệm vụ tẻ nhạt và nhàm chán là xử lý thủ công từng đơn đăng ký và xác minh chúng trước khi chuyển sang bước tiếp theo.

Mỗi bước đều yêu cầu đầu vào từ một chuyên gia trong lĩnh vực đó. Trong quá trình thiết lập nhiều tác nhân sử dụng CrewAI, mỗi bước sẽ được xử lý bởi một nhóm gồm nhiều tác nhân. Ví dụ: khi xác minh đơn xin vay tiền, một đại lý có thể xác minh danh tính của người dùng thông qua kiểm tra lý lịch trên các tài liệu như giấy phép lái xe, trong khi một đại lý khác xác minh chi tiết tài chính của người dùng.

Điều này đặt ra câu hỏi: Liệu một nhóm duy nhất (với nhiều đại lý theo trình tự hoặc phân cấp) có thể xử lý tất cả các bước xử lý khoản vay không? Mặc dù có thể, nhưng nó làm phức tạp phi hành đoàn, đòi hỏi trí nhớ tạm thời rộng rãi và làm tăng nguy cơ sai lệch mục tiêu và ảo giác. Một cách tiếp cận hiệu quả hơn là coi mỗi bước xử lý khoản vay như một nhóm riêng biệt, xem toàn bộ quy trình làm việc dưới dạng biểu đồ các nút nhóm (sử dụng các công cụ như langGraph) hoạt động tuần tự hoặc theo chu kỳ.

Vì LLM vẫn đang ở giai đoạn đầu thông minh nên việc quản lý toàn bộ quy trình làm việc không thể tự chủ hoàn toàn. Cần có con người trong vòng lặp ở các giai đoạn quan trọng để xác minh người dùng cuối. Ví dụ: sau khi nhóm hoàn thành bước xác minh đơn xin vay, cần có sự giám sát của con người để xác thực kết quả. Theo thời gian, khi niềm tin vào AI tăng lên, một số bước có thể trở nên tự chủ hoàn toàn. Hiện tại, chức năng quản lý quy trình làm việc dựa trên AI đóng vai trò hỗ trợ, hợp lý hóa các công việc tẻ nhạt và giảm thời gian xử lý tổng thể.

Thử thách sản xuất

Việc đưa các giải pháp đa tác nhân vào sản xuất có thể gặp một số thách thức.

Quy mô: Khi số lượng đại lý tăng lên, việc hợp tác và quản lý trở nên khó khăn. Các khung khác nhau cung cấp các giải pháp có thể mở rộng – ví dụ: Llamaindex thực hiện quy trình làm việc theo sự kiện để quản lý nhiều tác nhân ở quy mô lớn.
Độ trễ: Hiệu suất của tác nhân thường phát sinh độ trễ khi các tác vụ được thực thi lặp đi lặp lại, yêu cầu nhiều lệnh gọi LLM. LLM được quản lý (như GPT-4o) hoạt động chậm do có các biện pháp bảo vệ tiềm ẩn và độ trễ mạng. LLM tự lưu trữ (có điều khiển GPU) rất hữu ích trong việc giải quyết các vấn đề về độ trễ.
Các vấn đề về hiệu suất và ảo giác: Do tính chất xác suất của LLM, hiệu suất của tác nhân có thể thay đổi theo mỗi lần thực thi. Các kỹ thuật như tạo khuôn mẫu đầu ra (ví dụ: định dạng JSON) và cung cấp nhiều ví dụ trong lời nhắc có thể giúp giảm tính biến thiên của phản hồi. Vấn đề ảo giác có thể được giảm bớt hơn nữa bởi các đại lý đào tạo.

Suy nghĩ cuối cùng

BẰNG Andrew Ng chỉ rađại lý là tương lai của AI và sẽ tiếp tục phát triển cùng với LLM. Các hệ thống đa tác nhân sẽ tiến bộ trong việc xử lý dữ liệu đa phương thức (văn bản, hình ảnh, video, âm thanh) và giải quyết các nhiệm vụ ngày càng phức tạp. Trong khi AGI và các hệ thống tự động hoàn toàn vẫn đang trong giai đoạn phát triển, đa tác nhân sẽ thu hẹp khoảng cách hiện tại giữa LLM và AGI.

Abhishek Gupta là nhà khoa học dữ liệu chính tại Phần mềm Talentica.

Người đưa ra quyết định dữ liệu

Chào mừng đến với cộng đồng VentureBeat!

DataDecisionMakers là nơi các chuyên gia, bao gồm cả những người kỹ thuật làm công việc về dữ liệu, có thể chia sẻ những hiểu biết sâu sắc và đổi mới liên quan đến dữ liệu.

Nếu bạn muốn đọc về những ý tưởng tiên tiến và thông tin cập nhật, các phương pháp hay nhất cũng như tương lai của dữ liệu và công nghệ dữ liệu, hãy tham gia cùng chúng tôi tại DataDecisionMakers.

Bạn thậm chí có thể cân nhắc đóng góp một bài viết của riêng bạn!

Đọc thêm từ DataDecisionMakers

Tin tức

Tại sao AI đa tác nhân có thể giải quyết những vấn đề phức tạp mà LLM không thể?