Cách mà các tác nhân trí tuệ nhân tạo đang mô phỏng nền văn minh của con người

#AI #GenerativeAgents #SimulatingHumanBehavior #VirtualEnvironment #MemoryRetrieval #Planning #SocialSimulacra #PracticalApplications #Risks #Transparency

Những AI agent – hệ thống trí tuệ nhân tạo với ngôn ngữ mô hình lớn (LLM) như GPT-3, 3.5 và 4 của OpenAI đã mã hóa một lượng thông tin khổng lồ về cách chúng ta sống, giao tiếp và hành xử. Các nhà nghiên cứu liên tục tìm cách khai thác tri thức này.

Một nghiên cứu gần đây của các nhà nghiên cứu Đại học Stanford đã chỉ ra rằng, với thiết kế đúng, LLM có thể được sử dụng để mô phỏng hành vi của con người một cách sinh động và thuyết phục.

Nghiên cứu mang tựa đề “Generative Agents: Interactive Simulacra of Human Behavior” khám phá tiềm năng của các mô hình tạo ra trong việc tạo nên một kiến trúc AI agent nhớ lại tương tác, phản ánh thông tin nhận được và lập kế hoạch cho mục tiêu dài hạn và ngắn hạn dựa trên một luồng trí nhớ ngày càng mở rộng. Những AI agent này có khả năng mô phỏng hành vi của con người trong cuộc sống hàng ngày, từ những nhiệm vụ đơn giản đến quá trình ra quyết định phức tạp.

Hơn nữa, khi những AI agent này được kết hợp, chúng có thể mô phỏng hành vi xã hội phức tạp hơn xuất phát từ tương tác của một dân số đông đảo. Công trình này mở ra nhiều khả năng, đặc biệt là trong việc mô phỏng động lực dân số, mang đến những nhận thức quý giá về hành vi và tương tác xã hội.

Môi trường ảo cho generative agents

Trong nghiên cứu này, các nhà nghiên cứu đã mô phỏng generative agents trong Smallville, một môi trường trò chơi hình cát bao gồm các đối tượng như nhà hàng tự phục vụ, trường học, quán bar và nhiều hơn nữa.

Môi trường này được sinh sống bởi 25 generative agents được nạp bằng LLM. LLM được khởi động bằng một câu hỏi bao gồm mô tả chi tiết về hành vi, nghề nghiệp, sở thích, kí ức và mối quan hệ với các agent khác. Đầu ra của LLM là hành vi của agent đó.

Các agent tương tác với môi trường của mình thông qua hành động. Ban đầu, chúng tạo ra một câu tường thuật bằng ngôn ngữ tự nhiên, ví dụ như “Isabella đang uống cà phê”. Sau đó, câu tường thuật này được dịch thành các hành động cụ thể trong Smallville.

Hơn nữa, các agent tương tác với nhau thông qua đối thoại bằng ngôn ngữ tự nhiên. Cuộc trò chuyện của chúng bị ảnh hưởng bởi ký ức trước đây và tương tác qua lại.

Người dùng cũng có thể tương tác với các agent bằng cách nói chuyện với họ thông qua giọng kể của người dẫn chuyện, thay đổi trạng thái môi trường hoặc điều khiển trực tiếp một agent. Thiết kế tương tác nhằm tạo ra một môi trường động với nhiều khả năng.

Nhớ và suy ngẫm

Mỗi agent trong môi trường SmallVille được trang bị một luồng trí nhớ, một cơ sở dữ liệu toàn diện ghi lại những trải nghiệm của agent dưới dạng ngôn ngữ tự nhiên. Luồng trí nhớ này đóng vai trò quan trọng trong hành vi của agent.

Đối với mỗi hành động, agent truy xuất những bản ghi ký ức liên quan để hỗ trợ quá trình lập kế hoạch. Ví dụ, nếu một agent gặp một agent khác lần thứ hai, nó sẽ truy xuất các bản ghi về tương tác trước đây với agent đó. Điều này cho phép agent nhớ lại cuộc trò chuyện trước đó hoặc tiếp tục các nhiệm vụ cần hoàn thành cùng nhau.

Tuy nhiên, việc truy xuất bộ nhớ đặt ra một thách thức lớn. Khi chiều dài của quá trình mô phỏng tăng lên, luồng trí nhớ của agent trở nên dài hơn. Đưa toàn bộ luồng trí nhớ vào ngữ cảnh của LLM có thể mất tập trung của mô hình. Và một khi luồng trí nhớ trở nên quá dài, nó sẽ không vừa vào cửa sổ ngữ cảnh của LLM. Do đó, đối với mỗi tương tác với LLM, agent phải truy xuất các phần có ý nghĩa nhất từ luồng trí nhớ và cung cấp chúng cho mô hình.

Để giải quyết vấn đề này, các nhà nghiên cứu đã thiết kế một hàm truy vấn đánh giá mức độ liên quan của mỗi phần của trí nhớ của agent đến tình huống hiện tại. Mức độ liên quan của mỗi ký ức được đo bằng cách so sánh giá trị nhúng nó với tình huống hiện tại (nhúng là giá trị số đại diện cho các ý nghĩa khác nhau của văn bản và được sử dụng cho tìm kiếm tương đồng). Khả năng gần đây của trí nhớ cũng quan trọng, có nghĩa là những ký ức gần đây sẽ được xem trọng hơn.

Ngoài ra, các nhà nghiên cứu đã thiết kế một hàm tóm tắt định kỳ cho các phần của luồng trí nhớ thành những suy nghĩ trừu tượng cao hơn, được gọi là “reflections”. Những suy nghĩ này tạo thành các tầng trên nhau, cung cấp một cái nhìn tinh vi hơn về tính cách và sở thích của agent, và nâng cao chất lượng truy xuất trí nhớ cho các hành động trong tương lai.

Trí nhớ và suy ngẫm cho phép hệ thống AI xây dựng câu hỏi phong phú cho LLM, sau đó sử dụng nó để lập kế hoạch cho các hành động của từng agent.

Thực hiện các hành động của agent

Lập kế hoạch là một khía cạnh thú vị khác của dự án. Các nhà nghiên cứu phải xây dựng một hệ thống cho phép agent thực hiện hành động trực tiếp trong khi vẫn có khả năng lập kế hoạch cho dài hạn. Để làm được điều này, họ áp dụng một phương pháp chế độ phân cấp trong việc lập kế hoạch.

Mô hình đầu tiên nhận một tóm tắt về trạng thái của agent và được yêu cầu tạo ra một kế hoạch cấp cao cho một mục tiêu dài hạn. Sau đó, nó lặp đi lặp lại từng bước và tạo ra các hành động chi tiết hơn, trước tiên theo lịch trình hàng giờ, sau đó là các nhiệm vụ từ 5-15 phút. Các agent cũng cập nhật kế hoạch của mình khi môi trường thay đổi và chúng quan sát những tình huống mới hoặc tương tác với các agent khác. Tiếp cận động này trong việc lập kế hoạch đảm bảo rằng các agent có thể thích ứng với môi trường của mình và t

Nguồn: https://venturebeat.com/business/how-ai-agents-are-already-simulating-human-civilization/

Artificial intelligence (AI) large language models (LLM) like OpenAI’s hit GPT-3, 3.5, and 4, encode a wealth of information about how we live, communicate, and behave, and researchers are constantly finding new ways to put this knowledge to use.

A recent study conducted by Stanford University researchers has demonstrated that, with the right design, LLMs can be harnessed to simulate human behavior in a dynamic and convincingly realistic manner.

The study, titled “Generative Agents: Interactive Simulacra of Human Behavior,” explores the potential of generative models in creating an AI agent architecture that remembers its interactions, reflects on the information it receives, and plans long- and short-term goals based on an ever-expanding memory stream. These AI agents are capable of simulating the behavior of a human in their daily lives, from mundane tasks to complex decision-making processes. 

Moreover, when these agents are combined, they can emulate the more intricate social behaviors that emerge from the interactions of a large population. This work opens up many possibilities, particularly in simulating population dynamics, offering valuable insights into societal behaviors and interactions.

A virtual environment for generative agents

In the study, the researchers simulated the generative agents in Smallville, a sandbox game environment composed of various objects such as buffets, schools, bars, and more. 

The environment is inhabited by 25 generative agents powered by an LLM. The LLM is initiated with a prompt that includes a detailed description of the agent’s behavior, occupation, preferences, memories, and relationships with other agents. The LLM’s output is the agent’s behavior.

The agents interact with their environment through actions. Initially, they generate an action statement in natural language, such as “Isabella is drinking coffee.” This statement is then translated into concrete movements within Smallville. 

Moreover, the agents communicate with each other through natural language dialog. Their conversations are influenced by their previous memories and past interactions. 

Human users can also interact with the agents by speaking to them through a narrator’s voice, altering the state of the environment, or directly controlling an agent. The interactive design is meant to create a dynamic environment with many possibilities.

Remembering and reflecting

Each agent in the SmallVille environment is equipped with a memory stream, a comprehensive database that records the agent’s experiences in natural language. This memory stream plays a crucial role in the agent’s behavior.

For each action, the agent retrieves relevant memory records to aid in its planning. For instance, if an agent encounters another agent for the second time, it retrieves records of past interactions with that agent. This allows the agent to pick up on previous conversations or follow up on tasks that need to be completed together. 

However, memory retrieval presents a significant challenge. As the simulation length increases, the agent’s memory stream becomes longer. Fitting the entire memory stream into the context of the LLM can distract the model. And once the memory stream becomes too lengthy, it won’t fit into the context window of the LLM. Therefore, for each interaction with the LLM, the agent must retrieve the most relevant bits from the memory stream and provide them to the model as context.

To address this, the researchers designed a retrieval function that weighs the relevance of each piece of the agent’s memory to its current situation. The relevance of each memory is measured by comparing its embedding with that of the current situation (embeddings are numerical values that represent different meanings of text and are used for similarity search). The recency of memory is also important, meaning more recent memories are given higher relevance. 

In addition to this, the researchers designed a function that periodically summarizes parts of the memory stream into higher-level abstract thoughts, referred to as “reflections.” These reflections form layers on top of each other, contributing to a more nuanced picture of the agent’s personality and preferences, and enhancing the quality of memory retrieval for future actions.

Memory and reflections enable the AI system to craft a rich prompt for the LLM, which then uses it to plan each agent’s actions.

Putting agents into action

Planning is another intriguing aspect of the project. The researchers had to devise a system that enabled the agents to perform direct actions while also being able to plan for the long term. To achieve this, they adopted a hierarchical approach to planning. 

The model first receives a summary of the agent’s status and is prompted to generate a high-level plan for a long-term goal. It then recursively takes each step and creates more detailed actions, first in hourly schedules, and then in 5-15 minute tasks. Agents also update their plans as their environment changes and they observe new situations or interact with other agents. This dynamic approach to planning ensures that the agents can adapt to their environment and interact with it in a realistic and believable manner.

What happens when the simulation is run? Each agent starts with some basic knowledge, daily routines, and goals to accomplish. They plan and carry out those goals and interact with each other. Through these interactions, agents might pass on information to each other. As new information is diffused across the population, the community’s behavior changes. Agents react by changing or adjusting their plans and goals as they become aware of the behavior of other agents.

The researchers’ experiments show that the generative agents learn to coordinate among themselves without being explicitly instructed to do so. For example, one of the agents started out with the goal of holding a Valentine’s Day party. This information eventually reached other agents and several ended up attending the party. (A demo has been released online.)

Despite the impressive results of the study, it’s important to acknowledge the limitations of the technique. The generative agents, while surpassing other LLM-based methods in simulating human behavior, occasionally falter in memory retrieval. They may overlook relevant memories or, conversely, “hallucinate” by adding non-existent details to their recollections. This can lead to inconsistencies in their behavior and interactions.

Furthermore, the researchers noted an unexpected quirk in the agents’ behavior: they were excessively polite and cooperative. While these traits might be desirable in an AI assistant, they don’t accurately reflect the full spectrum of human behavior, which includes conflict and disagreement. 

Simulacra of human behavior

The study has sparked interest within the research community. The Stanford researchers recently released the source code for their virtual environment and generative agents. 

This has allowed other researchers to build upon their work, with notable entities such as the famed venture capitalist firm Andreessen Horowitz (a16z) creating their own versions of the environment.

While the virtual agents of Smallville are entertaining, the researchers believe their work has far-reaching, practical applications. 

One such application is prototyping the dynamics in mass-user products such as social networks. The researchers hope that these generative models could help predict and mitigate negative outcomes, such as the spread of misinformation or trolling. By creating a diverse population of agents and observing their interactions within the context of a product, researchers can study emerging behaviors, both positive and negative. The agents can also be used to experiment with counterfactuals and simulate how different policies and modifications in behavior can change outcomes. This concept forms the basis of social simulacra.

However, the potential of generative agents is not without its risks. They could be used to create bots that convincingly imitate real humans, potentially amplifying malicious activities like spreading misinformation on a large scale. To counteract this, the researchers propose maintaining audit logs of the agents’ behaviors to provide a level of transparency and accountability.

“Looking ahead, we suggest that generative agents can play roles in many interactive applications, ranging from design tools to social computing systems to immersive environments,” the researchers write.

VentureBeat’s mission is to be a digital town square for technical decision-makers to gain knowledge about transformative enterprise technology and transact. Discover our Briefings.


[ad_2]

Leave a Reply

Your email address will not be published. Required fields are marked *