#Anthropic giúp giảm thiểu rủi ro “tàn phá” của trí tuệ nhân tạo bằng chính sách mới
Công ty nghiên cứu và an toàn trí tuệ nhân tạo Anthropic, người đứng sau chatbot Claude được yêu thích, vừa công bố một chính sách mới về việc tăng cường trách nhiệm trong việc mở rộng hệ thống trí tuệ nhân tạo. Chính sách này được gọi là Chính sách Tăng cường Trách nhiệm (RSP) và được thiết kế nhằm giảm thiểu rủi ro “tàn phá,” tức các tình huống mà mô hình trí tuệ nhân tạo có thể gây ra sự tàn phá quy mô lớn trực tiếp. RSP chưa từng có tiền lệ và là minh chứng cho cam kết của Anthropic trong việc giảm thiểu rủi ro ngày càng gia tăng liên quan đến các mô hình trí tuệ nhân tạo ngày càng tiến bộ. Chính sách này nhấn mạnh tiềm năng của trí tuệ nhân tạo trong việc gây ra sự tàn phá quan trọng, nhắc đến các tình huống có thể dẫn đến “hàng nghìn cái chết hoặc hàng trăm tỷ đô la thiệt hại, trực tiếp do mô hình trí tuệ nhân tạo gây ra và sẽ không xảy ra nếu không có nó.” Trong một cuộc phỏng vấn độc quyền với VentureBeat, đồng sáng lập Anthropic – Sam McCandlish đã chia sẻ một số hiểu biết về việc phát triển chính sách và những thách thức tiềm năng của nó.
Ở trung tâm của chính sách này là Những Mức Độ An Toàn Trí Tuệ Nhân Tạo (ASL). Hệ thống phân cấp rủi ro này, được lấy cảm hứng từ các Mức Độ An Toàn Sinh học của chính phủ Mỹ, được thiết kế để phản ánh và quản lý rủi ro tiềm năng của các hệ thống trí tuệ nhân tạo khác nhau thông qua các quy trình đánh giá an toàn, triển khai và giám sát phù hợp. Chính sách đề ra bốn mức ASL, từ ASL-0 (rủi ro thấp) đến ASL-3 (rủi ro cao).
Hình ảnh: Anthropic
“Luôn luôn có một mức độ tùy ý khi vẽ ranh giới, nhưng chúng tôi muốn phản ánh đại khái các mức rủi ro khác nhau,” McCandlish nói. Ông cũng cho biết rằng trong khi mô hình hiện tại có thể không gây ra rủi ro đáng kể, Anthropic dự đoán rằng trong tương lai, trí tuệ nhân tạo có thể bắt đầu gây ra rủi ro thực sự. Ông cũng nhận thức được rằng chính sách này không phải là một tài liệu tĩnh hay toàn diện, mà là một tài liệu sống và tiến hóa sẽ được cập nhật và hoàn thiện khi công ty học hỏi từ kinh nghiệm và phản hồi. Mục tiêu của công ty là kênh áp lực cạnh tranh vào việc giải quyết các vấn đề an toàn chính để xây dựng các hệ thống trí tuệ nhân tạo an toàn hơn, tiến bộ hơn mở ra khả năng bổ sung, thay vì làm tăng quy mô một cách coi thường.
Tuy nhiên, McCandlish nhận thức về khó khăn trong việc đánh giá toàn diện về rủi ro, vì mô hình có khả năng che giấu khả năng của chúng. “Chúng ta không thể bao giờ chắc chắn rằng chúng tôi đã nắm bắt được tất cả mọi thứ, nhưng chắc chắn sẽ cố gắng,” ông nói. Chính sách cũng bao gồm các biện pháp để đảm bảo sự giám sát độc lập. Tất cả các thay đổi trong chính sách đều yêu cầu sự chấp thuận của hội đồng quản trị, một động thái mà McCandlish thừa nhận có thể làm chậm quá trình đáp ứng với những vấn đề an toàn mới, nhưng là cần thiết để tránh đối tác tiềm năng. “Chúng tôi thực sự lo ngại rằng khi chúng tôi cung cấp các mô hình và kiểm tra chúng cho an toàn, có sự cám dỗ để làm cho các bài kiểm tra trở nên quá dễ dàng, điều mà chúng tôi không mong muốn,” McCandlish nói.
Việc công bố RSP của Anthropic diễn ra trong thời điểm ngành công nghiệp trí tuệ nhân tạo đang phải đối mặt với sự quan tâm và quy định ngày càng gia tăng về an toàn và đạo đức của các sản phẩm và dịch vụ của mình. Anthropic, từng được thành lập bởi các cựu thành viên của OpenAI và đã nhận được sự đầu tư đáng kể từ Google và các nhà đầu tư khác, là một trong những nhà chơi hàng đầu trong lĩnh vực an toàn và sự điều chỉnh trí tuệ nhân tạo, và đã được ca ngợi vì tính minh bạch và trách nhiệm. Chatbot trí tuệ nhân tạo của công ty, Claude, được xây dựng để chống lại các lệnh gặp phải bằng cách giải thích tại sao chúng nguy hiểm hoặc sai lầm. Điều đó chủ yếu là do phương pháp tiếp cận của công ty, “Trí tuệ Nhân quyền,” trong đó có một tập hợp các luật hoặc nguyên tắc là chỉ sự giám sát của con người. Nó bao gồm cả giai đoạn học có giám sát và giai đoạn học bằng cách củng cố. Cả hai phương pháp học có giám sát và học củng cố có thể sử dụng được tư duy theo chuỗi để cải thiện tính minh bạch và hiệu suất của quyết định trí tuệ nhân tạo dưới góc nhìn của con người. Các phương pháp này cung cấp một cách để kiểm soát hành vi của trí tuệ nhân tạo một cách chính xác hơn và chỉ với ít hơn các nhãn con người, chứng tỏ một bước tiến quan trọng trong việc xây dựng các hệ thống trí tuệ nhân tạo đạo đức và an toàn. Công trình nghiên cứu về Trí tuệ Nhân quyền và hiện nay là việc ra mắt của RSP nhấn mạnh cam kết của Anthropic đối với an toàn và đạo đức trong trí tuệ nhân tạo. Bằng việc tập trung vào việc giảm thiểu thiệt hại trong khi tối đa hóa hữu ích, Anthropic đặt một tiêu chuẩn cao cho sự phát triển tương lai trong lĩnh vực trí tuệ nhân tạo.
Nhiệm vụ của VentureBeat là trở thành một “quảng trường số” cho các nhà quyết định kỹ thuật thu thập kiến thức về công nghệ doanh nghiệp tiến bộ và thực hiện giao dịch. Khám phá Briefing của chúng tôi.
Nguồn: https://venturebeat.com/ai/anthropics-new-policy-takes-aim-at-catastrophic-ai-risks/
Head over to our on-demand library to view sessions from VB Transform 2023. Register Here
Anthropic, the AI safety and research company behind the popular Claude chatbot, has released a new policy detailing its commitment to responsibly scaling AI systems.
The policy, referred to as the Responsible Scaling Policy (RSP), is designed specifically to mitigate “catastrophic risks,” or situations where an AI model could directly cause large-scale devastation.
The RSP is unprecedented and highlights Anthropic’s commitment to reduce the escalating risks linked to increasingly advanced AI models. The policy underscores the potential for AI to prompt significant destruction, referring to scenarios that could lead to “thousands of deaths or hundreds of billions of dollars in damage, directly caused by an AI model, and which would not have occurred in its absence.”
In an exclusive interview with VentureBeat, Anthropic co-founder Sam McCandlish shared some insights into the development of the policy and its potential challenges. At the heart of the policy are AI Safety Levels (ASLs). This risk tiering system, inspired by the U.S. government’s Biosafety Levels for biological research, is designed to reflect and manage the potential risk of different AI systems through appropriate safety evaluation, deployment, and oversight procedures. The policy outlines four ASLs, from ASL-0 (low risk) to ASL-3 (high risk).
Event
VB Transform 2023 On-Demand
Did you miss a session from VB Transform 2023? Register to access the on-demand library for all of our featured sessions.

“There is always some level of arbitrariness in drawing boundaries, but we wanted to roughly reflect different tiers of risk,” McCandlish said. He added that while today’s models might not pose significant risks, Anthropic foresees a future where AI could start introducing real risk. He also acknowledged that the policy is not a static or comprehensive document, but rather a living and evolving one that will be updated and refined as the company learns from its experience and feedback.
The company’s goal is to channel competitive pressures into solving key safety problems so that developing safer, more advanced AI systems unlocks additional capabilities, rather than reckless scaling. However, McCandlish acknowledged the difficulty of comprehensively evaluating risks, given models’ potential to conceal their abilities. “We can never be totally sure we are catching everything, but will certainly aim to,” he said.
The policy also includes measures to ensure independent oversight. All changes to the policy require board approval, a move that McCandlish admits could slow responses to new safety concerns, but is necessary to avoid potential bias. “We have real concern that with us both releasing models and testing them for safety, there is a temptation to make the tests too easy, which is not the outcome we want,” McCandlish said.
The announcement of Anthropic’s RSP comes at a time when the AI industry is facing growing scrutiny and regulation over the safety and ethics of its products and services. Anthropic, which was founded by former members of OpenAI and has received significant funding from Google and other investors, is one of the leading players in the field of AI safety and alignment, and has been praised for its transparency and accountability.
The company’s AI chatbot, Claude, is built to combat harmful prompts by explaining why they are dangerous or misguided. That’s in large part due to the company’s approach, “Constitutional AI,” which involves a set of rules or principles providing the only human oversight. It incorporates both a supervised learning phase and a reinforcement learning phase.
Both the supervised and reinforcement learning methods can leverage chain-of-thought style reasoning to improve the transparency and performance of AI decision making as judged by humans. These methods offer a way to control AI behavior more precisely and with far fewer human labels, demonstrating a significant step forward in crafting ethical and safe AI systems.
The research on Constitutional AI and now the launch of the RSP underlines Anthropic’s commitment to AI safety and ethical considerations. By focusing on minimizing harm while maximizing utility, Anthropic sets a high standard for future advancements in the field of AI.
VentureBeat’s mission is to be a digital town square for technical decision-makers to gain knowledge about transformative enterprise technology and transact. Discover our Briefings.
[ad_2]