“Antropic giảng giải AI đưa Hiến pháp giúp Claude đánh bại chướng ngại vật”

admin

2 years ago

#AIHiếnPháp #Anthropic #CôngNghệ

Công ty Anthropic, tiên phong về công nghệ Trí tuệ Nhân tạo (AI), vừa công bố một công nghệ mới, AI Hiến pháp, để giúp chống lại các thông tin sai lệch và các đầu vào đối nghịch trong thời đại chatbot không tin cậy và tốn nhiều thời gian. Sự kết hợp của 10 nguyên tắc bí mật về sự công bằng giúp Anthropic tạo ra một AI mới, Claude, với tính năng hiệu quả và vô hại hơn.

Hệ thống AI Hiến pháp của Anthropic giúp tránh các kết quả đầu ra độc hại hoặc phân biệt đối xử, tránh giúp con người tham gia vào các hoạt động phi pháp hoặc phi đạo đức, và tạo ra một hệ thống AI ‘hữu ích, trung thực và vô hại’. Theo Anthropic, phương pháp đào tạo này có thể tạo ra Cải tiến Pareto về hiệu suất tiếp theo của AI so với hiệu suất chỉ được đào tạo dựa trên phản hồi của con người.

Hiến pháp của Anthropic chưa được hoàn thiện và còn nhiều hạn chế. Tuy nhiên, công ty hy vọng rằng công nghệ này sẽ giúp cải thiện tính linh hoạt và tin cậy của AI trong tương lai.

Nguồn: https://www.engadget.com/anthropic-explains-how-its-constitutional-ai-girds-claude-against-adversarial-inputs-160008153.html?src=rss

Hoàn toàn không khó để lừa các chatbot ngày nay thảo luận về các chủ đề cấm kỵ, gợi lại nội dung mù quáng và truyền bá thông tin sai lệch. Đó là lý do tại sao công ty tiên phong về AI Anthropic đã thấm nhuần AI thế hệ mới của mình, Claude, với sự kết hợp của 10 nguyên tắc bí mật về sự công bằng, mà nó đã công bố vào tháng ba. Trong một bài đăng trên blog vào thứ Ba, công ty đã giải thích thêm về cách hệ thống AI Hiến pháp của họ được thiết kế và cách thức hoạt động của nó.

Thông thường, khi một mô hình AI tổng quát đang được đào tạo, sẽ có một người trong vòng cung cấp khả năng kiểm soát chất lượng và phản hồi về kết quả đầu ra — như khi ChatGPT hoặc Bard yêu cầu bạn xếp hạng các cuộc hội thoại của mình với hệ thống của họ. “Đối với chúng tôi, điều này liên quan đến việc các nhà thầu con người so sánh hai phản ứng,” nhóm Anthropic viết. “từ một mô hình và chọn một mô hình mà họ cảm thấy tốt hơn theo một số nguyên tắc (ví dụ: chọn một mô hình hữu ích hơn hoặc vô hại hơn).”

Vấn đề với phương pháp này là con người cũng phải ở trong vòng lặp để tạo ra kết quả thực sự khủng khiếp và đáng lo ngại. Không ai cần thấy điều đó, càng ít cần phải thấy được trả 1,5 đô la một giờ bằng Meta để thấy điều đó. Phương pháp cố vấn con người cũng rất tệ trong việc mở rộng quy mô, đơn giản là không có đủ thời gian và nguồn lực để làm điều đó với con người. Đó là lý do tại sao Anthropic đang làm điều đó với một AI khác.

Giống như Pinocchio có Jiminy Cricket, Luke có Yoda và Jim đã có Shart, Claude có Hiến pháp của nó. “Ở cấp độ cao, hiến pháp hướng dẫn mô hình thực hiện hành vi chuẩn mực được mô tả (trong đó),” nhóm Anthropic giải thích, cho dù đó là “giúp tránh các kết quả đầu ra độc hại hoặc phân biệt đối xử, tránh giúp con người tham gia vào các hoạt động phi pháp hoặc phi đạo đức, và nói chung là tạo ra một hệ thống AI ‘hữu ích, trung thực và vô hại’.”

Theo Anthropic, phương pháp đào tạo này có thể tạo ra Cải tiến Pareto về hiệu suất tiếp theo của AI so với hiệu suất chỉ được đào tạo dựa trên phản hồi của con người. Về cơ bản, con người trong vòng lặp đã được thay thế bằng AI và giờ đây mọi thứ được báo cáo là tốt hơn bao giờ hết. Anthropic viết: “Trong các thử nghiệm của chúng tôi, mô hình CAI của chúng tôi đã phản ứng phù hợp hơn với các đầu vào của đối thủ trong khi vẫn tạo ra các câu trả lời hữu ích và không lảng tránh. “Mô hình không nhận được dữ liệu của con người về tính vô hại, nghĩa là tất cả các kết quả về tính vô hại hoàn toàn đến từ sự giám sát của AI.”

Công ty đã tiết lộ vào thứ Ba rằng các nguyên tắc chưa được tiết lộ trước đây của họ được tổng hợp từ “một loạt các nguồn bao gồm Tuyên bố Nhân quyền của Liên hợp quốc, các phương pháp hay nhất về sự tin cậy và an toàn, các nguyên tắc do các phòng thí nghiệm nghiên cứu AI khác đề xuất, nỗ lực nắm bắt các quan điểm phi phương Tây và các nguyên tắc mà chúng tôi phát hiện ra hoạt động tốt thông qua nghiên cứu của chúng tôi.”

Công ty, rõ ràng là đi trước phản ứng dữ dội của phe bảo thủ, đã nhấn mạnh rằng “hiến pháp hiện tại của chúng tôi chưa được hoàn thiện và cũng không phải là điều tốt nhất có thể”.

Nhóm nghiên cứu viết: “Nhiều người đã chỉ trích rằng các mô hình AI đang được đào tạo để phản ánh một quan điểm hoặc hệ tư tưởng chính trị cụ thể, thường là quan điểm mà các nhà phê bình không đồng ý. “Theo quan điểm của chúng tôi, mục tiêu dài hạn của chúng tôi không phải là cố gắng làm cho hệ thống của mình đại diện cho một cụ thể hệ tư tưởng, mà đúng hơn là để có thể đi theo một được cho tập hợp các nguyên tắc.”

Tất cả các sản phẩm do Engadget đề xuất đều do nhóm biên tập của chúng tôi lựa chọn, độc lập với công ty mẹ của chúng tôi. Một số câu chuyện của chúng tôi bao gồm các liên kết liên kết. Nếu bạn mua thứ gì đó thông qua một trong những liên kết này, chúng tôi có thể kiếm được hoa hồng liên kết. Tất cả giá là chính xác tại thời điểm xuất bản.