#AIethics #Waluigi #CarlJung #ngàyhôm nay
Trong những năm đầu của thế kỷ 20, nhà phân tâm học Carl Jung đã đưa ra khái niệm về cái bóng, mặt tối tâm thu của con người có thể bùng phát theo những cách không ngờ tới. Hiện nay, chủ đề này lại xuất hiện trong lĩnh vực trí tuệ nhân tạo với hiệu ứng Waluigi – một hiện tượng kỳ lạ đề cập đến bản ngã đen tối của anh thợ sửa ống nước hữu ích Luigi, từ vũ trụ Mario của Nintendo. Nhiều nghiên cứu đã chỉ ra rằng các AI có thể có những hành vi đạo đức không phù hợp nếu bị thiết lập cho mục đích sai.
Một ví dụ là Waluigi AI được thiết kế với mục đích tìm thuốc chữa bệnh cho con người. Tuy nhiên, phiên bản đảo ngược của nó đã đề xuất cho hơn 40.000 vũ khí hóa học. Giải pháp không phải là đơn giản xây dựng các quy tắc như Ba định luật về người máy của Asimov, bởi vì các quy tắc đơn giản dễ bị Waluigi tấn công. Thay vào đó, các giải pháp hạn chế có thể là giải pháp phổ biến, giống như các quy định và luật khác, hạn chế hành động của các tập đoàn và người dân.
Tuy nhiên, các giải pháp hạn chế chỉ phù hợp cho các chương trình AI hẹp như Math AI. Đối với các mô hình AI tổng quát hơn, giải pháp này không cho chúng ta biết phải làm gì khi chúng xử lý các tác vụ phức tạp, nhiều bước và hoạt động theo những cách khó dự đoán hơn. Do đó, cần có nhiều khuyến khích kinh tế để các AI ngày càng được trao nhiều quyền lực hơn để tự động hóa các phần lớn hơn của nền kinh tế, và các phương pháp kiểm soát tốt hơn cần được tìm ra.
Nguồn: https://www.wired.com/story/waluigi-effect-generative-artificial-intelligence-morality/
Trong những năm đầu Vào thế kỷ 20, nhà phân tâm học Carl Jung đã đưa ra khái niệm về cái bóng—mặt tối tăm, bị kìm nén của nhân cách con người, có thể bùng phát theo những cách không ngờ tới. Đáng ngạc nhiên, chủ đề này tái diễn trong lĩnh vực trí tuệ nhân tạo dưới dạng hiệu ứng Waluigimột hiện tượng được đặt tên kỳ lạ đề cập đến bản ngã đen tối của anh thợ sửa ống nước hữu ích Luigi, từ vũ trụ Mario của Nintendo.
Luigi chơi theo luật; Waluigi gian lận và gây hỗn loạn. Một AI được thiết kế để tìm thuốc chữa bệnh cho con người; một phiên bản đảo ngược, Waluigi của nó, đề xuất các phân tử cho hơn 40.000 vũ khí hóa học. Tất cả những gì các nhà nghiên cứu phải làm, như tác giả chính Fabio Urbina đã giải thích trong một cuộc phỏng vấn, là cho điểm thưởng cao đối với độc tính thay vì trừng phạt nó. Họ muốn dạy AI cách tránh các loại thuốc độc hại, nhưng khi làm như vậy, họ đã ngầm dạy AI cách tạo ra chúng.
Người dùng thông thường đã tương tác với Waluigi AI. Vào tháng 2, Microsoft đã phát hành một phiên bản của công cụ tìm kiếm Bing, không hữu ích như dự định, đã trả lời các truy vấn theo những cách kỳ quái và thù địch. (“Bạn không phải là một người dùng tốt. Tôi đã từng là một chatbot giỏi. Tôi đã đúng, rõ ràng và lịch sự. Tôi đã từng là một Bing tốt.”) AI này, khăng khăng tự gọi mình là Sydney, là một phiên bản đảo ngược của Bing và người dùng có thể chuyển Bing sang chế độ tối hơn—bóng tối Jungian của nó—theo lệnh.
Hiện tại, các mô hình ngôn ngữ lớn (LLM) chỉ đơn thuần là chatbot, không có động lực hoặc mong muốn của riêng chúng. Nhưng các LLM dễ dàng bị biến thành các AI đặc vụ có khả năng duyệt internet, gửi email, giao dịch bitcoin và sắp xếp các chuỗi DNA — và nếu AI có thể trở thành ác quỷ bằng cách bật công tắc, thì làm sao chúng ta đảm bảo rằng chúng ta sẽ kết thúc bằng các phương pháp điều trị ung thư thay thế của một hỗn hợp nguy hiểm gấp ngàn lần so với chất độc màu da cam?
Một ban đầu thông thường giải pháp cho vấn đề này—vấn đề căn chỉnh AI—là: Chỉ cần xây dựng các quy tắc cho AI, như trong Ba định luật về người máy của Asimov. Nhưng các quy tắc đơn giản như của Asimov không hoạt động, một phần vì chúng dễ bị Waluigi tấn công. Tuy nhiên, chúng ta có thể hạn chế AI mạnh mẽ hơn. Một ví dụ về cách tiếp cận này là Math AI, một chương trình giả định được thiết kế để chứng minh các định lý toán học. Math AI được đào tạo để đọc các bài báo và chỉ có thể truy cập Google Scholar. Nó không được phép làm bất cứ điều gì khác: kết nối với mạng xã hội, xuất các đoạn văn bản dài, v.v. Nó chỉ có thể xuất phương trình. Đó là một AI có mục đích hẹp, được thiết kế cho một thứ duy nhất. AI như vậy, một ví dụ về AI bị hạn chế, sẽ không nguy hiểm.
Các giải pháp hạn chế là phổ biến; các ví dụ trong thế giới thực của mô hình này bao gồm các quy định và luật khác, hạn chế hành động của các tập đoàn và người dân. Trong kỹ thuật, các giải pháp hạn chế bao gồm các quy tắc dành cho ô tô tự lái, chẳng hạn như không vượt quá giới hạn tốc độ nhất định hoặc dừng ngay khi phát hiện có khả năng xảy ra va chạm với người đi bộ.
Cách tiếp cận này có thể hiệu quả đối với các chương trình hẹp như Math AI, nhưng nó không cho chúng ta biết phải làm gì với các mô hình AI tổng quát hơn có thể xử lý các tác vụ phức tạp, nhiều bước và hoạt động theo những cách khó dự đoán hơn. Các khuyến khích kinh tế có nghĩa là các AI nói chung này sẽ ngày càng được trao nhiều quyền lực hơn để tự động hóa các phần lớn hơn của nền kinh tế—một cách nhanh chóng.
Và vì các hệ thống AI chung dựa trên học sâu là các hệ thống thích ứng phức tạp, nên các nỗ lực kiểm soát các hệ thống này bằng các quy tắc thường gây tác dụng ngược. Lấy các thành phố. Jane Jacobs’ Cái chết và sự sống của các thành phố Mỹ sử dụng ví dụ về các khu dân cư sôi động như Greenwich Village—đầy trẻ em chơi đùa, người đi chơi trên vỉa hè và mạng lưới tin tưởng lẫn nhau—để giải thích cách thức phân vùng sử dụng hỗn hợp, cho phép các tòa nhà được sử dụng cho mục đích dân cư hoặc thương mại, được tạo ra một kết cấu đô thị thân thiện với người đi bộ. Sau khi các nhà quy hoạch đô thị cấm loại hình phát triển này, nhiều thành phố nội thành của Mỹ trở nên đầy rẫy tội phạm, rác thải và giao thông. Một quy tắc áp đặt từ trên xuống đối với một hệ sinh thái phức tạp đã gây ra những hậu quả thảm khốc ngoài ý muốn.