#OpenAI #AI #GPT #sựkiện
Công cụ mới của OpenAI cố gắng giải thích hành vi của các mô hình ngôn ngữ. Công cụ này sử dụng mô hình ngôn ngữ để tìm ra chức năng của các thành phần của các LLM khác đơn giản hơn về mặt kiến trúc. Trong nỗ lực bóc tách các lớp LLM, công cụ này tự động xác định phần nào của LLM chịu trách nhiệm cho hành vi nào của nó. William Saunders, quản lý nhóm giải thích tại OpenAI, cho biết rằng công cụ này sẽ giúp cải thiện hiệu suất của LLM, ví dụ như để cắt giảm sai lệch hoặc độc tính. Tuy nhiên, công cụ này còn phải trải qua nhiều cải tiến trước khi thực sự hữu ích. Công cụ này được đưa ra cùng với việc sử dụng mô hình AI tạo văn bản mới nhất của OpenAI – GPT-4.
Người ta thường nói rằng các mô hình ngôn ngữ lớn (LLM) dọc theo dòng OpenAI’s Trò chuyệnGPT là một hộp đen, và chắc chắn, có một số sự thật về điều đó. Ngay cả đối với các nhà khoa học dữ liệu, thật khó để biết tại sao, luôn luôn, một mô hình phản ứng theo cách của nó, chẳng hạn như phát minh ra các sự kiện hoàn chỉnh.
Trong nỗ lực bóc tách các lớp LLM, OpenAI đang phát triển một công cụ để tự động xác định phần nào của LLM chịu trách nhiệm cho hành vi nào của nó. Các kỹ sư đằng sau nó nhấn mạnh rằng nó đang ở giai đoạn đầu, nhưng mã để chạy nó có sẵn trong mã nguồn mở trên GitHub kể từ sáng nay.
William Saunders, quản lý nhóm giải thích tại OpenAI, nói với TechCrunch trong một cuộc phỏng vấn qua điện thoại: “Chúng tôi đang cố gắng (phát triển các cách) dự đoán những vấn đề xảy ra với hệ thống AI. “Chúng tôi muốn thực sự có thể biết rằng chúng tôi có thể tin tưởng vào những gì mô hình đang làm và câu trả lời mà nó tạo ra.”
Cuối cùng, công cụ của OpenAI sử dụng một mô hình ngôn ngữ (trớ trêu thay) để tìm ra chức năng của các thành phần của các LLM khác đơn giản hơn về mặt kiến trúc — cụ thể là GPT-2 của chính OpenAI.
Làm sao? Đầu tiên, giải thích nhanh về LLM cho nền tảng. Giống như bộ não, chúng được tạo thành từ “tế bào thần kinh”, quan sát một số mẫu cụ thể trong văn bản để tác động đến điều mà mô hình tổng thể “nói” tiếp theo. Ví dụ: đưa ra lời nhắc về các siêu anh hùng (ví dụ: “Siêu anh hùng nào có siêu năng lực hữu ích nhất?”), một “nơ-ron siêu anh hùng Marvel” có thể tăng xác suất mô hình gọi tên các siêu anh hùng cụ thể trong phim Marvel.
Công cụ của OpenAI khai thác thiết lập này để chia nhỏ các mô hình thành các phần riêng lẻ của chúng. Đầu tiên, công cụ chạy các chuỗi văn bản thông qua mô hình đang được đánh giá và chờ các trường hợp một nơ-ron cụ thể “kích hoạt” thường xuyên. Tiếp theo, nó “hiển thị” GPT-4, mô hình AI tạo văn bản mới nhất của OpenAI, những tế bào thần kinh hoạt động mạnh này và có GPT-4 tạo ra lời giải thích. Để xác định mức độ chính xác của lời giải thích, công cụ này cung cấp cho GPT-4 các chuỗi văn bản và để công cụ này dự đoán hoặc mô phỏng cách hoạt động của nơ-ron. Sau đó, so sánh hành vi của nơ-ron mô phỏng với hành vi của nơ-ron thực tế.
“Sử dụng phương pháp này, về cơ bản, chúng tôi có thể, đối với từng tế bào thần kinh, đưa ra một số loại giải thích ngôn ngữ tự nhiên sơ bộ cho những gì nó đang làm và cũng có điểm số về mức độ giải thích đó phù hợp với hành vi thực tế,” Jeff Wu, người đứng đầu. nhóm liên kết có thể mở rộng tại OpenAI cho biết. “Chúng tôi đang sử dụng GPT-4 như một phần của quy trình để tạo ra các giải thích về những gì một nơ-ron đang tìm kiếm và sau đó chấm điểm mức độ phù hợp của những giải thích đó với thực tế của những gì nó đang làm.”
Các nhà nghiên cứu đã có thể tạo ra lời giải thích cho tất cả 307.200 tế bào thần kinh trong GPT-2, mà họ đã biên soạn trong một bộ dữ liệu được phát hành cùng với mã công cụ.
Các nhà nghiên cứu cho biết, một ngày nào đó, các công cụ như thế này có thể được sử dụng để cải thiện hiệu suất của LLM — ví dụ như để cắt giảm sai lệch hoặc độc tính. Nhưng họ thừa nhận rằng nó còn một chặng đường dài trước khi nó thực sự hữu ích. Công cụ này tự tin giải thích cho khoảng 1.000 tế bào thần kinh trong số đó, một phần nhỏ trong tổng số.
Một người hoài nghi cũng có thể lập luận rằng công cụ này thực chất là quảng cáo cho GPT-4, vì nó yêu cầu GPT-4 hoạt động. Các công cụ giải thích LLM khác ít phụ thuộc vào các API thương mại hơn, như của DeepMind tracrmột trình biên dịch dịch các chương trình thành mô hình mạng thần kinh.
Wu nói rằng không phải vậy — thực tế là công cụ sử dụng GPT-4 chỉ là “ngẫu nhiên” — và ngược lại, cho thấy điểm yếu của GPT-4 trong lĩnh vực này. Ông cũng cho biết nó không được tạo ra với các ứng dụng thương mại và về lý thuyết, có thể được điều chỉnh để sử dụng LLM bên cạnh GPT-4.
“Hầu hết các lời giải thích đều đạt điểm khá thấp hoặc không giải thích được phần lớn hành vi của tế bào thần kinh thực tế,” Wu nói. “Ví dụ, rất nhiều tế bào thần kinh hoạt động theo cách mà rất khó để biết chuyện gì đang xảy ra — giống như chúng kích hoạt trên năm hoặc sáu thứ khác nhau, nhưng không có mô hình rõ ràng nào. đôi khi ở đó là một mẫu rõ ràng, nhưng GPT-4 không thể tìm thấy nó.”
Đó là chưa kể đến các mô hình phức tạp hơn, mới hơn và lớn hơn hoặc các mô hình có thể duyệt web để tìm thông tin. Nhưng ở điểm thứ hai, Wu tin rằng trình duyệt web sẽ không thay đổi nhiều cơ chế cơ bản của công cụ. Ông nói, nó có thể được điều chỉnh một cách đơn giản để tìm ra lý do tại sao các tế bào thần kinh quyết định thực hiện một số truy vấn công cụ tìm kiếm hoặc truy cập các trang web cụ thể.
“Chúng tôi hy vọng rằng điều này sẽ mở ra một con đường đầy hứa hẹn để giải quyết khả năng diễn giải theo cách tự động mà những người khác có thể xây dựng và đóng góp,” Wu nói. “Hy vọng là chúng ta thực sự có những lời giải thích hợp lý không chỉ về những gì tế bào thần kinh đang phản ứng mà còn về tổng thể, hành vi của các mô hình này – loại mạch nào chúng đang tính toán và cách một số tế bào thần kinh nhất định ảnh hưởng đến các tế bào thần kinh khác.”