Nhân bản mô hình và cuộc Cách mạng LLM mã nguồn mở | bởi Cameron R. Wolfe, Tiến sĩ. Thư thông báo Sed ut perspiciatis unde. Đăng ký nhận thông báo Các LLM độc quyền như ChatGPT và GPT-4 thực sự dễ sao chép không? (Ảnh do Tanbir Mahmud trên Unsplash)Đề xuất của bộ cài đặt LLaMA (2) của các mô hình ngôn ngữ lớn (LLM) đã dẫn đến một sự gia tăng về công bố về chủ đề LLM mã nguồn mở. Trong nhiều trường hợp, mục tiêu của những công trình này là sản xuất một cách rẻ tiền các LLM mã nguồn mở nhỏ hơn (cho mục đích nghiên cứu) có chất lượng tương đương với các mô hình độc quyền như ChatGPT và GPT-4. Những mô hình này áp dụng chiến lược mô phỏng, điều chỉnh một LLM cơ bản thông qua dữ liệu đối thoại tổng hợp từ một LLM mạnh hơn. Mặc dù việc huấn luyện rẻ tiền, nhưng những mô hình này dường như có hiệu suất tương tự như các LLM độc quyền như ChatGPT. Do đó, cộng đồng nghiên cứu học sâu nhanh chóng nhận định rằng LLM mã nguồn mở sẽ thống trị tương lai – việc sản xuất lại các biến thể mã nguồn mở của các mô hình độc quyền là dễ dàng và tiết kiệm chi phí! “Các LLM mạnh nhất có phải độc quyền hay có phải phân phối miễn phí để bất kỳ ai sử dụng, chỉnh sửa và mở rộng?” – từ (1) Thật không may, các đánh giá sơ bộ được thực hiện trên những mô hình này, dựa trên các đánh giá được cung cấp bởi các LLM khác (ví dụ: GPT-4) hoặc công nhân đám đông, đã hơi hấp tấp. Hiệu suất của các mô hình mô phỏng thực tế có khớp với mô hình như ChatGPT không? Để trả lời câu hỏi này một cách nghiêm túc hơn, chúng ta sẽ nghiên cứu các nghiên cứu gần đây phân tích xem liệu các mô hình mô phỏng thực sự có loại bỏ “vũng lầy” xung quanh các LLM độc quyền. Thú vị thay, chúng ta sẽ thấy rằng những bản sao rẻ tiền của các LLM mạnh mẽ này có hiệu suất tốt trong các đánh giá của con người nhờ vào khả năng học cách phong cách của một LLM mạnh. Tuy nhiên, chúng thiếu tính chính xác và hoạt động kém khi được đưa vào các đánh giá rộng và có mục tiêu hơn. Trên thực tế, các mô hình mô phỏng không hoạt động tốt như các mô hình độc quyền như ChatGPT. (từ (1)) “Gia thuyết của mô hình mô phỏng là khi một LM độc quyền được cung cấp thông qua API, bạn có thể thu thập một bộ dữ liệu đầu ra API và sử dụng nó để điều chỉnh một LM mã nguồn mở.” – từ (1) Đường dẫn nguồn
Are proprietary LLMs like ChatGPT and GPT-4 actually easy to replicate?


The proposal of the LLaMA suite (2) of large language models (LLMs) led to a surge in publications on the topic of open-source LLMs. In many cases, the goal of these works was to cheaply produce smaller, opens-source LLMs (for research purposes) that have comparable quality to proprietary models like ChatGPT and GPT-4. These models adopt an imitation strategy, which fine-tunes a base LLM over synthetic dialogue data from a more powerful LLM. Despite being cheap to train, these models seemed to perform comparably to proprietary LLMs like ChatGPT. As a result, the deep learning research community quickly adopted the view that open-source LLMs will rule the future — re-producing open-source variants of proprietary models was both easy and cost-effective!
“Will the most powerful LLMs be closed-source or will they be freely distributed for anyone to use, modify, and extend?” — from (1)
Unfortunately, preliminary evaluations performed on these models, which relied upon ratings provided by other LLMs (e.g., GPT-4) or human crowd workers, were somewhat cursory. Does the performance of imitation models actually match that of models like ChatGPT? To answer this question more rigorously, we will study recent research that analyzes whether imitation models truly remove the “moat” around proprietary LLMs. Interestingly, we will see that these cheap reproductions of powerful LLMs perform well in human evaluations due to their ability to learn the style of a powerful LLM. However, they lack factuality and perform poorly when subjected to more broad and targeted evaluations. In reality, imitation models do not perform nearly as well as proprietary models like ChatGPT.
“The premise of model imitation is that once a proprietary LM is made available via API, one can collect a dataset of API outputs and use it to fine-tune an open-source LM.” — from (1)
[ad_2]