Queen Mobile Blog

Kiến trúc BitNet: Sự tăng cường hiệu quả LLM trong thế hệ mới của Microsoft

Kiến trúc BitNet thế hệ tiếp theo của Microsoft đang tăng cường hiệu quả LLM như thế nào? #BitNet #Microsoft #LLM #AI #kỹthuật #tốiưuhóa #tăngcường #nghiênCứu #phânTán #lượngTửHóa #BitNeta4.8 #môhình #phầnCứng #tínhToán #thửnghiệm #hiệuSuất #trọngTâm #đàoTạo #phầnMềm #sựkiện #trending #ngàyhômNay Nguồn: https://venturebeat.com/ai/how-microsofts-next-gen-bitnet-architecture-is-turbocharging-llm-efficiency/

Tham gia các bản tin hàng ngày và hàng tuần của chúng tôi để có những cập nhật mới nhất và nội dung độc quyền về phạm vi phủ sóng AI hàng đầu trong ngành. Tìm hiểu thêm


Các mô hình ngôn ngữ lớn một bit (LLM) đã nổi lên như một cách tiếp cận đầy hứa hẹn để làm cho AI tổng hợp trở nên dễ tiếp cận hơn và giá cả phải chăng hơn. Bằng cách biểu thị trọng số mô hình với số lượng bit rất hạn chế, LLM 1 bit giảm đáng kể bộ nhớ và tài nguyên tính toán cần thiết để chạy chúng.

Nghiên cứu của Microsoft đã vượt qua ranh giới của LLM 1 bit bằng kiến ​​trúc BitNet của nó. trong một giấy mớicác nhà nghiên cứu giới thiệu BitNet a4.8, một kỹ thuật mới giúp cải thiện hơn nữa hiệu quả của LLM 1 bit mà không làm giảm hiệu suất của chúng.

Sự gia tăng của LLM 1 bit

LLM truyền thống sử dụng số dấu phẩy động 16 bit (FP16) để biểu thị các tham số của chúng. Điều này đòi hỏi nhiều bộ nhớ và tài nguyên tính toán, điều này hạn chế khả năng truy cập và các tùy chọn triển khai cho LLM. LLM một bit giải quyết thách thức này bằng cách giảm đáng kể độ chính xác của trọng lượng mô hình trong khi vẫn phù hợp với hiệu suất của các mô hình có độ chính xác hoàn toàn.

Các mô hình BitNet trước đây đã sử dụng các giá trị 1,58 bit (-1, 0, 1) để biểu thị trọng số mô hình và các giá trị 8 bit để kích hoạt. Cách tiếp cận này làm giảm đáng kể chi phí bộ nhớ và I/O, nhưng chi phí tính toán của phép nhân ma trận vẫn là một nút thắt cổ chai và việc tối ưu hóa mạng lưới thần kinh với các tham số bit cực thấp là một thách thức.

Hai kỹ thuật giúp giải quyết vấn đề này. Phân tán làm giảm số lượng tính toán bằng cách cắt bớt các kích hoạt có cường độ nhỏ hơn. Điều này đặc biệt hữu ích trong LLM vì các giá trị kích hoạt có xu hướng phân bố dài, với một số giá trị rất lớn và nhiều giá trị nhỏ.

Lượng tử hóamặt khác, sử dụng số bit nhỏ hơn để thể hiện các kích hoạt, giảm chi phí tính toán và bộ nhớ khi xử lý chúng. Tuy nhiên, chỉ cần giảm độ chính xác của kích hoạt có thể dẫn đến lỗi lượng tử hóa đáng kể và suy giảm hiệu suất.

Hơn nữa, việc kết hợp phân tách và lượng tử hóa là một thách thức và gây ra các vấn đề đặc biệt khi đào tạo LLM 1 bit.

Furu Wei, Giám đốc nghiên cứu đối tác tại Microsoft Research, nói với VentureBeat: “Cả lượng tử hóa và phân tán đều đưa ra các hoạt động không thể phân biệt, khiến việc tính toán độ dốc trong quá trình đào tạo trở nên đặc biệt khó khăn”.

Tính toán gradient là điều cần thiết để tính toán lỗi và cập nhật các tham số khi đào tạo mạng lưới thần kinh. Các nhà nghiên cứu cũng phải đảm bảo rằng các kỹ thuật của họ có thể được triển khai hiệu quả trên phần cứng hiện có trong khi vẫn duy trì được lợi ích của cả quá trình phân tán và lượng tử hóa.

BitNet a4.8

BitNet a4.8 giải quyết các thách thức trong việc tối ưu hóa LLM 1 bit thông qua những gì các nhà nghiên cứu mô tả là “lượng tử hóa và phân tán lai”. Họ đạt được điều này bằng cách thiết kế một kiến ​​trúc áp dụng có chọn lọc lượng tử hóa hoặc phân tán cho các thành phần khác nhau của mô hình dựa trên mô hình phân phối kích hoạt cụ thể. Kiến trúc sử dụng kích hoạt 4 bit cho đầu vào của các lớp mạng chú ý và mạng chuyển tiếp nguồn cấp dữ liệu (FFN). Nó sử dụng tính năng phân tán với 8 bit cho các trạng thái trung gian, chỉ giữ lại 55% tham số hàng đầu. Kiến trúc cũng được tối ưu hóa để tận dụng phần cứng hiện có.

Wei cho biết: “Với BitNet b1.58, nút thắt suy luận của LLM 1 bit chuyển từ bộ nhớ/IO sang tính toán, vốn bị hạn chế bởi các bit kích hoạt (tức là 8 bit trong BitNet b1.58). “Trong BitNet a4.8, chúng tôi đẩy các bit kích hoạt lên 4 bit để có thể tận dụng các hạt nhân 4 bit (ví dụ: INT4/FP4) nhằm tăng tốc độ suy luận LLM lên gấp 2 lần trên các thiết bị GPU. Sự kết hợp giữa trọng số mô hình 1 bit từ BitNet b1.58 và kích hoạt 4 bit từ BitNet a4.8 giải quyết hiệu quả cả các hạn chế về bộ nhớ/IO và tính toán trong suy luận LLM.”

BitNet a4.8 cũng sử dụng các giá trị 3 bit để biểu thị trạng thái khóa (K) và giá trị (V) trong cơ chế chú ý. các Bộ đệm KV là thành phần quan trọng của mô hình máy biến áp. Nó lưu trữ các biểu diễn của các mã thông báo trước đó trong chuỗi. Bằng cách giảm độ chính xác của các giá trị bộ đệm KV, BitNet a4.8 còn giảm yêu cầu về bộ nhớ hơn nữa, đặc biệt là khi xử lý các chuỗi dài.

Lời hứa của BitNet a4.8

Kết quả thử nghiệm cho thấy BitNet a4.8 mang lại hiệu suất tương đương với BitNet b1.58 tiền nhiệm trong khi sử dụng ít bộ nhớ và tính toán hơn.

So với các mẫu Llama có độ chính xác hoàn toàn, BitNet a4.8 giảm mức sử dụng bộ nhớ xuống 10 lần và đạt được tốc độ gấp 4 lần. So với BitNet b1.58, nó đạt được tốc độ tăng gấp 2 lần thông qua hạt nhân kích hoạt 4 bit. Nhưng thiết kế có thể mang lại nhiều hơn thế.

Wei cho biết: “Sự cải thiện tính toán ước tính dựa trên phần cứng (GPU) hiện có”. “Với phần cứng được tối ưu hóa đặc biệt cho LLM 1 bit, những cải tiến về tính toán có thể được nâng cao đáng kể. BitNet giới thiệu một mô hình tính toán mới giúp giảm thiểu nhu cầu nhân ma trận, trọng tâm chính trong tối ưu hóa thiết kế phần cứng hiện tại.”

Hiệu quả của BitNet a4.8 khiến nó đặc biệt phù hợp để triển khai LLM ở biên và trên các thiết bị bị hạn chế về tài nguyên. Điều này có thể có ý nghĩa quan trọng đối với quyền riêng tư và bảo mật. Bằng cách kích hoạt LLM trên thiết bịngười dùng có thể hưởng lợi từ sức mạnh của các mô hình này mà không cần gửi dữ liệu của họ lên đám mây.

Wei và nhóm của anh ấy đang tiếp tục công việc của họ trên LLM 1 bit.

Wei cho biết: “Chúng tôi tiếp tục thúc đẩy nghiên cứu và tầm nhìn của mình cho kỷ nguyên LLM 1 bit. “Mặc dù trọng tâm hiện tại của chúng tôi là kiến ​​trúc mô hình và hỗ trợ phần mềm (ví dụ: bitnet.cpp), nhưng chúng tôi mong muốn khám phá sự đồng thiết kế và đồng phát triển của kiến ​​trúc mô hình và phần cứng để giải phóng hoàn toàn tiềm năng của LLM 1 bit.”

Exit mobile version