Học cách đào tạo mô hình AI với máy móc phân phối trên internet tại Nous Research

Nous Research đang đào tạo mô hình AI sử dụng máy móc được phân phối trên internet. #NousResearch #AI #MôHình #ĐàoTạo #PhânPhối #Internet #SựKiệnHômNay Nguồn: https://venturebeat.com/ai/nous-research-is-training-an-ai-model-using-machines-distributed-across-the-internet/

Tham gia các bản tin hàng ngày và hàng tuần của chúng tôi để có những cập nhật mới nhất và nội dung độc quyền về phạm vi phủ sóng AI hàng đầu trong ngành. Tìm hiểu thêm


Nhóm các nhà nghiên cứu AI được biết đến với cái tên Nghiên cứu Nous hiện đang làm điều gì đó độc đáo trong không gian chuyển động nhanh chóng của AI sáng tạo (ít nhất là theo hiểu biết của tôi): Nous đang trong quá trình đào tạo trước một mô hình ngôn ngữ lớn (LLM) 15 tỷ tham số mới bằng cách sử dụng các máy được phân phối trên internet và thế giới, tránh sự cần thiết phải tập trung phát triển mô hình như truyền thống thường xảy ra ở các trung tâm dữ liệu AI tốn kém, ngốn điện và các “siêu cụm” đơn vị xử lý đồ họa (GPU), chẳng hạn như xAI của Elon Musk vừa hoàn thành ở Memphis, Tennessee.

Hơn nữa, Nous đang phát trực tiếp quá trình đào tạo trước trên một trang web chuyên dụng — distro.nousresearch.com — cho thấy nó hoạt động tốt như thế nào dựa trên các điểm chuẩn đánh giá trong quá trình thực hiện và cũng là một bản đồ đơn giản về các vị trí khác nhau của thiết bị đào tạo đằng sau bài tập, bao gồm một số địa điểm ở Hoa Kỳ và Châu Âu.

Tính đến thời điểm xuất bản bài viết này, còn lại khoảng 57 giờ (2,3 ngày) trong quá trình đào tạo trước và hơn 75% quá trình đã hoàn thành.

Đào tạo trước là khía cạnh đầu tiên trong hai khía cạnh được cho là nền tảng nhất của việc đào tạo LLM, vì nó liên quan đến việc đào tạo mô hình trên một kho dữ liệu văn bản khổng lồ để tìm hiểu các thuộc tính và cấu trúc thống kê của ngôn ngữ. Mô hình xử lý các tập dữ liệu văn bản mở rộng, nắm bắt các mẫu, ngữ pháp và mối quan hệ theo ngữ cảnh giữa các từ. Giai đoạn này trang bị cho mô hình sự hiểu biết rộng về ngôn ngữ, cho phép nó tạo ra văn bản mạch lạc và thực hiện các nhiệm vụ khác nhau liên quan đến ngôn ngữ.

Sau khi đào tạo trước, mô hình sẽ trải qua quá trình tinh chỉnh trên một tập dữ liệu cụ thể hơn phù hợp với các nhiệm vụ hoặc lĩnh vực cụ thể.

Nếu thành công, Nous sẽ chứng minh rằng có thể đào tạo các LLM cấp cao mà không cần các siêu cụm đắt tiền hoặc đường truyền có độ trễ thấp, sử dụng phương pháp đào tạo nguồn mở mới. Nó có thể mở ra một kỷ nguyên mới về đào tạo AI phân tán như một nguồn chính hoặc có khả năng thống trị của các mô hình AI mới và thay đổi cán cân quyền lực trong thế hệ AI khỏi các công ty công nghệ lớn giàu có và hướng tới các nhóm nhỏ hơn và các tác nhân phi công ty. .

Nous DisTrO: công nghệ đằng sau bài tập huấn luyện

Nous, đã gây chú ý vào đầu năm nay khi phát hành Meta dễ dãi và xung đột hiện hữu của nó. Phiên bản Llama 3.1 Hermes 3 và sứ mệnh chung của nó là làm cho việc phát triển AI được cá nhân hóa và không bị hạn chế, đang sử dụng công nghệ đào tạo phân tán nguồn mở có tên Nous DisTrO (Đào tạo phân tán qua Internet), công nghệ này Nous ban đầu được xuất bản trong một bài nghiên cứu vào tháng 8 năm 2024.

Theo ấn phẩm gần đây của Nous Research, DisTrO giảm yêu cầu băng thông liên lạc giữa các GPU lên tới 10.000 lần trong quá trình đào tạo trước. Sự đổi mới này cho phép các mô hình được đào tạo về các kết nối Internet chậm hơn và giá cả phải chăng hơn—có thể là tốc độ tải xuống 100Mbps và tốc độ tải lên 10Mbps—trong khi vẫn duy trì tốc độ hội tụ và đường cong tổn thất cạnh tranh.

Bước đột phá cốt lõi của DisTrO nằm ở khả năng nén dữ liệu trao đổi giữa các GPU một cách hiệu quả mà không làm giảm hiệu suất của mô hình.

Như được mô tả trong một Tháng 8 năm 2024 Bài viết của VentureBeatphương pháp này đã giảm yêu cầu liên lạc từ 74,4 gigabyte xuống chỉ còn 86,8 megabyte trong quá trình thử nghiệm sử dụng kiến ​​trúc Llama 2, hiệu suất đạt được gần 857 lần. Sự cải tiến mạnh mẽ này mở đường cho một kỷ nguyên mới của nghiên cứu AI hợp tác, phi tập trung.

DisTrO được xây dựng dựa trên công trình trước đó về Tối ưu hóa động lượng tách rời (DeMo), một thuật toán được thiết kế để giảm giao tiếp giữa các GPU xuống một vài bậc độ lớn trong khi vẫn duy trì hiệu suất đào tạo tương đương với các phương pháp truyền thống.

Cả thuật toán DeMo và ngăn xếp DisTrO đều là một phần trong sứ mệnh đang diễn ra của Nous Research nhằm phân cấp các khả năng AI và mang lại sự phát triển AI tiên tiến cho nhiều đối tượng hơn.

Nhóm cũng cung cấp thuật toán DeMo dưới dạng mã nguồn mở trên GitHub, mời các nhà nghiên cứu và nhà phát triển trên toàn thế giới thử nghiệm và xây dựng dựa trên những phát hiện của họ.

Đối tác phần cứng

Quá trình đào tạo trước mô hình ngôn ngữ 15 tỷ tham số của Nous Research có sự đóng góp của một số đối tác đáng chú ý, bao gồm Oracle, Lambda Labs, Northern Data Group, Crusoe Cloud và Andromeda Cluster.

Cùng nhau, họ đã cung cấp phần cứng không đồng nhất cần thiết để kiểm tra khả năng của DisTrO trong môi trường phân tán trong thế giới thực.

Ý nghĩa sâu sắc cho việc phát triển mô hình AI trong tương lai

Ý nghĩa của DisTrO còn vượt xa cả sự đổi mới kỹ thuật. Bằng cách giảm sự phụ thuộc vào các trung tâm dữ liệu tập trung và cơ sở hạ tầng chuyên dụng, DisTrO đưa ra con đường dẫn đến một hệ sinh thái nghiên cứu AI mang tính hợp tác và toàn diện hơn.

Các tổ chức nhỏ hơn, các nhà nghiên cứu độc lập và thậm chí cả những người có sở thích có quyền truy cập vào Internet và GPU ở cấp độ người tiêu dùng có thể đào tạo các mô hình lớn — một kỳ tích trước đây chỉ dành cho các công ty có vốn và chuyên môn đáng kể.

Diederik P. Kingma, đồng tác giả của bài nghiên cứu và là người đồng phát minh ra trình tối ưu hóa Adam, đã tham gia Nous Research với tư cách là cộng tác viên phát triển DeMo và DisTrO. Những đóng góp của Kingma, cùng với những đóng góp của những người đồng sáng lập Nous Research, Bowen Peng và Jeffrey Quesnelle, đã tạo nên uy tín cho dự án và báo hiệu tác động tiềm tàng của nó đối với cộng đồng AI rộng lớn hơn.

Các bước tiếp theo

Nous Research đã mở ra cánh cửa cho một tương lai nơi việc phát triển AI không còn bị thống trị bởi một số ít tập đoàn. Công việc của họ trên DisTrO chứng minh rằng với sự tối ưu hóa phù hợp, các mô hình AI quy mô lớn có thể được đào tạo một cách hiệu quả theo cách phi tập trung.

Mặc dù phần trình diễn hiện tại sử dụng các GPU tiên tiến như Nvidia H100, khả năng mở rộng của DisTrO cho phần cứng ít chuyên dụng hơn vẫn là một lĩnh vực cần khám phá thêm.

Khi Nous Research tiếp tục cải tiến các phương pháp của mình, các ứng dụng tiềm năng của công nghệ này – từ học tập liên kết phi tập trung đến đào tạo các mô hình phổ biến để tạo hình ảnh – có thể xác định lại ranh giới của đổi mới AI.

Leave a Reply

Your email address will not be published. Required fields are marked *