Queen Mobile Blog

Google bám sát OpenAI: Lặng lẽ tung ra chương trình AI PaLM 2 mới.

google-palm-2-graphic

#Google #OpenAI #PaLM2 #AI

Google vừa công bố chương trình mới PaLM 2, một bản nâng cấp của Mô hình Ngôn ngữ Con đường PaLM. Tuy nhiên, Google không tiết lộ qua nhiều chi tiết về kiến ​​trúc của chương trình, đối lập hoàn toàn với OpenAI và GPT-4, khi họ đã từ chối công bố thông tin về chương trình trí tuệ nhân tạo của mình. Quyết định này có thể làm thay đổi toàn bộ lịch sử xuất bản AI, phần lớn dựa trên mã phần mềm nguồn mở và thường bao gồm các chi tiết quan trọng về kiến ​​trúc chương trình.

PaLM 2 là một chương trình AI Tổng quát, giống như GPT-4 của OpenAI, có khả năng tạo ra các cụm văn bản để phản hồi lời nhắc và thực hiện nhiều tác vụ khác. Google như là đang đảo ngược tiến trình hàng chục năm xuất bản mở trong nghiên cứu AI bằng việc tập trung vào quy mô đào tạo chương trình thay vì nhân rộng mô hình.

Tuy nhiên, Google vẫn đưa ra thông tin cơ bản về dữ liệu đào tạo và điểm chuẩn giúp chương trình tỏa sáng. Họ đã chọn sự cân bằng phù hợp giữa kích thước và số lượng dữ liệu đào tạo để tạo ra PaLM 2, bằng cách lựa chọn dữ liệu tỉ mỉ và kiến ​​trúc/mục tiêu hiệu quả. Các chương trình PaLM 2 vượt trội đáng kể so với PaLM trong nhiều tác vụ khác nhau, nổi bật là tạo ngôn ngữ tự nhiên, dịch thuật và suy luận.

PaLM 2 của Google là một bài học quan trọng về cách cân bằng giữa lượng dữ liệu đào tạo và quy mô chương trình để cải thiện hiệu suất của chương trình AI. Hiệu suất có thể được mở khóa bằng cách lựa chọn dữ liệu tỉ mỉ và kiến ​​trúc/mục tiêu hiệu quả, thay vì nhân rộng mô hình.

Nguồn: https://www.zdnet.com/article/google-follows-openai-in-saying-almost-nothing-about-its-new-palm-2-ai-program/#ftag=RSSbaffb68

Google

Khi các nhà khoa học trí tuệ nhân tạo của Google tiết lộ một chương trình mới quan trọng — Mô hình Ngôn ngữ Con đường (PaLM) — một năm trước, họ đã dành vài trăm từ trong một bài báo kỹ thuật mô tả các kỹ thuật AI mới quan trọng được sử dụng để đạt được kết quả của chương trình.

Cũng: Cách sử dụng ChatGPT: Mọi thứ bạn cần biết

giới thiệu các người kế nhiệm PaLM tuần trước, PaLM 2, Google hầu như không tiết lộ gì. Trong một mục bảng duy nhất được nhét vào một phụ lục ở mặt sau của “Báo cáo kỹ thuật” dài 92 trang, Các học giả của Google mô tả rất ngắn gọn rằng, lần này, họ sẽ không nói với thế giới bất cứ điều gì:

PaLM-2 là một mô hình ngôn ngữ tiên tiến nhất. Chúng tôi có các biến thể nhỏ, trung bình và lớn sử dụng các lớp xếp chồng lên nhau dựa trên kiến ​​trúc Máy biến áp, với các tham số khác nhau tùy thuộc vào kích thước mô hình. Các chi tiết khác về kích thước và kiến ​​trúc mô hình không được công bố bên ngoài.

Việc cố ý từ chối tiết lộ cái gọi là kiến ​​trúc của PaLM 2 — cách chương trình được xây dựng — không chỉ trái ngược với bài báo trước đó của PaLM mà còn là một mấu chốt khác biệt so với toàn bộ lịch sử xuất bản AI, phần lớn dựa trên mã phần mềm nguồn mở và thường bao gồm các chi tiết quan trọng về kiến ​​trúc chương trình.

Cũng: Mọi tính năng AI chính được công bố tại Google I/O 2023

Trục rõ ràng là một phản ứng đối với một trong những đối thủ cạnh tranh lớn nhất của Google, OpenAI, đã khiến cộng đồng nghiên cứu choáng váng vào tháng 4 khi từ chối tiết lộ chi tiết về “”trí tuệ nhân tạo” chương trình, GPT-4. Các học giả xuất sắc về AI đã cảnh báo sự lựa chọn đáng ngạc nhiên của OpenAI có thể có tác dụng ớn lạnh về công bố thông tin trong toàn ngành và bài báo PaLM 2 là dấu hiệu lớn đầu tiên cho thấy họ có thể đúng.

(Cũng có một bài đăng trên blog tóm tắt các yếu tố mới của PaLM 2, nhưng không có chi tiết kỹ thuật.)

PaLM 2, giống như GPT-4, là một chương trình AI tổng quát có thể tạo ra các cụm văn bản để phản hồi lời nhắc, cho phép nó thực hiện một số tác vụ như trả lời câu hỏi và viết mã phần mềm.

Giống như OpenAI, Google đang đảo ngược tiến trình hàng chục năm xuất bản mở trong nghiên cứu AI. Đó là một bài báo nghiên cứu của Google vào năm 2017, “Chú ý là tất cả những gì bạn cần,” đã tiết lộ chi tiết về một chương trình đột phá có tên là The Transformer. Chương trình đó đã nhanh chóng được phần lớn cộng đồng nghiên cứu AI và ngành công nghiệp áp dụng để phát triển các chương trình xử lý ngôn ngữ tự nhiên.

Cũng: Trình tạo nghệ thuật AI tốt nhất để thử

Trong số các nhánh đó là Trò chuyệnGPT chương trình được OpenAI công bố vào mùa thu, chương trình đã khơi dậy sự phấn khích toàn cầu đối với ChatGPT.

Không ai trong số các tác giả của bài báo gốc đó, kể cả Ashish Vaswani, được liệt kê trong số các tác giả của PaLM 2.

Theo một nghĩa nào đó, bằng cách tiết lộ trong một đoạn duy nhất rằng PaLM 2 là hậu duệ của The Transformer và từ chối tiết lộ bất kỳ điều gì khác, các nhà nghiên cứu của công ty đang làm rõ cả đóng góp của họ cho lĩnh vực này và ý định chấm dứt truyền thống chia sẻ đó. nghiên cứu đột phá.

Phần còn lại của bài báo tập trung vào thông tin cơ bản về dữ liệu đào tạo được sử dụng và điểm chuẩn giúp chương trình tỏa sáng.

vật liệu này làm cung cấp một cái nhìn sâu sắc quan trọng, chọn lọc các tài liệu nghiên cứu về AI: Có một sự cân bằng lý tưởng giữa lượng dữ liệu mà một học máy chương trình được đào tạo và quy mô của chương trình.

Cũng: Công nghệ mới này có thể thổi bay GPT-4 và mọi thứ tương tự

Các tác giả đã có thể đưa chương trình PaLM 2 vào chế độ ăn kiêng bằng cách tìm sự cân bằng phù hợp giữa kích thước của chương trình so với lượng dữ liệu đào tạo, do đó bản thân chương trình nhỏ hơn nhiều so với chương trình PaLM ban đầu, họ viết. Điều đó có vẻ quan trọng, vì xu hướng của AI gần đây đang đi theo hướng ngược lại, với quy mô ngày càng lớn hơn.

Như các tác giả viết,

Mô hình lớn nhất trong dòng PaLM 2, PaLM 2-L, nhỏ hơn đáng kể so với mô hình PaLM lớn nhất nhưng sử dụng nhiều tính toán đào tạo hơn. Kết quả đánh giá của chúng tôi cho thấy các mô hình PaLM 2 vượt trội đáng kể so với PaLM trong nhiều tác vụ khác nhau, bao gồm tạo ngôn ngữ tự nhiên, dịch thuật và suy luận. Những kết quả này cho thấy rằng nhân rộng mô hình không phải là cách duy nhất để cải thiện hiệu suất. Thay vào đó, hiệu suất có thể được mở khóa bằng cách lựa chọn dữ liệu tỉ mỉ và kiến ​​trúc/mục tiêu hiệu quả. Ngoài ra, một mô hình nhỏ hơn nhưng chất lượng cao hơn cải thiện đáng kể hiệu quả suy luận, giảm chi phí phục vụ và cho phép ứng dụng hạ nguồn của mô hình cho nhiều ứng dụng và người dùng hơn.

Các tác giả của PaLM 2 đang nói rằng có một điểm hấp dẫn giữa sự cân bằng giữa kích thước chương trình và lượng dữ liệu huấn luyện. Các chương trình PaLM 2 so với PaLM cho thấy sự cải thiện rõ rệt về độ chính xác trong các bài kiểm tra điểm chuẩn, như các tác giả phác thảo trong một bảng:

Google

Theo cách đó, họ đang xây dựng dựa trên những quan sát trong hai năm nghiên cứu thực tế về quy mô của các chương trình AI.

Ví dụ, một tác phẩm được trích dẫn rộng rãi bởi Jordan Hoffman và các đồng nghiệp vào năm ngoái tại DeepMind của Google đã đặt ra cái được gọi là quy tắc ngón tay cái Chinchilla, đây là công thức về cách cân bằng lượng dữ liệu đào tạo và kích thước của chương trình.

Cũng: AI sáng tạo mang đến những rủi ro mới cho mọi người. Đây là cách bạn có thể giữ an toàn

Các nhà khoa học PaLM 2 đưa ra những con số hơi khác so với Hoffman và nhóm, nhưng nó xác nhận những gì bài báo đã nói. Họ trình bày trực tiếp kết quả của mình với tác phẩm Chinchilla trong một bảng chia tỷ lệ duy nhất:

Google

Cái nhìn sâu sắc đó phù hợp với những nỗ lực của các công ty trẻ như Snorkel, một công ty khởi nghiệp AI ba năm tuổi có trụ sở tại San Francisco, vào tháng 11 công cụ ra mắt để gán nhãn cho dữ liệu huấn luyện. Tiền đề của Snorkel là việc quản lý dữ liệu tốt hơn có thể giảm bớt một số thao tác tính toán cần thực hiện.

Sự tập trung vào một điểm ngọt ngào này hơi khác so với PaLM ban đầu. Với mô hình đó, Google nhấn mạnh quy mô đào tạo chương trình, lưu ý rằng đây là “cấu hình hệ thống dựa trên TPU lớn nhất được sử dụng để đào tạo cho đến nay”, đề cập đến chip máy tính TPU của Google.

Cũng: 4 ứng dụng phổ biến này của Microsoft đang nhận được sự thúc đẩy lớn về AI

Không có sự khoe khoang như vậy được thực hiện trong khoảng thời gian này. Như những gì được tiết lộ trong tác phẩm PaLM 2 mới, bạn có thể nói rằng nó xác nhận xu hướng thay đổi kích thước vì lợi ích của kích thước và hướng tới cách xử lý chu đáo hơn về quy mô và khả năng.


Exit mobile version