Luật mở rộng quy mô AI đang trở thành một vấn đề đáng quan ngại khi lợi nhuận của các phòng thí nghiệm AI giảm dần. Các CEO và nhà đầu tư đang thấy rằng cần thay đổi hướng đi để duy trì tiến bộ trong ngành.
#AI #LuậtMởRộngQuyMô #PhòngThíNghiệmAI #CảiTiếnMôHìnhAI #TínhToánTrongThờiGianThửNghiệm #ThếGiớiAI #CôngNghệAI
Các phòng thí nghiệm AI trên con đường hướng tới các hệ thống siêu thông minh đang nhận ra rằng họ có thể phải đi đường vòng.
Theo một số nhà đầu tư, người sáng lập và CEO AI đã nói chuyện với TechCrunch, “luật mở rộng quy mô AI”, các phương pháp và kỳ vọng mà các phòng thí nghiệm đã sử dụng để tăng cường khả năng của các mô hình của họ trong 5 năm qua, hiện đang có dấu hiệu giảm dần lợi nhuận. Tình cảm của họ vang vọng gần đây báo cáo điều đó cho thấy các mô hình bên trong các phòng thí nghiệm AI hàng đầu đang cải thiện chậm hơn so với trước đây.
Bây giờ mọi người dường như đang thừa nhận rằng bạn không thể chỉ sử dụng nhiều tính toán hơn và nhiều dữ liệu hơn trong khi đào tạo trước các mô hình ngôn ngữ lớn và mong đợi chúng biến thành một vị thần kỹ thuật số hiểu biết toàn diện nào đó. Có lẽ điều đó nghe có vẻ hiển nhiên, nhưng những luật mở rộng quy mô này là yếu tố then chốt trong việc phát triển ChatGPT, làm cho nó trở nên tốt hơn và có khả năng ảnh hưởng đến nhiều CEO để đưa ra quyết định. những dự đoán táo bạo về AGI sẽ xuất hiện chỉ sau vài năm nữa.
Người đồng sáng lập OpenAI và Safe Super Intelligence Ilya Sutskever nói với Reuters vào tuần trước rằng “mọi người đang tìm kiếm điều tiếp theo” để mở rộng quy mô mô hình AI của họ. Đầu tháng này, Marc Andreessen, người đồng sáng lập a16z, cho biết trong một podcast rằng các mô hình AI hiện đang hội tụ tại cùng mức trần về năng lực.
Nhưng giờ đây, gần như ngay lập tức sau khi những xu hướng đáng lo ngại này bắt đầu xuất hiện, các CEO, nhà nghiên cứu và nhà đầu tư AI đã tuyên bố rằng chúng ta đang ở trong một kỷ nguyên mới của luật mở rộng quy mô. “Tính toán thời gian thử nghiệm”, giúp các mô hình AI có nhiều thời gian hơn và tính toán để “suy nghĩ” trước khi trả lời một câu hỏi, là một ứng cử viên đặc biệt hứa hẹn sẽ trở thành điều quan trọng tiếp theo.
Giám đốc điều hành Microsoft Satya Nadella cho biết: “Chúng tôi đang chứng kiến sự xuất hiện của một luật mở rộng quy mô mới”. trên sân khấu tại Microsoft Ignite vào thứ Ba, đề cập đến nền tảng nghiên cứu điện toán trong thời gian thử nghiệm Mô hình o1 của OpenAI.
Anh ấy không phải là người duy nhất coi o1 là tương lai.
Anjney Midha, đối tác của Andreessen Horowitz, người cũng là thành viên hội đồng quản trị của Mistral và là nhà đầu tư thiên thần của Anthropic, cho biết trong một cuộc phỏng vấn gần đây với TechCrunch: “Chúng ta hiện đang ở kỷ nguyên thứ hai của luật mở rộng quy mô, đó là quy mô theo thời gian thử nghiệm”. .
Nếu sự thành công ngoài mong đợi – và bây giờ là sự chậm lại đột ngột – của các quy luật mở rộng AI trước đây cho chúng ta biết điều gì, thì rất khó để dự đoán cách thức và thời điểm các mô hình AI sẽ cải thiện.
Bất chấp điều đó, dường như có một sự thay đổi mô hình đang diễn ra: cách các phòng thí nghiệm AI cố gắng cải tiến mô hình của họ trong 5 năm tới có thể sẽ không giống với 5 năm trước.
Luật mở rộng quy mô AI là gì?
Những cải tiến nhanh chóng về mô hình AI mà OpenAI, Google, Meta và Anthropic đã đạt được kể từ năm 2020 phần lớn có thể là nhờ một hiểu biết sâu sắc: sử dụng nhiều tính toán hơn và nhiều dữ liệu hơn trong giai đoạn đào tạo trước của mô hình AI.
Khi các nhà nghiên cứu cung cấp cho hệ thống máy học nguồn tài nguyên dồi dào trong giai đoạn này – trong đó AI xác định và lưu trữ các mẫu trong bộ dữ liệu lớn – các mô hình có xu hướng hoạt động tốt hơn trong việc dự đoán từ hoặc cụm từ tiếp theo.
Thế hệ luật mở rộng AI đầu tiên này đã mở rộng phạm vi những gì máy tính có thể làm, khi các kỹ sư tăng số lượng GPU được sử dụng và lượng dữ liệu mà chúng được cung cấp. Ngay cả khi phương pháp cụ thể này đã chạy xong thì nó cũng đã vẽ lại bản đồ. Mọi công ty Big Tech về cơ bản đều tập trung vào AI, trong khi Nvidia, nơi cung cấp GPU cho tất cả các công ty này đào tạo mô hình của họ, hiện là công ty hàng đầu. công ty giao dịch công khai có giá trị nhất trên thế giới.
Nhưng những khoản đầu tư này cũng được thực hiện với kỳ vọng rằng việc mở rộng quy mô sẽ tiếp tục như mong đợi.
Điều quan trọng cần lưu ý là quy luật chia tỷ lệ không phải là quy luật tự nhiên, vật lý, toán học hay chính phủ. Họ không được đảm bảo bởi bất cứ điều gì hoặc bất cứ ai để tiếp tục với tốc độ như cũ. Ngay cả Định luật Moore, một định luật tỷ lệ nổi tiếng khác, cuối cùng cũng bị loại bỏ – mặc dù chắc chắn nó đã tồn tại lâu hơn.
Đồng sáng lập Anyscale và cựu Giám đốc điều hành Robert Nishihara cho biết trong một cuộc phỏng vấn với TechCrunch: “Nếu bạn chỉ đưa vào nhiều máy tính hơn, bạn đưa vào nhiều dữ liệu hơn, bạn làm cho mô hình lớn hơn – lợi nhuận sẽ giảm dần”. “Để duy trì quy luật mở rộng, để duy trì tốc độ tiến bộ ngày càng tăng, chúng tôi cũng cần những ý tưởng mới.”
Nishihara khá quen thuộc với luật mở rộng quy mô AI. Anyscale đạt mức định giá hàng tỷ đô la nhờ phát triển phần mềm giúp OpenAI và các nhà phát triển mô hình AI khác mở rộng khối lượng công việc đào tạo AI của họ lên hàng chục nghìn GPU. Anyscale là một trong những người được hưởng lợi lớn nhất từ việc đào tạo trước các luật mở rộng quy mô xung quanh máy tính, nhưng ngay cả người đồng sáng lập của nó cũng nhận ra rằng thời thế đang thay đổi.
Nishihara cho biết: “Khi bạn đã đọc một triệu bài đánh giá trên Yelp, có thể các bài đánh giá tiếp theo trên Yelp sẽ không mang lại cho bạn nhiều thông tin như vậy,” Nishihara nói khi đề cập đến những hạn chế của việc chia tỷ lệ dữ liệu. “Nhưng đó là việc huấn luyện trước. Tôi có thể nói rằng phương pháp luận về đào tạo sau còn khá non nớt và còn rất nhiều chỗ cần cải thiện.”
Nói rõ hơn, các nhà phát triển mô hình AI có thể sẽ tiếp tục theo đuổi cụm tính toán lớn hơn và bộ dữ liệu lớn hơn để huấn luyện trước và có thể sẽ có nhiều cải tiến hơn để thực hiện các phương pháp đó. Elon Musk gần đây đã hoàn thành việc xây dựng một siêu máy tính với 100.000 GPU, được mệnh danh là Colossus, để đào tạo các mô hình tiếp theo của xAI. Sẽ có nhiều cụm hơn và lớn hơn sắp tới.
Nhưng các xu hướng cho thấy không thể tăng trưởng theo cấp số nhân chỉ bằng cách sử dụng nhiều GPU hơn với các chiến lược hiện có, vì vậy các phương pháp mới đột nhiên được chú ý nhiều hơn.
Tính toán thời gian thử nghiệm: đặt cược lớn tiếp theo của ngành AI
Khi OpenAI phát hành bản xem trước của mô hình o1, công ty khởi nghiệp này đã thông báo rằng nó là một phần của một loạt mẫu mới tách biệt khỏi GPT.
OpenAI đã cải thiện các mô hình GPT của mình phần lớn thông qua các luật mở rộng truyền thống: nhiều dữ liệu hơn, nhiều sức mạnh hơn trong quá trình đào tạo trước. Nhưng hiện nay phương pháp đó được cho là không mang lại nhiều lợi ích cho họ. Khung mô hình o1 dựa trên một khái niệm mới, tính toán trong thời gian thử nghiệm, được gọi như vậy vì tài nguyên máy tính được sử dụng sau lời nhắc chứ không phải trước đó. Kỹ thuật này chưa được khám phá nhiều trong bối cảnh mạng lưới thần kinh, nhưng đã cho thấy nhiều hứa hẹn.
Một số người đã coi tính toán thời gian thử nghiệm là phương pháp tiếp theo để mở rộng quy mô hệ thống AI.
Midha của a16z cho biết: “Một số thử nghiệm đang chỉ ra rằng mặc dù các quy luật chia tỷ lệ đào tạo trước có thể chậm lại, nhưng quy luật chia tỷ lệ trong thời gian thử nghiệm – nơi bạn cung cấp cho mô hình tính toán nhiều hơn khi suy luận – có thể giúp tăng hiệu suất”.
Nhà nghiên cứu AI nổi tiếng Yoshua Benjio cho biết: “Chuỗi ‘o’ mới của OpenAI đẩy (chuỗi suy nghĩ) đi xa hơn và đòi hỏi nhiều tài nguyên máy tính hơn và do đó cần nhiều năng lượng hơn để làm được điều đó”. bài viết vào thứ ba. “Do đó, chúng tôi thấy một hình thức mở rộng quy mô tính toán mới xuất hiện. Không chỉ có nhiều dữ liệu huấn luyện hơn và các mô hình lớn hơn mà còn dành nhiều thời gian hơn để ‘suy nghĩ’ về câu trả lời.”
Trong khoảng thời gian từ 10 đến 30 giây, mô hình o1 của OpenAI sẽ tự nhắc lại nhiều lần, chia một vấn đề lớn thành một loạt vấn đề nhỏ hơn. Mặc dù ChatGPT nói rằng đó là “suy nghĩ”, nhưng nó không làm những gì con người làm – mặc dù các phương pháp giải quyết vấn đề nội bộ của chúng tôi, được hưởng lợi từ việc trình bày lại rõ ràng vấn đề và các giải pháp từng bước, là nguồn cảm hứng chính cho phương pháp này.
Khoảng một thập kỷ trước, Noam Brown, người hiện đang lãnh đạo công việc của OpenAI trên o1, đã cố gắng xây dựng các hệ thống AI có thể đánh bại con người khi chơi bài poker. Trong một cuộc nói chuyện gần đâyBrown cho biết vào thời điểm đó, ông nhận thấy những người chơi poker là con người dành thời gian để xem xét các tình huống khác nhau trước khi chơi một ván bài. Năm 2017, ông đã giới thiệu một phương pháp để người mẫu “suy nghĩ” trong 30 giây trước khi chơi. Vào thời điểm đó, AI đang chơi các trò chơi phụ khác nhau, tìm hiểu xem các kịch bản khác nhau sẽ diễn ra như thế nào để xác định nước đi tốt nhất.
Cuối cùng, AI đã hoạt động tốt hơn bảy lần so với những nỗ lực trước đây của anh ấy.
Đúng là nghiên cứu của Brown vào năm 2017 không sử dụng mạng thần kinh, vốn không phổ biến vào thời điểm đó. Tuy nhiên, các nhà nghiên cứu của MIT đã công bố một bài báo vào tuần trước cho thấy rằng tính toán trong thời gian thử nghiệm cải thiện đáng kể hiệu suất của mô hình AI về nhiệm vụ suy luận.
Hiện chưa rõ quy mô tính toán trong thời gian thử nghiệm sẽ như thế nào. Điều đó có thể có nghĩa là hệ thống AI cần rất nhiều thời gian để suy nghĩ về những câu hỏi khó; có thể hàng giờ hoặc thậm chí vài ngày. Một cách tiếp cận khác có thể là để một mô hình AI “suy nghĩ” thông qua các câu hỏi trên nhiều con chip cùng một lúc.
Nếu tính toán trong thời gian thử nghiệm trở thành nơi tiếp theo để mở rộng quy mô hệ thống AI, Midha cho biết nhu cầu về chip AI chuyên về suy luận tốc độ cao có thể tăng lên đáng kể. Đây có thể là tin vui cho các công ty khởi nghiệp như Groq hay Cerebras, chuyên về chip suy luận AI nhanh. Nếu việc tìm ra câu trả lời cũng nặng về tính toán như đào tạo mô hình, thì các nhà cung cấp “chọn và xẻng” trong AI lại giành chiến thắng.
Thế giới AI vẫn chưa hoảng loạn
Hầu hết thế giới AI dường như không hề mất bình tĩnh trước việc các quy luật chia tỷ lệ cũ này đang chậm lại. Ngay cả khi tính toán trong thời gian thử nghiệm không chứng tỏ là làn sóng mở rộng quy mô tiếp theo, một số người cho rằng chúng tôi chỉ mới xử lý sơ bộ các ứng dụng cho các mô hình AI hiện tại.
Các sản phẩm phổ biến mới có thể giúp các nhà phát triển mô hình AI có thêm thời gian để tìm ra những cách mới nhằm cải thiện các mô hình cơ bản.
“Tôi hoàn toàn bị thuyết phục rằng chúng ta sẽ thấy hiệu suất mô hình tăng ít nhất 10 đến 20 lần chỉ thông qua công việc thuần túy ở cấp ứng dụng, chỉ cho phép các mô hình tỏa sáng thông qua lời nhắc thông minh, quyết định UX và chuyển ngữ cảnh vào đúng thời điểm. các người mẫu,” Midha nói.
Ví dụ: Chế độ giọng nói nâng cao của ChatGPT là một trong những ứng dụng ấn tượng hơn so với các mô hình AI hiện tại. Tuy nhiên, đó phần lớn là sự đổi mới trong trải nghiệm người dùng, không nhất thiết là công nghệ cơ bản. Bạn có thể thấy những cải tiến tiếp theo về UX, chẳng hạn như cấp cho tính năng đó quyền truy cập vào web hoặc ứng dụng trên điện thoại của bạn, sẽ giúp sản phẩm trở nên tốt hơn nhiều như thế nào.
Kian Katanforoosh, Giám đốc điều hành của công ty khởi nghiệp AI Workera và là giảng viên phụ trợ của Stanford về học sâu, nói với TechCrunch rằng các công ty xây dựng ứng dụng AI, như của ông, không nhất thiết cần các mô hình thông minh hơn theo cấp số nhân để tạo ra các sản phẩm tốt hơn. Ông cũng cho biết các sản phẩm xung quanh các mẫu hiện tại còn rất nhiều cơ hội để cải thiện.
Katanforoosh cho biết: “Giả sử bạn xây dựng các ứng dụng AI và AI của bạn bị ảo giác về một nhiệm vụ cụ thể. “Có hai cách để bạn có thể tránh điều đó. LLM phải trở nên tốt hơn và nó sẽ ngừng gây ảo giác, hoặc công cụ xung quanh nó phải trở nên tốt hơn và bạn sẽ có cơ hội khắc phục vấn đề.”
Bất kể lĩnh vực nghiên cứu AI là gì, người dùng có thể sẽ không cảm nhận được tác động của những thay đổi này trong một thời gian. Điều đó có nghĩa là, các phòng thí nghiệm AI sẽ làm bất cứ điều gì cần thiết để tiếp tục vận chuyển các mô hình lớn hơn, thông minh hơn và nhanh hơn với tốc độ chóng mặt như cũ. Điều đó có nghĩa là một số công ty công nghệ hàng đầu hiện có thể xoay quanh cách họ vượt qua ranh giới của AI.