Các mô hình thế giới, còn được gọi là mô phỏng thế giới, đang được một số người coi là điều quan trọng tiếp theo trong lĩnh vực AI. Fei-Fei Li, người tiên phong về AI, đã huy động được 230 triệu USD để xây dựng “các mô hình thế giới rộng lớn”, trong khi DeepMind đã thuê một trong những người tạo ra trình tạo video của OpenAI, Sora, để làm việc trên “trình mô phỏng thế giới”.
Các mô hình thế giới lấy cảm hứng từ việc con người phát triển mô hình tinh thần để hiểu thế giới xung quanh. Những dự đoán mà bộ não của chúng ta đưa ra dựa trên những mô hình này ảnh hưởng đến cách chúng ta nhìn nhận thế giới.
Mô hình hóa thế giới đã trở nên phổ biến trong lĩnh vực video tổng hợp. Việc tạo ra mô hình thế giới mạnh mẽ có thể giúp AI dự báo và lập kế hoạch phức tạp trong cả lĩnh vực vật lý và kỹ thuật số. Tuy nhiên, việc đào tạo và chạy các mô hình thế giới đòi hỏi sức mạnh tính toán lớn và đối mặt với nhiều thách thức kỹ thuật.
Nếu các rào cản được vượt qua, các mô hình thế giới có thể kết nối AI với thế giới thực một cách mạnh mẽ, đem lại những đột phá không chỉ trong thế giới ảo mà còn trong lĩnh vực robot và ra quyết định về AI. Hãy theo dõi sự kiện #CácMôHìnhThếGiới để cập nhật thông tin về xu hướng AI và mô hình hóa thế giới ngày hôm nay!
Nguồn: https://techcrunch.com/2024/12/14/what-are-ai-world-models-and-why-do-they-matter/
Các mô hình thế giới, còn được gọi là mô phỏng thế giới, đang được một số người coi là điều quan trọng tiếp theo trong AI.
Người tiên phong về AI Fei-Fei Li Phòng thí nghiệm thế giới đã huy động được 230 triệu USD để xây dựng “các mô hình thế giới rộng lớn” và DeepMind được thuê một trong những người tạo ra trình tạo video của OpenAI, Sorađể làm việc trên “trình mô phỏng thế giới”. (Sora đã được phát hành vào thứ Hai; đây là một số ấn tượng ban đầu.)
Nhưng cái quái gì vậy là những thứ này?
Các mô hình thế giới lấy cảm hứng từ các mô hình tinh thần của thế giới mà con người phát triển một cách tự nhiên. Bộ não của chúng ta lấy những biểu tượng trừu tượng từ các giác quan của chúng ta và hình thành chúng để hiểu cụ thể hơn về thế giới xung quanh, tạo ra cái mà chúng ta gọi là “mô hình” từ rất lâu trước khi AI áp dụng cụm từ này. Những dự đoán mà bộ não của chúng ta đưa ra dựa trên những mô hình này sẽ ảnh hưởng đến cách chúng ta nhìn nhận thế giới.
MỘT giấy của các nhà nghiên cứu AI David Ha và Jürgen Schmidhuber đưa ra ví dụ về một người đánh bóng chày. Người đánh bóng có một phần nghìn giây để quyết định cách vung gậy của mình – ngắn hơn thời gian để tín hiệu hình ảnh đến não. Ha và Schmidhuber cho biết lý do họ có thể đánh một quả bóng nhanh với tốc độ 100 dặm/giờ là vì họ có thể dự đoán theo bản năng quả bóng sẽ đi đến đâu.
Bộ đôi nghiên cứu viết: “Đối với những người chơi chuyên nghiệp, tất cả điều này xảy ra trong tiềm thức. “Các cơ của họ theo phản xạ vung gậy vào đúng thời điểm và vị trí phù hợp với dự đoán của mô hình bên trong của họ. Họ có thể nhanh chóng hành động theo dự đoán của mình về tương lai mà không cần phải đưa ra một cách có ý thức các tình huống có thể xảy ra trong tương lai để hình thành kế hoạch.”
Chính những khía cạnh lý luận tiềm thức này của các mô hình thế giới mà một số người tin là điều kiện tiên quyết cho trí thông minh ở cấp độ con người.
Mô hình hóa thế giới
Mặc dù khái niệm này đã tồn tại trong nhiều thập kỷ nhưng các mô hình thế giới gần đây đã trở nên phổ biến một phần nhờ những ứng dụng đầy hứa hẹn của chúng trong lĩnh vực video tổng hợp.
Hầu hết, nếu không phải tất cả, các video do AI tạo ra đều hướng đến lãnh thổ thung lũng kỳ lạ. Xem chúng đủ lâu và một cái gì đó kỳ quái sẽ xảy ra, giống như các chi xoắn lại và hòa vào nhau.
Mặc dù một mô hình tổng hợp được đào tạo qua nhiều năm video có thể dự đoán chính xác rằng một quả bóng rổ nảy lên, nhưng nó thực sự không biết tại sao – giống như các mô hình ngôn ngữ không thực sự hiểu các khái niệm đằng sau các từ và cụm từ. Nhưng một mô hình thế giới thậm chí có hiểu biết cơ bản về lý do tại sao quả bóng rổ nảy lên như vậy sẽ tốt hơn khi chứng minh nó làm được điều đó.
Để có được loại hiểu biết sâu sắc này, các mô hình thế giới được đào tạo về nhiều loại dữ liệu, bao gồm ảnh, âm thanh, video và văn bản, với mục đích tạo ra các mô tả nội bộ về cách thế giới hoạt động và khả năng suy luận về hậu quả của các hành động. .
“Người xem mong đợi rằng thế giới mà họ đang xem hành xử giống với thực tế của họ,” Alex Mashrabov, cựu giám đốc AI phụ trách AI của Snap và Giám đốc điều hành của Higgsfieldcông ty đang xây dựng các mô hình tổng quát cho video, cho biết. “Nếu một chiếc lông vũ rơi xuống với sức nặng của một cái đe hoặc một quả bóng bowling bay lên cao hàng trăm mét trong không trung, điều đó sẽ gây chói tai và khiến người xem mất tập trung vào khoảnh khắc đó. Với một mô hình thế giới mạnh mẽ, thay vì người sáng tạo xác định cách từng đối tượng sẽ di chuyển – điều này tẻ nhạt, cồng kềnh và sử dụng thời gian kém – thì mô hình sẽ hiểu được điều này.”
Nhưng việc tạo video tốt hơn chỉ là phần nổi của tảng băng chìm đối với người mẫu thế giới. Các nhà nghiên cứu, bao gồm cả nhà khoa học AI trưởng của Meta, Yann LeCun, cho biết một ngày nào đó các mô hình này có thể được sử dụng để dự báo và lập kế hoạch phức tạp trong cả lĩnh vực vật lý và kỹ thuật số.
trong một nói chuyện đầu năm nay, LeCun đã mô tả cách một mô hình thế giới có thể giúp đạt được mục tiêu mong muốn thông qua lý luận. Một mô hình với sự thể hiện cơ bản của một “thế giới” (ví dụ: video về một căn phòng bẩn), được đưa ra một mục tiêu (phòng sạch), có thể đưa ra một chuỗi các hành động để đạt được mục tiêu đó (triển khai máy hút bụi để quét, làm sạch phòng). bát đĩa, đổ rác) không phải vì đó là mô hình mà nó đã quan sát mà vì nó biết ở mức độ sâu hơn cách chuyển từ bẩn sang sạch.
“Chúng ta cần những cỗ máy hiểu được thế giới; (máy móc) có thể ghi nhớ mọi thứ, có trực giác, có ý thức chung – những thứ có thể suy luận và lập kế hoạch ở cấp độ tương tự như con người,” LeCun nói. “Bất chấp những gì bạn có thể đã nghe từ một số người nhiệt tình nhất, các hệ thống AI hiện tại không có khả năng làm được điều này.”
Trong khi LeCun ước tính rằng chúng ta còn cách xa các mô hình thế giới mà ông hình dung ít nhất một thập kỷ, thì các mô hình thế giới ngày nay đang tỏ ra đầy hứa hẹn dưới dạng mô phỏng vật lý cơ bản.
OpenAI lưu ý trong một blog rằng Sora, người được coi là người mẫu thế giới, có thể mô phỏng các hành động giống như một họa sĩ để lại nét vẽ trên canvas. Những người mẫu như Sora — và Sora chính nó — cũng có thể hiệu quả mô phỏng băng hình trò chơi. Ví dụ: Sora có thể hiển thị giao diện người dùng và thế giới trò chơi giống Minecraft.
Justin Johnson, người đồng sáng lập World Labs, cho biết các mô hình thế giới trong tương lai có thể tạo ra thế giới 3D theo yêu cầu để chơi game, chụp ảnh ảo và hơn thế nữa. tập phim của podcast a16z.
Johnson cho biết: “Chúng tôi đã có khả năng tạo ra thế giới ảo, tương tác, nhưng nó tiêu tốn hàng trăm triệu đô la và rất nhiều thời gian phát triển. “(Các mô hình thế giới) sẽ cho phép bạn không chỉ lấy ra một hình ảnh hoặc một đoạn clip mà còn cả một thế giới 3D được mô phỏng đầy đủ, sống động và tương tác.”
Rào cản cao
Mặc dù ý tưởng này rất hấp dẫn nhưng vẫn có nhiều thách thức kỹ thuật cản trở.
Việc đào tạo và chạy các mô hình thế giới đòi hỏi sức mạnh tính toán rất lớn, thậm chí so với lượng mà các mô hình thế hệ hiện đang sử dụng. Trong khi một số mô hình ngôn ngữ mới nhất có thể chạy trên điện thoại thông minh hiện đại, Sora (được cho là mô hình thế giới sơ khai) sẽ yêu cầu hàng nghìn GPU để huấn luyện và chạy, đặc biệt nếu việc sử dụng chúng trở nên phổ biến.
Các mô hình thế giới, giống như tất cả các mô hình AI, cũng ảo giác – và nội hóa những thành kiến trong dữ liệu đào tạo của họ. Ví dụ: một người mẫu thế giới được đào tạo chủ yếu dựa trên các video về thời tiết nắng ở các thành phố châu Âu có thể gặp khó khăn trong việc hiểu hoặc mô tả các thành phố của Hàn Quốc trong điều kiện có tuyết, hoặc đơn giản là làm sai.
Mashrabov cho biết, việc thiếu dữ liệu đào tạo nói chung có nguy cơ làm trầm trọng thêm những vấn đề này.
Ông nói: “Chúng tôi đã thấy các mô hình thực sự bị hạn chế với các thế hệ người thuộc một loại hoặc chủng tộc nhất định. “Dữ liệu đào tạo cho mô hình thế giới phải đủ rộng để bao gồm nhiều tình huống khác nhau, nhưng cũng phải có tính cụ thể cao để AI có thể hiểu sâu sắc sắc thái của những tình huống đó”.
Trong một thời gian gần đây bưu kiệnGiám đốc điều hành của công ty khởi nghiệp AI Runway, Cristóbal Valenzuela, nói rằng các vấn đề về dữ liệu và kỹ thuật đã ngăn cản các mô hình ngày nay nắm bắt chính xác hành vi của cư dân trên thế giới (ví dụ: con người và động vật). Ông nói: “Các mô hình sẽ cần tạo ra các bản đồ nhất quán về môi trường, cũng như khả năng điều hướng và tương tác trong các môi trường đó”.
Tuy nhiên, nếu tất cả những trở ngại lớn được vượt qua, Mashrabov tin rằng các mô hình thế giới có thể kết nối AI với thế giới thực một cách “mạnh mẽ hơn” – dẫn đến những đột phá không chỉ trong thế hệ thế giới ảo mà còn cả robot và ra quyết định về AI.
Họ cũng có thể tạo ra những robot có khả năng hơn.
Robot ngày nay bị hạn chế về những gì chúng có thể làm vì chúng không có nhận thức về thế giới xung quanh (hoặc cơ thể của chính chúng). Mashrabov nói rằng các mô hình thế giới có thể mang lại cho họ nhận thức đó – ít nhất là ở một mức độ nào đó.
Ông nói: “Với một mô hình thế giới tiên tiến, AI có thể phát triển sự hiểu biết cá nhân về bất kỳ tình huống nào mà nó được đặt vào và bắt đầu suy luận ra các giải pháp khả thi”.
TechCrunch có bản tin tập trung vào AI! Đăng ký tại đây để nhận nó vào hộp thư đến của bạn vào thứ Tư hàng tuần.