Stability AI bước vào một chiều không gian AI mới với Stable Video 4D

Stability AI bước vào một chiều AI mới với Stable Video 4D! Stability AI mở rộng danh mục ngày càng phong phú của các mô hình AI tạo ra, thêm một chiều mới với sự ra mắt của Stable Video 4D. Trong khi có một tập hợp ngày càng tăng về các công cụ gen AI cho việc tạo video, bao gồm Sora của OpenAI, Runway, Haiper và Luma AI, Stable Video 4D là một cái gì đó hơi khác biệt. Stable Video 4D xây dựng trên nền tảng của mô hình Stable Video Diffusion hiện có của Stability AI, chuyển đổi hình ảnh thành video. Mô hình mới này đi xa hơn bằng việc chấp nhận đầu vào video và tạo ra nhiều video từ 8 góc nhìn mới khác nhau. “#StabilityAI #StableVideo4D #GenAI” “Chúng tôi nhìn thấy rằng Stable Video 4D có thể được sử dụng trong sản xuất phim, game, AR/VR và các trường hợp sử dụng khác nơi có nhu cầu nhìn vào các đối tượng 3D động từ các góc nhìn camera bất kỳ,” Varun Jampani, trưởng nhóm Nghiên cứu 3D tại Stability AI nói với VentureBeat. Stable Video 4D khác biệt so với chỉ là 3D cho gen AI. Đây không phải là lần đầu tiên Stability AI đi xa hơn khỏi thế giới phẳng của không gian 2D. “#AI #VideoGeneration #MovieProduction” Trong tháng 3, Stable Video 3D đã được công bố, cho phép người dùng tạo video 3D ngắn từ một hình ảnh hoặc đề xuất văn bản. Stable Video 4D đang đi xa hơn rất nhiều. Trong khi khái niệm về 3 chiều, đó là 3 chiều, thường được hiểu là một loại hình ảnh hoặc video với độ sâu, 4D có thể không được hiểu rộng rãi như vậy. “#Innovation #StableVideoDiffusion #NovelViewSynthesis” Jampani giải thích rằng bốn chiều bao gồm chiều rộng (x), chiều cao (y), chiều sâu (z) và thời gian. “Các khía cạnh chính đã cho phép Stable Video 4D là chúng tôi kết hợp các điểm mạnh của các mô hình Stable Video Diffusion và Stable Video 3D đã phát hành trước đó, và điều chỉnh tinh xảo nó với tập dữ liệu đối tượng 3D động được tổ chức cẩn thận,” Jampani giải thích. “#HuggingFace #Dynamic3DObjectDataset #StableVideoGeneration” Jampani lưu ý rằng Stable Video 4D là một mạng lưới đầu tiên của loại nó, nơi một mạng duy nhất thực hiện cả tổ hợp tổng hợp góc nhìn độc đáo và tạo video. Công trình hiện có tận dụng mạng lưới tạo ra video và tổng hợp góc nhìn độc đáo riêng biệt cho nhiệm vụ này. “#VideoSynthesis #Innovation #FutureTechnology” Stable Video 4D hiện đã sẵn sàng cho đánh giá nghiên cứu trên Hugging Face. Stability AI chưa công bố những tùy chọn thương mại sẽ có sẵn cho nó trong tương lai. “#ResearchEvaluation #FutureDevelopments #StabilityAI” “Stable Video 4D hiện có thể xử lý video đơn vật thể của vài giây với nền đơn giản,” Jampani nói. “Chúng tôi dự định tổng quát hóa nó thành video dài hơn và cũng phức tạp hơn.” “#TechNews #AIInnovation #FutureOfTechnology” Nguồn: https://venturebeat.com/ai/stability-ai-steps-into-a-new-gen-ai-dimension-with-stable-video-4d/

Join our daily and weekly newsletters for the latest updates and exclusive content on industry-leading AI coverage. Learn More


Stability AI is expanding its growing roster of generative AI models, quite literally adding a new dimension with the debut of Stable Video 4D.

While there is a growing set of gen AI tools for video generation, including OpenAI’s Sora, Runway, Haiper and Luma AI among others, Stable Video 4D is something a bit different. Stable Video 4D builds on the foundation of Stability AI’s existing Stable Video Diffusion model, which converts images into videos. The new model takes this concept further by accepting video input and generating multiple novel-view videos from 8 different perspectives. 

“We see Stable Video 4D being used in movie production, gaming, AR/VR, and other use cases where there is a need to view dynamically moving 3D objects from arbitrary camera angles,”  Varun Jampani, team lead, 3D Research at Stability AI told VentureBeat.

Stable Video 4D is different than just 3D for gen AI 

This isn’t Stability AI’s first foray beyond the flat world of 2D space.

In March, Stable Video 3D was announced, enabling users to generate short 3D video from an image or text prompt. Stable Video 4D is going a significant step further. While the concept of 3D, that is 3 dimensions, is commonly understood as a type of image or video with depth, 4D isn’t perhaps as universally understood.

Jampani explained that the four dimensions include width (x), height (y),  depth (z) and time

“The key aspects that enabled Stable Video 4D are that we combined the strengths of our previously-released Stable Video Diffusion and Stable Video 3D models, and fine-tuned it with a carefully curated dynamic 3D object dataset,” Jampani explained.

Jampani noted that Stable Video 4D is a first-of-its-kind network where a single network does both novel view synthesis and video generation. Existing works leverage separate video generation and novel view synthesis networks for this task.

He also explained that Stable Video 4D is different from Stable Video Diffusion and Stable Video 3D, in terms of how the attention mechanisms work.

“We carefully design attention mechanisms in the diffusion network which allow generation of each video frame to attend to its neighbors at different camera views or timestamps, thus resulting in better 3D coherence and temporal smoothness in the output videos,” Jampani said.

How Stable Video 4D works differently than gen AI infill

With gen AI tools for 2D image generation the concept of infill and outfill, to fill in gaps, is well established. The infill/outfill approach however is not how Stable Video 4D works.

Jampani explained that the approach is different from generative infill/outfill, where the networks typically complete the partially given information. That is, the output is already partially filled by the explicit transfer of information from the input image. 

“Stable Video 4D completely synthesizes the 8 novel view videos from scratch by using the original input video as guidance,” he said. “There is no explicit transfer of pixel information from input to output, all of this information transfer is done implicitly by the network.”

Stable Video 4D is currently available for research evaluation on Hugging Face. Stability AI has not yet announced what commercial options will be available for it in the future. 

“Stable Video 4D can already process single-object videos of several seconds with a plain background,” Jampani said. “We plan to generalize it to longer videos and also to more complex scenes.”

Leave a Reply

Your email address will not be published. Required fields are marked *