Tham gia các bản tin hàng ngày và hàng tuần của chúng tôi để có những cập nhật mới nhất và nội dung độc quyền về phạm vi phủ sóng AI hàng đầu trong ngành. Tìm hiểu thêm
Ôm Mặt vừa ra mắt SmolVLMmột mô hình AI ngôn ngữ tầm nhìn nhỏ gọn có thể thay đổi cách các doanh nghiệp sử dụng trí tuệ nhân tạo trong các hoạt động của họ. Mô hình mới xử lý cả hình ảnh và văn bản với hiệu quả vượt trội trong khi chỉ yêu cầu một phần sức mạnh tính toán mà các đối thủ cạnh tranh cần.
Thời điểm không thể tốt hơn. Khi các công ty đấu tranh với chi phí tăng vọt Trong việc triển khai các mô hình ngôn ngữ lớn và nhu cầu tính toán của hệ thống AI thị giác, SmolVLM cung cấp một giải pháp thực dụng mà không hy sinh hiệu năng để đổi lấy khả năng tiếp cận.
Mô hình nhỏ, tác động lớn: SmolVLM thay đổi cuộc chơi như thế nào
Nhóm nghiên cứu tại Hugging Face giải thích: “SmolVLM là một mô hình đa phương thức mở nhỏ gọn, chấp nhận các chuỗi đầu vào hình ảnh và văn bản tùy ý để tạo ra đầu ra văn bản”. thẻ mô hình.
Điều làm cho điều này trở nên quan trọng là hiệu quả chưa từng có của model: nó chỉ yêu cầu RAM GPU 5,02 GB, trong khi các model cạnh tranh như Qwen-VL 2B Và Thực tập sinhVL2 2B nhu cầu lần lượt là 13,70 GB và 10,52 GB.
Hiệu quả này thể hiện sự thay đổi cơ bản trong phát triển AI. Thay vì đi theo cách tiếp cận càng lớn càng tốt của ngành, Hugging Face đã chứng minh rằng thiết kế kiến trúc cẩn thận và kỹ thuật nén cải tiến có thể mang lại hiệu suất cấp doanh nghiệp trong một gói gọn nhẹ. Điều này có thể làm giảm đáng kể rào cản gia nhập đối với các công ty đang muốn triển khai hệ thống thị giác AI.
Đột phá về trí tuệ thị giác: Giải thích về công nghệ nén tiên tiến của SmolVLM
Những thành tựu kỹ thuật đằng sau SmolVLM là đáng chú ý. Mô hình này giới thiệu một hệ thống nén hình ảnh mạnh mẽ giúp xử lý thông tin hình ảnh hiệu quả hơn bất kỳ mô hình nào trước đó trong cùng loại. “SmolVLM sử dụng 81 mã thông báo trực quan để mã hóa các mảng hình ảnh có kích thước 384×384,” các nhà nghiên cứu giải thích, một phương pháp cho phép mô hình xử lý các tác vụ hình ảnh phức tạp trong khi vẫn duy trì chi phí tính toán tối thiểu.
Cách tiếp cận sáng tạo này mở rộng ra ngoài hình ảnh tĩnh. Trong thử nghiệm, SmolVLM đã thể hiện những khả năng bất ngờ trong phân tích video, đạt được số điểm 27,14% trên Điểm chuẩn CinePile. Điều này đặt nó cạnh tranh giữa các mô hình lớn hơn, sử dụng nhiều tài nguyên hơn, cho thấy rằng kiến trúc AI hiệu quả có thể có nhiều khả năng hơn so với suy nghĩ trước đây.
Tương lai của AI doanh nghiệp: Khả năng truy cập đáp ứng hiệu suất
Ý nghĩa kinh doanh của SmolVLM là sâu sắc. Bằng cách làm cho các khả năng ngôn ngữ thị giác tiên tiến có thể tiếp cận được với các công ty có nguồn lực tính toán hạn chế, Hugging Face về cơ bản đã dân chủ hóa một công nghệ trước đây chỉ dành riêng cho những gã khổng lồ công nghệ và các công ty khởi nghiệp được tài trợ tốt.
Mô hình này có ba biến thể được thiết kế để đáp ứng các nhu cầu khác nhau của doanh nghiệp. Các công ty có thể triển khai phiên bản cơ sở để phát triển tùy chỉnh, sử dụng phiên bản tổng hợp để nâng cao hiệu suất hoặc triển khai phiên bản hướng dẫn để triển khai ngay trong các ứng dụng hướng tới khách hàng.
Được phát hành dưới sự Giấy phép Apache 2.0SmolVLM được xây dựng trên bộ mã hóa hình ảnh SigLIP được tối ưu hóa hình dạng và SmolLM2 để xử lý văn bản. Dữ liệu đào tạo có nguồn gốc từ bộ dữ liệu The Cauldron và Docmatix, đảm bảo hiệu suất mạnh mẽ trong nhiều trường hợp sử dụng kinh doanh.
Nhóm nghiên cứu cho biết: “Chúng tôi mong muốn được xem cộng đồng sẽ tạo ra những gì với SmolVLM”. Sự cởi mở đối với sự phát triển cộng đồng này, kết hợp với tài liệu toàn diện và hỗ trợ tích hợp, cho thấy SmolVLM có thể trở thành nền tảng của chiến lược AI của doanh nghiệp trong những năm tới.
Những tác động đối với ngành công nghiệp AI là rất đáng kể. Khi các công ty phải đối mặt với áp lực ngày càng tăng trong việc triển khai các giải pháp AI đồng thời quản lý chi phí và tác động đến môi trường, thiết kế hiệu quả của SmolVLM mang đến giải pháp thay thế hấp dẫn cho các mô hình sử dụng nhiều tài nguyên. Điều này có thể đánh dấu sự khởi đầu một kỷ nguyên mới trong AI doanh nghiệp, nơi hiệu suất và khả năng truy cập không còn loại trừ lẫn nhau.
Mô hình là có sẵn ngay lập tức thông qua nền tảng của Hugging Face, với khả năng định hình lại cách các doanh nghiệp tiếp cận việc triển khai AI trực quan vào năm 2024 và hơn thế nữa.