#Meta ra mắt công cụ AI ImageBind mã nguồn mở#
Meta mới đây đã tung ra công cụ AI có tên ImageBind mã nguồn mở, nhằm mục đích bắt chước nhận thức của con người. Đây là một công cụ AI đa phương thức, có khả năng dự đoán các kết nối giữa dữ liệu tương tự cách con người nhận thức và tưởng tượng một môi trường. ImageBind có thể liên kết văn bản, hình ảnh/video, âm thanh, phép đo 3D, dữ liệu nhiệt độ và dữ liệu chuyển động một cách mạnh mẽ. Công cụ này không cần phải huấn luyện trước về mọi khả năng, đồng ý với cách mà con người xử lý dữ liệu xung quanh.
Meta cho biết, công nghệ này có thể mở ra những cánh cửa mới trong không gian tiếp cận, giúp những người khiếm thị hoặc khiếm thính nhận thức tốt hơn về môi trường trực tiếp của họ. Điều này có thể góp phần vào sự tiến bộ của cuộc sống con người.
Sự ra đời của ImageBind cho thấy rằng Meta đang thực hiện tham vọng của mình về VR, thực tế hỗn hợp và metaverse. Điều này mở ra một số khả năng mới, cho phép người dùng tạo hoạt ảnh từ hình ảnh tĩnh bằng cách kết hợp chúng với lời nhắc âm thanh.
Meta xem công nghệ cuối cùng sẽ mở rộng ra ngoài sáu “giác quan” hiện tại của nó, giúp các mô hình AI lấy con người làm trung tâm phong phú hơn. Mã nguồn mở của Meta đã được tung ra để các nhà phát triển khám phá hộp cát mới này.
#ImageBind: Máy học tiến gần hơn với việc học của con người#
Meta đang mã nguồn mở một công cụ AI có tên ImageBind dự đoán các kết nối giữa dữ liệu tương tự như cách con người nhận thức hoặc tưởng tượng về một môi trường. Trong khi các trình tạo hình ảnh như giữa hành trình, khuếch tán ổn định Và DALL-E 2 ghép các từ với hình ảnh, cho phép bạn tạo các cảnh trực quan chỉ dựa trên mô tả văn bản, ImageBind tạo ra một mạng lưới rộng hơn. Nó có thể liên kết văn bản, hình ảnh/video, âm thanh, phép đo 3D (độ sâu), dữ liệu nhiệt độ (nhiệt) và dữ liệu chuyển động (từ các đơn vị đo lường quán tính) — và nó thực hiện điều này mà không cần phải huấn luyện trước về mọi khả năng. Đây là giai đoạn đầu của một khung mà cuối cùng có thể tạo ra các môi trường phức tạp từ đầu vào đơn giản như lời nhắc văn bản, bản ghi hình ảnh hoặc âm thanh (hoặc một số kết hợp của cả ba).
Bạn có thể xem ImageBind là cách máy học tiến gần hơn với việc học của con người. Ví dụ: nếu bạn đang đứng trong một môi trường kích thích như đường phố đông đúc, bộ não của bạn (phần lớn là vô thức) hấp thụ các điểm tham quan, âm thanh và các trải nghiệm giác quan khác để suy ra thông tin về ô tô và người đi bộ, các tòa nhà cao tầng, thời tiết, v.v. Con người và các loài động vật khác đã tiến hóa để xử lý dữ liệu này vì lợi ích di truyền của chúng ta: sự sống sót và truyền lại DNA của chúng ta. (Bạn càng nhận thức rõ hơn về môi trường xung quanh, bạn càng có thể tránh nguy hiểm và thích nghi với môi trường của mình để tồn tại và thịnh vượng tốt hơn.) Khi máy tính tiến gần hơn đến việc bắt chước các kết nối đa giác quan của động vật, chúng có thể sử dụng các liên kết đó để tạo ra nhận thức đầy đủ cảnh chỉ dựa trên khối dữ liệu hạn chế.
Vì vậy, trong khi bạn có thể sử dụng Midjourney để nhắc “một chú chó săn basset mặc trang phục Gandalf trong khi giữ thăng bằng trên một quả bóng bãi biển” và có được một bức ảnh tương đối chân thực về cảnh tượng kỳ lạ này, thì một công cụ AI đa phương thức như ImageBind cuối cùng có thể tạo ra một video về chú chó với âm thanh tương ứng, bao gồm chi tiết phòng khách ngoại ô, nhiệt độ phòng và vị trí chính xác của con chó và bất kỳ ai khác trong hiện trường. “Điều này tạo ra những cơ hội đặc biệt để tạo hoạt ảnh từ hình ảnh tĩnh bằng cách kết hợp chúng với lời nhắc âm thanh,” các nhà nghiên cứu của Meta hôm nay cho biết trong một bài đăng trên blog tập trung vào nhà phát triển. “Ví dụ: người sáng tạo có thể ghép một hình ảnh với đồng hồ báo thức và tiếng gà trống gáy, đồng thời sử dụng lời nhắc âm thanh tiếng gáy để phân đoạn con gà trống hoặc âm thanh báo thức để phân đoạn đồng hồ và tạo hoạt ảnh cho cả hai thành một chuỗi video.”
Đối với những gì người ta có thể làm với món đồ chơi mới này, rõ ràng nó chỉ ra một trong những Tham vọng cốt lõi của Meta: VR, thực tế hỗn hợp và metaverse. Ví dụ: hãy tưởng tượng một chiếc tai nghe trong tương lai có thể dựng cảnh 3D hoàn chỉnh (có âm thanh, chuyển động, v.v.) một cách nhanh chóng. Hoặc, các nhà phát triển trò chơi ảo cuối cùng có thể sử dụng nó để loại bỏ phần lớn công việc cần thiết trong quá trình thiết kế của họ. Tương tự như vậy, người tạo nội dung có thể tạo các video sống động với âm thanh và chuyển động chân thực chỉ dựa trên đầu vào văn bản, hình ảnh hoặc âm thanh. Cũng dễ hình dung một công cụ như ImageBind sẽ mở ra những cánh cửa mới trong không gian tiếp cận, tạo ra các mô tả đa phương tiện theo thời gian thực để giúp những người khiếm thị hoặc khiếm thính nhận thức tốt hơn về môi trường trực tiếp của họ.
Meta cho biết: “Trong các hệ thống AI điển hình, có một cách nhúng cụ thể (nghĩa là các vectơ số có thể biểu thị dữ liệu và mối quan hệ của chúng trong máy học) cho từng phương thức tương ứng. “ImageBind cho thấy rằng có thể tạo một không gian nhúng chung trên nhiều phương thức mà không cần đào tạo dữ liệu với mọi tổ hợp phương thức khác nhau. Điều này rất quan trọng vì các nhà nghiên cứu không thể tạo bộ dữ liệu với các mẫu chứa, chẳng hạn như dữ liệu âm thanh và dữ liệu nhiệt từ đường phố đông đúc của thành phố hoặc dữ liệu độ sâu và mô tả văn bản về một vách đá bên bờ biển.”
Meta xem công nghệ cuối cùng sẽ mở rộng ra ngoài sáu “giác quan” hiện tại của nó, có thể nói như vậy. “Mặc dù chúng tôi đã khám phá sáu phương thức trong nghiên cứu hiện tại của mình, nhưng chúng tôi tin rằng việc giới thiệu các phương thức mới liên kết càng nhiều giác quan càng tốt — như xúc giác, lời nói, khứu giác và tín hiệu fMRI não — sẽ cho phép các mô hình AI lấy con người làm trung tâm phong phú hơn.” Các nhà phát triển quan tâm đến việc khám phá hộp cát mới này có thể bắt đầu bằng cách đi sâu vào Mã nguồn mở của Meta.