Meta công bố I-JEPA, một hệ thống máy học tiên tiến để hiểu các ý tưởng trừu tượng cao cấp từ hình ảnh

I-JEPA

#Meta phát hành I-JEPA: Học máy khái niệm trừu tượng cấp cao từ hình ảnh

Tham gia cùng các giám đốc điều hành hàng đầu tại San Francisco vào ngày 11-12 tháng 7, để nghe cách các nhà lãnh đạo đang tích hợp và tối ưu hóa các khoản đầu tư AI để thành công. Tìm hiểu thêm

Trong nhiều năm, nhà khoa học AI chính của Meta, Yann LeCun, đã nói về hệ thống học sâu có thể tìm hiểu mô hình thế giới mà không cần sự giúp đỡ của con người. Giờ đây, tầm nhìn đó đã trở thành hiện thực khi Meta vừa phát hành phiên bản đầu tiên của I-JEPA – một mô hình học máy (ML) học cách thể hiện trừu tượng về thế giới thông qua phương pháp học tự giám sát trên hình ảnh.

Các thử nghiệm ban đầu cho thấy I-JEPA hoạt động hiệu quả trên nhiều nhiệm vụ máy tính. Điều đáng chú ý là nó cũng hiệu quả hơn nhiều so với các mô hình hiện đại khác, chỉ đòi hỏi 1/10 tài nguyên máy tính để đào tạo. Meta đã công bố mã nguồn mở và mô hình đào tạo của I-JEPA và sẽ trình bày nó tại Hội nghị về Thị giác Máy tính và Nhận dạng Mẫu (CVPR) vào tuần tới.

Ý tưởng học tự giám sát lấy cảm hứng từ cách con người và động vật học hỏi. Chúng ta thu được nhiều kiến thức bằng cách quan sát thế giới xung quanh. Tự giám sát trong học máy đã có những tiến bộ lớn trong các lĩnh vực như mô hình sinh sản và mô hình ngôn ngữ lớn (LLMs). Năm 2022, LeCun đề xuất mô hình “kiến trúc nhúng dự đoán chung” (JEPA), một mô hình tự giám sát có thể học các mô hình thế giới và kiến thức quan trọng. JEPA khác biệt với các mô hình tự giám sát khác ở những điểm quan trọng.

Hãy tham gia cùng chúng tôi tại San Francisco vào ngày 11-12 tháng 7 trong sự kiện Chuyển đổi 2023, nơi các giám đốc điều hành hàng đầu sẽ chia sẻ cách họ đã tích hợp và tối ưu hóa các khoản đầu tư vào AI để đạt được thành công và tránh những cạm bẫy phổ biến. Đăng ký ngay để không bỏ lỡ số đặc biệt của chúng tôi: Xây dựng nền tảng cho chất lượng dữ liệu khách hàng. Hãy theo dõi VentureBeat để cập nhật thông tin về trí tuệ nhân tạo bảo hiểm.

Nguồn: https://venturebeat.com/ai/meta-releases-i-jepa-a-machine-learning-model-that-learns-high-level-abstractions-from-images/

Tham gia cùng các giám đốc điều hành hàng đầu tại San Francisco vào ngày 11-12 tháng 7, để nghe cách các nhà lãnh đạo đang tích hợp và tối ưu hóa các khoản đầu tư AI để thành công. Tìm hiểu thêm


Trong nhiều năm, nhà khoa học AI chính của Meta, Yann LeCun, đã nói về các hệ thống học sâu có thể tìm hiểu mô hình thế giới với rất ít hoặc không có sự giúp đỡ của con người. Giờ đây, tầm nhìn đó đang dần thành hiện thực khi Meta vừa phát hành phiên bản đầu tiên của TÔI-JEPAmột mô hình máy học (ML) học cách thể hiện trừu tượng về thế giới thông qua phương pháp học tự giám sát trên hình ảnh.

Các thử nghiệm ban đầu cho thấy I-JEPA hoạt động hiệu quả trên nhiều tầm nhìn máy tính nhiệm vụ. Nó cũng hiệu quả hơn nhiều so với các mô hình hiện đại khác, đòi hỏi 1/10 tài nguyên máy tính để đào tạo. Meta có mã nguồn mở mã và mô hình đào tạo và sẽ trình bày I-JEPA tại Hội nghị về Thị giác Máy tính và Nhận dạng Mẫu (CVPR) vào tuần tới.

học tự giám sát

ý tưởng của bản thân-giám sát học hỏi được lấy cảm hứng từ cách học của con người và động vật. Chúng ta thu được nhiều kiến ​​thức chỉ bằng cách quan sát thế giới. Tương tự như vậy, các hệ thống AI sẽ có thể học thông qua các quan sát thô mà không cần con người dán nhãn dữ liệu đào tạo của họ.

Học tự giám sát đã có những bước tiến lớn trong một số lĩnh vực của AI, bao gồm sinh sản mô hình và mô hình ngôn ngữ lớn (LLMs). Năm 2022, Lê Cún đề xuất “kiến trúc nhúng dự đoán chung” (JEPA), một mô hình tự giám sát có thể học các mô hình thế giới và kiến ​​thức quan trọng như lẽ thường. JEPA khác với các mô hình tự giám sát khác ở những điểm quan trọng.

Sự kiện

Chuyển đổi 2023

Hãy tham gia cùng chúng tôi tại San Francisco vào ngày 11-12 tháng 7, nơi các giám đốc điều hành hàng đầu sẽ chia sẻ cách họ đã tích hợp và tối ưu hóa các khoản đầu tư vào AI để đạt được thành công và tránh những cạm bẫy phổ biến.

Đăng ký ngay

>>Đừng bỏ lỡ số đặc biệt của chúng tôi: Xây dựng nền tảng cho chất lượng dữ liệu khách hàng.<<

Các mô hình tổng quát như DALL-E và GPT được thiết kế để đưa ra các dự đoán chi tiết. Ví dụ: trong quá trình đào tạo, một phần của văn bản hoặc hình ảnh bị che khuất và mô hình cố gắng dự đoán chính xác các từ hoặc pixel bị thiếu. Vấn đề với việc cố gắng điền vào từng bit thông tin là thế giới không thể đoán trước và mô hình thường bị mắc kẹt giữa nhiều kết quả có thể xảy ra. Đây là lý do tại sao bạn thấy các mô hình tổng quát không thành công khi tạo các đối tượng chi tiết như bàn tay.

Ngược lại, thay vì chi tiết ở cấp độ pixel, JEPA cố gắng tìm hiểu và dự đoán mức độ trừu tượng cao, chẳng hạn như cảnh phải chứa gì và cách các đối tượng liên quan với nhau. Cách tiếp cận này làm cho mô hình ít bị lỗi hơn và ít tốn kém hơn nhiều khi nó học được không gian tiềm ẩn của môi trường.

Các nhà nghiên cứu của Meta viết: “Bằng cách dự đoán các biểu diễn ở mức độ trừu tượng cao thay vì dự đoán trực tiếp các giá trị pixel, hy vọng là học được các biểu diễn hữu ích trực tiếp cũng như tránh được những hạn chế của các phương pháp tổng quát”.

I-JEPA

I-JEPA là một triển khai dựa trên hình ảnh của kiến ​​trúc đề xuất của LeCun. Nó dự đoán thông tin còn thiếu bằng cách sử dụng “các mục tiêu dự đoán trừu tượng mà các chi tiết cấp độ pixel không cần thiết có khả năng bị loại bỏ, do đó giúp mô hình tìm hiểu thêm các tính năng ngữ nghĩa”.

I-JEPA mã hóa thông tin hiện có bằng cách sử dụng bộ biến đổi thị giác (ViT), một biến thể của máy biến thế ngành kiến ​​​​trúc được sử dụng trong LLM nhưng được sửa đổi để xử lý hình ảnh. Sau đó, nó chuyển thông tin này dưới dạng ngữ cảnh tới một công cụ dự đoán ViT để tạo ra các biểu diễn ngữ nghĩa cho các phần còn thiếu.

I-JEPA
Nguồn hình ảnh: Meta

Các nhà nghiên cứu tại Meta đã đào tạo một mô hình tổng quát tạo ra các bản phác thảo từ dữ liệu ngữ nghĩa mà I-JEPA dự đoán. Trong các hình ảnh sau đây, I-JEPA được cung cấp các pixel bên ngoài hộp màu xanh lam làm ngữ cảnh và nó dự đoán nội dung bên trong hộp màu xanh lam. Sau đó, mô hình tổng quát đã tạo ra một bản phác thảo các dự đoán của I-JEPA. Kết quả cho thấy sự trừu tượng của I-JEPA phù hợp với thực tế của cảnh.

I-JEPA
Nguồn hình ảnh: Meta

Mặc dù I-JEPA sẽ không tạo ra hình ảnh chân thực, nhưng nó có thể có nhiều ứng dụng trong các lĩnh vực như người máy và ô tô tự lái, trong đó tác nhân AI phải có khả năng hiểu môi trường của nó và xử lý một số kết quả rất hợp lý.

Một mô hình rất hiệu quả

Một lợi ích rõ ràng của I-JEPA là bộ nhớ và tính hiệu quả của nó. Giai đoạn tiền đào tạo không yêu cầu các kỹ thuật tăng cường dữ liệu chuyên sâu về điện toán được sử dụng trong các loại phương pháp học tự giám sát khác. Các nhà nghiên cứu đã có thể đào tạo một mô hình 632 triệu tham số bằng cách sử dụng 16 GPU A100 trong vòng chưa đầy 72 giờ, bằng khoảng 1/10 so với yêu cầu của các kỹ thuật khác.

Các nhà nghiên cứu viết: “Theo kinh nghiệm, chúng tôi thấy rằng I-JEPA học các biểu diễn ngữ nghĩa mạnh mẽ có sẵn mà không cần sử dụng các phần mở rộng chế độ xem thủ công”.

>>Theo dõi liên tục của VentureBeat trí tuệ nhân tạo bảo hiểm <<

Các thí nghiệm của họ cho thấy rằng I-JEPA cũng cần ít tinh chỉnh hơn nhiều để vượt trội hơn các mô hình hiện đại khác trong các tác vụ thị giác máy tính như phân loại, đếm đối tượng và dự đoán độ sâu. Các nhà nghiên cứu đã có thể tinh chỉnh mô hình trên bộ dữ liệu phân loại hình ảnh ImageNet-1K với 1% dữ liệu đào tạo, chỉ sử dụng 12 đến 13 hình ảnh cho mỗi lớp.

Các nhà nghiên cứu viết: “Bằng cách sử dụng một mô hình đơn giản hơn với xu hướng quy nạp ít cứng nhắc hơn, I-JEPA có thể áp dụng cho nhiều nhiệm vụ hơn.

Với tính sẵn có cao của dữ liệu chưa được gắn nhãn trên internet, các mô hình như I-JEPA có thể tỏ ra rất có giá trị đối với các ứng dụng trước đây yêu cầu một lượng lớn dữ liệu được gắn nhãn thủ công. Các đào tạo mã và các mô hình được đào tạo trước có sẵn trên GitHub, mặc dù mô hình này được phát hành theo giấy phép phi thương mại.

Sứ mệnh của VentureBeat là trở thành một quảng trường thành phố kỹ thuật số để những người ra quyết định kỹ thuật có được kiến ​​thức về công nghệ doanh nghiệp chuyển đổi và giao dịch. Khám phá Briefings của chúng tôi.


[ad_2]

Leave a Reply

Your email address will not be published. Required fields are marked *