Bắt đầu với RAG đa phương thức – Chìa khóa cho sự phát triển thành công

RAG đa phương thức đang phát triển, đây là cách tốt nhất để bắt đầu. Công nghệ RAG đa phương thức đang là tâm điểm của sự phát triển trong ngành AI. Công ty bắt đầu thử nghiệm RAG và các dịch vụ nhúng đa phương thức, khuyến nghị bắt đầu từ việc nhúng hình ảnh và video để chuyển đổi dữ liệu thành dạng AI có thể đọc được.

#RAG #AI #đa_phương_thức #Công_nghệ #nhúng #hình_ảnh #video #phát_triển #dữ_liệu #mô_hình_AI Nguồn: https://venturebeat.com/ai/multimodal-rag-is-growing-heres-the-best-way-to-get-started/

Tham gia các bản tin hàng ngày và hàng tuần của chúng tôi để có những cập nhật mới nhất và nội dung độc quyền về phạm vi phủ sóng AI hàng đầu trong ngành. Tìm hiểu thêm


Khi các công ty bắt đầu thử nghiệm đa phương thức thế hệ tăng cường truy xuất (RAG)các công ty cung cấp dịch vụ đa phương thức phần nhúng — một cách để chuyển đổi dữ liệu thành các tệp có thể đọc được bằng RAG — khuyên các doanh nghiệp nên bắt đầu từ việc nhỏ khi bắt đầu bằng việc nhúng hình ảnh và video.

RAG đa phương thức, RAG cũng có thể hiển thị nhiều loại tệp khác nhau từ văn bản, hình ảnh hoặc video, dựa vào các mô hình nhúng để chuyển đổi dữ liệu thành dạng biểu diễn số mà mô hình AI có thể đọc được. Phần nhúng có thể xử lý tất cả các loại tệp cho phép doanh nghiệp tìm thông tin từ biểu đồ tài chính, danh mục sản phẩm hoặc bất kỳ video thông tin nào họ có và có được cái nhìn toàn diện hơn về công ty của họ.

mạch lạcđã cập nhật mô hình nhúng của nó, Embed 3, thành xử lý hình ảnh và video tháng trước, cho biết các doanh nghiệp cần chuẩn bị dữ liệu của mình một cách khác biệt, đảm bảo hiệu suất phù hợp từ các phần nhúng và sử dụng RAG đa phương thức tốt hơn.

“Trước khi dành nhiều nguồn lực cho việc nhúng đa phương thức, bạn nên thử nghiệm nó ở quy mô hạn chế hơn. Điều này cho phép bạn đánh giá hiệu suất và tính phù hợp của mô hình đối với các trường hợp sử dụng cụ thể và sẽ cung cấp thông tin chi tiết về mọi điều chỉnh cần thiết trước khi triển khai đầy đủ,” a bài đăng trên blog Kiến trúc sư giải pháp nhân viên Cohere Yann Stoneman cho biết.

Công ty cho biết nhiều quy trình được thảo luận trong bài đăng có mặt trong nhiều mô hình nhúng đa phương thức khác.

Stoneman cho biết, tùy thuộc vào một số ngành, người mẫu cũng có thể cần được “đào tạo bổ sung để nắm bắt các chi tiết nhỏ và các biến thể trong hình ảnh”. Ông lấy các ứng dụng y tế làm ví dụ, trong đó việc quét X quang hoặc chụp ảnh các tế bào cực nhỏ đòi hỏi một hệ thống nhúng chuyên dụng có thể hiểu được các sắc thái trong những loại hình ảnh đó.

Chuẩn bị dữ liệu là chìa khóa

Trước khi cung cấp hình ảnh cho hệ thống RAG đa phương thức, những hình ảnh này phải được xử lý trước để mô hình nhúng có thể đọc tốt.

Hình ảnh có thể cần phải được thay đổi kích thước để chúng có kích thước nhất quán, trong khi các tổ chức cần tìm hiểu xem liệu họ có muốn cải thiện ảnh có độ phân giải thấp để các chi tiết quan trọng không bị mất hay làm cho ảnh có độ phân giải quá cao có chất lượng thấp hơn. không làm căng thẳng thời gian xử lý.

“Hệ thống phải có khả năng xử lý các con trỏ hình ảnh (ví dụ: URL hoặc đường dẫn tệp) cùng với dữ liệu văn bản, điều này có thể không thực hiện được với các phần nhúng dựa trên văn bản. Để tạo trải nghiệm mượt mà cho người dùng, các tổ chức có thể cần triển khai mã tùy chỉnh để tích hợp truy xuất hình ảnh với truy xuất văn bản hiện có”, blog cho biết.

Việc nhúng đa phương thức trở nên hữu ích hơn

Nhiều hệ thống RAG chủ yếu xử lý dữ liệu văn bản vì việc sử dụng thông tin dựa trên văn bản làm phần nhúng dễ dàng hơn hình ảnh hoặc video. Tuy nhiên, do hầu hết các doanh nghiệp đều nắm giữ mọi loại dữ liệu nên RAG có thể tìm kiếm hình ảnh và văn bản đã trở nên phổ biến hơn. Các tổ chức thường phải triển khai các hệ thống và cơ sở dữ liệu RAG riêng biệt, ngăn cản việc tìm kiếm theo phương thức hỗn hợp.

Tìm kiếm đa phương thức không có gì mới, vì OpenAIGoogle cung cấp điều tương tự trên các chatbot tương ứng của họ. OpenAI ra mắt sản phẩm mới nhất tạo ra các mô hình nhúng vào tháng Giêng. Các công ty khác cũng cung cấp cách để các doanh nghiệp khai thác dữ liệu khác nhau của họ cho RAG đa phương thức. Ví dụ, đơn bội đưa ra cách hỗ trợ doanh nghiệp chuẩn bị bộ dữ liệu đa phương thức cho RAG.

Leave a Reply

Your email address will not be published. Required fields are marked *