Databricks và Hugging Face tích hợp Spark để tăng tốc xây dựng mô hình AI

Databricks và Hugging Face vừa tích hợp Apache Spark để giúp xây dựng các mô hình trí tuệ nhân tạo (AI) nhanh hơn. Sự tích hợp mới giúp loại bỏ sự cần thiết của các quy trình phức tạp trong việc tạo bộ dữ liệu chất lượng cao cho các mô hình AI và cung cấp một công cụ hiệu quả cho các nhà khoa học dữ liệu và nhà phát triển AI. Databricks cam kết hỗ trợ cộng đồng nguồn mở thông qua bản phát hành mới và sẵn sàng đưa ra các dịch vụ hỗ trợ phát trực tuyến qua Spark để tăng cường tải tập dữ liệu. Các giám đốc điều hành hàng đầu sẽ được chia sẻ cách tích hợp và tối ưu hóa các khoản đầu tư vào AI tại sự kiện Chuyển đổi 2023 diễn ra tại San Francisco vào ngày 11-12 tháng 7. #Databricks #HuggingFace #ApacheSpark #AI #Chuyểnđổi2023

Nguồn: https://venturebeat.com/ai/databricks-and-hugging-face-integrate-apache-spark-for-faster-ai-model-building/

Tham gia cùng các giám đốc điều hành hàng đầu tại San Francisco vào ngày 11-12 tháng 7, để nghe cách các nhà lãnh đạo đang tích hợp và tối ưu hóa các khoản đầu tư AI để thành công. Tìm hiểu thêm


gạch dữ liệuôm mặt đã hợp tác để giới thiệu một tính năng mới cho phép người dùng tạo bộ dữ liệu Hugging Face từ một Tia lửa Apache khung dữ liệu. Sự tích hợp mới này cung cấp một phương pháp tải và chuyển đổi dữ liệu đơn giản hơn để đào tạo và tinh chỉnh mô hình trí tuệ nhân tạo (AI). Giờ đây, người dùng có thể ánh xạ khung dữ liệu Spark của họ vào bộ dữ liệu Hugging Face để tích hợp vào các quy trình đào tạo.

Với tính năng này, Databricks và Hugging Face nhằm mục đích đơn giản hóa quá trình tạo bộ dữ liệu chất lượng cao cho các mô hình AI. Ngoài ra, sự tích hợp này cung cấp một công cụ rất cần thiết cho các nhà khoa học dữ liệu và nhà phát triển AI, những người cần các công cụ quản lý dữ liệu hiệu quả để đào tạo và tinh chỉnh các mô hình của họ.

Databricks nói rằng sự tích hợp mới mang lại những điều tốt nhất của cả hai thế giới: tiết kiệm chi phí và lợi thế về tốc độ của Spark với ánh xạ bộ nhớ và tối ưu hóa bộ nhớ đệm thông minh từ Bộ dữ liệu ôm mặtthêm rằng các tổ chức giờ đây có thể đạt được các chuyển đổi dữ liệu hiệu quả hơn trên các bộ dữ liệu AI khổng lồ.

Khai phá toàn bộ tiềm năng của Spark

Nhân viên của Databricks đã viết và cam kết (sửa mã nguồn vào kho lưu trữ) Spark cập nhật cho Kho ảnh ôm mặt. Thông qua một cuộc gọi đơn giản đến from_spark chức năng và bằng cách cung cấp khung dữ liệu Spark, giờ đây người dùng có thể tải đầy đủ ôm mặt tập dữ liệu trong cơ sở mã của họ đã sẵn sàng để đào tạo hoặc điều chỉnh mô hình. Sự tích hợp này giúp loại bỏ sự cần thiết của các quy trình chuẩn bị dữ liệu phức tạp và tốn thời gian.

Sự kiện

Chuyển đổi 2023

Hãy tham gia cùng chúng tôi tại San Francisco vào ngày 11-12 tháng 7, nơi các giám đốc điều hành hàng đầu sẽ chia sẻ cách họ đã tích hợp và tối ưu hóa các khoản đầu tư vào AI để đạt được thành công và tránh những cạm bẫy phổ biến.

Đăng ký ngay

Databricks tuyên bố rằng việc tích hợp đánh dấu một bước tiến quan trọng đối với việc phát triển mô hình AI, cho phép người dùng khai thác toàn bộ tiềm năng của Spark để điều chỉnh mô hình.

“Cốt lõi của AI là về dữ liệu và mô hình,” Jeff Boudier, trưởng bộ phận kiếm tiền và tăng trưởng tại Hugging Face, nói với VentureBeat. “Làm cho hai thế giới này hoạt động tốt hơn cùng nhau ở lớp nguồn mở sẽ đẩy nhanh việc áp dụng AI để tạo ra quy trình công việc AI mạnh mẽ mà mọi người có thể tiếp cận. Sự tích hợp này giúp giảm đáng kể trở ngại khi đưa dữ liệu từ bộ dữ liệu Spark sang Hugging Face để đào tạo các mô hình mới và hoàn thành công việc. Chúng tôi rất vui khi thấy người dùng của mình tận dụng lợi thế của nó.”

Một cách mới để tích hợp các khung dữ liệu Spark để phát triển mô hình

Databricks tin rằng tính năng mới này sẽ là một công cụ thay đổi cuộc chơi cho các doanh nghiệp cần xử lý lượng dữ liệu khổng lồ một cách nhanh chóng và đáng tin cậy để cung cấp năng lượng cho họ. máy học (ML) quy trình làm việc.

Theo truyền thống, người dùng phải ghi dữ liệu vào tệp sàn gỗ — một định dạng cột nguồn mở, sau đó tải lại chúng bằng bộ dữ liệu Hugging Face. Các khung dữ liệu Spark trước đây không được bộ dữ liệu Hugging Face hỗ trợ, mặc dù nền tảng có nhiều loại đầu vào được hỗ trợ.

Tuy nhiên, với cái mới “from_spark”, giờ đây người dùng có thể sử dụng Spark để tải và chuyển đổi dữ liệu của họ một cách hiệu quả để đào tạo, giảm đáng kể thời gian và chi phí xử lý dữ liệu.

Craig Wiley, giám đốc cấp cao về quản lý sản phẩm của Databricks cho biết: “Mặc dù phương pháp cũ hoạt động hiệu quả, nhưng nó phá vỡ rất nhiều hiệu quả và tính song song vốn có của Spark. “Một sự tương tự sẽ là lấy một tệp PDF và in ra từng trang sau đó quét lại chúng, thay vì có thể tải lên tệp PDF gốc. Với bản phát hành Hugging Face mới nhất, bạn có thể lấy lại tập dữ liệu Hugging Face được tải trực tiếp vào cơ sở mã của mình, sẵn sàng đào tạo hoặc điều chỉnh các mô hình của bạn.”

Giảm đáng kể thời gian xử lý

Tích hợp mới khai thác khả năng song song hóa của Spark để tải xuống và xử lý bộ dữ liệu, bỏ qua các bước bổ sung để định dạng lại dữ liệu. Databricks tuyên bố rằng tích hợp Spark mới đã giảm hơn 40% thời gian xử lý cho bộ dữ liệu 16 GB, giảm từ 22 xuống còn 12 phút.

Wiley giải thích: “Vì các mô hình AI vốn phụ thuộc vào dữ liệu được sử dụng để đào tạo chúng, nên các tổ chức sẽ thảo luận về sự đánh đổi giữa chi phí và hiệu suất khi quyết định lượng dữ liệu sẽ sử dụng và mức độ tinh chỉnh hoặc đào tạo mà họ có thể chi trả”. “Spark sẽ giúp mang lại hiệu quả trên quy mô lớn cho việc xử lý dữ liệu, trong khi Hugging Face cung cấp cho họ một kho lưu trữ đang phát triển gồm các mô hình, bộ dữ liệu và thư viện nguồn mở mà họ có thể sử dụng làm nền tảng để đào tạo các mô hình AI của riêng mình.”

Đóng góp cho sự phát triển AI mã nguồn mở

Databricks nhằm mục đích hỗ trợ cộng đồng nguồn mở thông qua bản phát hành mới, nói rằng Hugging Face vượt trội trong việc cung cấp các mô hình và bộ dữ liệu nguồn mở. Công ty cũng có kế hoạch cung cấp hỗ trợ phát trực tuyến qua Spark để tăng cường tải tập dữ liệu.

Wiley cho biết: “Databricks luôn được cộng đồng nguồn mở tin tưởng mạnh mẽ, một phần không nhỏ là do chúng tôi đã tận mắt chứng kiến ​​sự hợp tác đáng kinh ngạc trong các dự án như Spark, Delta Lake và MLflow.” Chúng tôi nghĩ rằng sẽ cần một ngôi làng để nuôi dưỡng thế hệ AI tiếp theo và chúng tôi thấy Hugging Face là một người ủng hộ tuyệt vời cho những lý tưởng tương tự.”

Gần đây, Databricks đã giới thiệu một nhà phân phối PyTorch cho Spark để tạo điều kiện đào tạo PyTorch phân tán trên nền tảng của mình và thêm các chức năng AI vào dịch vụ SQL của mình, cho phép người dùng tích hợp OpenAI (hoặc các mô hình của riêng họ trong tương lai) vào các truy vấn của họ.

Ngoài ra, bản phát hành MLflow mới nhất hỗ trợ thư viện máy biến áp, tích hợp OpenAI và chuỗi lang ủng hộ.

“Chúng tôi có khá nhiều thứ trong công việc, cả hai đều liên quan đến trí tuệ nhân tạo và rộng hơn là trong không gian nền tảng ML,” Wiley nói thêm. “Các tổ chức sẽ cần truy cập dễ dàng vào các công cụ cần thiết để xây dựng nền tảng AI của riêng họ và chúng tôi đang nỗ lực để cung cấp nền tảng tốt nhất thế giới cho họ.”

Sứ mệnh của VentureBeat là trở thành một quảng trường thành phố kỹ thuật số để những người ra quyết định kỹ thuật có được kiến ​​thức về công nghệ doanh nghiệp chuyển đổi và giao dịch. Khám phá Briefings của chúng tôi.


Leave a Reply

Your email address will not be published. Required fields are marked *