Queen Mobile Blog

MLPerf 3.1 bổ sung các tiêu chí đánh giá cho mô hình ngôn ngữ lớn trong quá trình suy luận

MLPerf 3.1 thêm bài kiểm tra hiệu suất mô hình ngôn ngữ lớn cho việc suy diễn. Hãy truy cập thư viện theo yêu cầu của chúng tôi để xem các buổi từ VB Transform 2023. Đăng ký tại đây. MLCommons đang mở rộng bộ các tiêu chuẩn kiểm tra trí tuệ nhân tạo MLPerf của mình bằng việc thêm kiểm tra cho các mô hình ngôn ngữ lớn (LLM) cho việc suy diễn và một tiêu chuẩn mới đo hiệu suất của hệ thống lưu trữ cho công việc học máy (ML). MLCommons là một tổ chức đa bên liên quan không thiên vị nhằm cung cấp một sân chơi công bằng cho các nhà cung cấp báo cáo về các khía cạnh khác nhau của hiệu suất trí tuệ nhân tạo với bộ các tiêu chuẩn MLPerf. Các tiêu chuẩn MLPerf Inference 3.1 mới được công bố hôm nay là bản cập nhật lớn thứ hai của kết quả trong năm nay, tiếp theo kết quả 3.0 được công bố vào tháng 4. Các tiêu chuẩn MLPerf 3.1 bao gồm một bộ dữ liệu lớn với hơn 13.500 kết quả về hiệu suất. Các nhà nộp bao gồm: ASUSTeK, Azure, cTuning, Connect Tech, Dell, Fujitsu, Giga Computing, Google, H3C, HPE, IEI, Intel, Intel-Habana-Labs, Krai, Lenovo, Moffett, Neural Magic, Nvidia, Nutanix, Oracle, Qualcomm, Quanta Cloud Technology, SiMA, Supermicro, TTA và xFusion. Tiếp tục cải thiện hiệu suất Một chủ đề chung trong các tiêu chuẩn MLPerf với mỗi cập nhật là sự cải thiện liên tục về hiệu suất cho các nhà cung cấp – và kết quả tiêu chuẩn MLPerf 3.1 Inference cũng tuân theo mô hình đó. Trong khi có nhiều loại kiểm tra và cấu hình cho các tiêu chuẩn suy diễn, người sáng lập và giám đốc điều hành MLCommons, David Kanter, cho biết trong một cuộc họp báo rằng có nhiều nhà nộp đã cải thiện hiệu suất của họ tăng lên 20% hoặc hơn so với tiêu chuẩn 3.0. Không chỉ cải thiện hiệu suất tiếp tục, MLPerf cũng tiếp tục mở rộng với các tiêu chuẩn suy diễn 3.1. “Chúng tôi đang tiến triển bộ tiêu chuẩn kiểm tra để phản ánh những gì đang diễn ra”, ông nói. “Tiêu chuẩn LLM của chúng tôi hoàn toàn mới trong quý này và thực sự phản ánh sự bùng nổ của mô hình ngôn ngữ sinh AI ngôn ngữ lớn.” Thử nghiệm mới của MLPerf Inference 3.1 LLM là về điều gì Ban đầu MLCommons đã thử nghiệm hiệu suất LLM. Trong tháng 6, tiêu chuẩn MLPerf 3.0 Training đã thêm LLM lần đầu tiên. Tuy nhiên, việc đào tạo LLM là một công việc khác biệt hoàn toàn so với việc thực hiện các hoạt động suy diễn. “Một trong những khác biệt quan trọng là đối với suy diễn, LLM về cơ bản thực hiện một nhiệm vụ sinh ngữ khi viết nhiều câu”, Kanter nói. Tiêu chuẩn đào tạo LLM của MLPerf sử dụng mô hình 6 tỷ tham số GPT-J để thực hiện tóm tắt văn bản trên bộ dữ liệu CNN / Daily Mail. Kanter nhấn mạnh rằng trong khi tiêu chuẩn đào tạo MLPerf tập trung vào các mô hình nền tảng rất lớn, nhiệm vụ thực tế mà MLPerf đang thực hiện với tiêu chuẩn suy diễn là đại diện cho một loạt các trường hợp sử dụng rộng hơn mà nhiều tổ chức có thể triển khai. “Nhiều người đơn giản là không có tính toán hoặc dữ liệu để hỗ trợ một mô hình thực sự lớn”, Kanter nói. “Nhiệm vụ thực tế chúng tôi đang thực hiện với tiêu chuẩn suy diễn của chúng tôi là tóm tắt văn bản.” Suy diễn không chỉ về GPU – ít nhất theo Intel Trong khi các bộ gia tốc GPU cao cấp thường đứng đầu danh sách MLPerf cho đào tạo và suy diễn, không phải tất cả các tổ chức đều tìm kiếm các con số lớn – ít nhất theo Intel. Chip silicon Intel có sự hiện diện tốt trên MLPerf Inference 3.1 với các kết quả được gửi cho chip gia tốc Habana Gaudi, bộ xử lý Intel Xeon Scalable thế hệ thứ 4 và bộ xử lý dòng Intel Xeon CPU Max Series. Theo Intel, bộ xử lý Intel Xeon Scalable thế hệ thứ 4 hoạt động tốt trên nhiệm vụ tóm tắt tin tức GPT-J, tóm tắt một đoạn văn mỗi giây trong chế độ máy chủ thời gian thực. Trả lời câu hỏi từ VentureBeat trong phần Q&A của cuộc họp báo MLCommons, giám đốc cấp cao các sản phẩm AI của Intel, Jordan Plawner, nhận xét rằng có tính đa dạng trong những gì các tổ chức cần cho suy diễn. “Cuối cùng, doanh nghiệp, doanh nghiệp và tổ chức cần triển khai trí tuệ nhân tạo trong sản xuất và điều đó rõ ràng cần được thực hiện trong tất cả các loại tính toán”, Plawner nói. “Có nhiều đại diện của cả phần mềm và phần cứng cho thấy rằng suy diễn có thể chạy trên tất cả các loại tính toán là một chỉ số dẫn đầu cho thị trường điều gì tiếp theo, giờ thì là tổ chức mở rộng các mô hình trí tuệ nhân tạo, không chỉ là xây dựng chúng.” Nvidia tuyên bố những đánh giá về hiệu suất của Grace Hopper MLPef Inference, với nhiều kết quả hơn điểm nổi bật của Nvidia trong các tiêu chuẩn suy diễn MLPerf 3.1. Các tiêu chuẩn suy diễn MLPerf 3.1 là lần đầu tiên Nvidia áp dụng vi mạch siêu hỗ trợ Grace Hopper GH200. Vi mạch siêu Grace Hopper kết hợp một CPU Nvidia cùng với một GPU để tối ưu hóa công việc trí tuệ nhân tạo. “Grace Hopper đã thể hiện sự mạnh mẽ lần đầu tiên với hiệu suất tăng thêm lên đến 17% so với GPU H100 submissions của chúng tôi, mà chúng tôi đã cung cấp sự lãnh đạo trong toàn bộ quá trình”, Dave Salvator, giám đốc AI của Nvidia, nói trong một cuộc họp báo. Grace Hopper dành cho các công việc lớn nhất và đòi hỏi nhiều, nhưng đó không phải là tất cả những gì Nvidia hướng đến. Salvator cũng nhấn mạnh các GPU L4 của Nvidia cho các kết quả tiêu chuẩn suy diễn MLPerf 3.1 của chúng. “L4 cũng đã thể hiện sự mạnh mẽ, lên đến 6 lần hiệu suất so với các bộ xử lý x86 tốt nhất được gửi trong vòng này”, ông nói. Nhiệm vụ của VentureBeat là trở thành một quảng trường số để những người đưa ra quyết định kỹ thuật có được kiến thức về công nghệ doanh nghiệp biến đổi và thực hiện giao dịch. Khám phá Briefing của chúng tôi.

Nguồn: https://venturebeat.com/ai/mlperf-3-1-adds-large-language-model-benchmarks-for-inference/

Head over to our on-demand library to view sessions from VB Transform 2023. Register Here


MLCommons is growing its suite of MLPerf AI benchmarks with the addition of testing for large language models (LLMs) for inference and a new benchmark that measures performance of storage systems for machine learning (ML) workloads.

MLCommons is a vendor neutral, multi-stakeholder organization that aims to provide a level playing field for vendors to report on different aspects of AI performance with the MLPerf set of benchmarks. The new MLPerf Inference 3.1 benchmarks released today are the second major update of the results this year, following the 3.0 results that came out in April. The MLPerf 3.1 benchmarks include a large set of data with more than 13,500 performance results.

Submitters include: ASUSTeK, Azure, cTuning, Connect Tech, Dell, Fujitsu, Giga Computing, Google, H3C, HPE, IEI, Intel, Intel-Habana-Labs, Krai, Lenovo, Moffett, Neural Magic, Nvidia, Nutanix, Oracle, Qualcomm, Quanta Cloud Technology, SiMA, Supermicro, TTA and xFusion. 

Continued performance improvement

A common theme across MLPerf benchmarks with each update is the continued improvement in performance for vendors — and the MLPerf 3.1 Inference results follow that pattern. While there are multiple types of testing and configurations for the inference benchmarks, MLCommons founder and executive director David Kanter said in a press briefing that many submitters improved their performance by 20% or more over the 3.0 benchmark.

Event

VB Transform 2023 On-Demand

Did you miss a session from VB Transform 2023? Register to access the on-demand library for all of our featured sessions.

 


Register Now

Beyond continued performance gains, MLPerf is continuing to expand with the 3.1 inference benchmarks.

“We’re evolving the benchmark suite to reflect what’s going on,” he said. “Our LLM benchmark is brand new this quarter and really reflects the explosion of generative AI large language models.”

What the new MLPerf Inference 3.1 LLM benchmarks are all about

This isn’t the first time MLCommons has attempted to benchmark LLM performance.

Back in June, the MLPerf 3.0 Training benchmarks added LLMs for the first time. Training LLMs, however, is a very different task than running inference operations.

“One of the critical differences is that for inference, the LLM is fundamentally performing a generative task as it’s writing multiple sentences,” Kanter said.

The MLPerf Training benchmark for LLM makes use of the GPT-J 6B (billion) parameter model  to perform text summarization on the CNN/Daily Mail dataset. Kanter emphasized that while the MLPerf training benchmark focuses on very large foundation models, the actual task MLPerf is performing with the inference benchmark is representative of a wider set of use cases that more organizations can deploy. 

“Many folks simply don’t have the compute or the data to support a really large model,” said Kanter. “The actual task we’re performing with our inference benchmark is text summarization.”

Inference isn’t just about GPUs — at least according to Intel

While high-end GPU accelerators are often at the top of the MLPerf listing for training and inference, the big numbers are not what all organizations are looking for — at least according to Intel.

Intel silicon is well represented on the MLPerf Inference 3.1 with results submitted for Habana Gaudi accelerators, 4th Gen Intel Xeon Scalable processors and Intel Xeon CPU Max Series processors. According to Intel, the 4th Gen Intel Xeon Scalable performed well on the GPT-J news summarization task, summarizing one paragraph per second in real-time server mode.

In response to a question from VentureBeat during the Q&A portion of the MLCommons press briefing, Intel’s senior director of AI products Jordan Plawner commented that there is diversity in what organizations need for inference.

“At the end of the day, enterprises, businesses and organizations need to deploy AI in production and that clearly needs to be done in all kinds of compute,” said Plawner. “To have so many representatives of both software and hardware showing that it (inference) can be run in all kinds of compute is really a leading indicator of where the market goes next, which is now scaling out AI models, not just building them.”

Nvidia claims Grace Hopper MLPef Inference gains, with more to come

Courtesy Nvidia

While Intel is keen to show how CPUs are valuable for inference, GPUs from Nvidia are well represented in the MLPerf Inference 3.1 benchmarks.

The MLPerf Inference 3.1 benchmarks are the first time Nvidia’s GH200 Grace Hopper Superchip was included. The Grace Hopper superchip pairs an Nvidia CPU, along with a GPU to optimize AI workloads.

“Grace Hopper made a very strong first showing delivering up to 17% more performance versus our H100 GPU submissions, which we’re already delivering across the board leadership,” Dave Salvator, director of AI at Nvidia, said during a press briefing.

The Grace Hopper is intended for the largest and most demanding workloads, but that’s not all that Nvidia is going after. The Nvidia L4 GPUs were also highlighted by Salvator for their MLPerf Inference 3.1 results.

“L4  also had a very strong showing up to 6x more performance versus the best x86 CPUs submitted this round,” he said.

VentureBeat’s mission is to be a digital town square for technical decision-makers to gain knowledge about transformative enterprise technology and transact. Discover our Briefings.


Exit mobile version