NVIDIA & AMD vừa nộp các điểm chuẩn hiệu suất MLPerf Inference mới nhất của các GPU mới nhất của họ, bao gồm Blackwell B200 & Instinct MI325X.
Trong khi nhiều công ty chạy chuẩn MLPerf trên phần cứng của họ để đánh giá hiệu suất, chỉ có NVIDIA và các đối tác của họ gửi và công bố kết quả trên chuẩn Llama 3.1 405B.
Việc triển khai suy luận sản xuất thường có các hạn chế về độ trễ đối với hai số liệu chính. Đầu tiên là thời gian đến mã thông báo đầu tiên (TTFT) hoặc thời gian để người dùng bắt đầu thấy phản hồi cho truy vấn được đưa ra chomô hình ngôn ngữ lớn.
Thứ hai là thời gian cho mỗi mã thông báo đầu ra (TPOT) hoặc tốc độ mã thông báo được gửi đến người dùng.
Điểm chuẩn Llama 2 70B Interactive mới có TPOT ngắn hơn 5 lần và TTFT thấp hơn 4,4 lần — mô hình hóa trải nghiệm người dùng phản hồi nhanh hơn. Trong bài kiểm tra này, NVIDIA đã sử dụng hệ thống NVIDIA DGX B200 với tám GPU Blackwell, hiệu suất tăng gấp ba lần so với khi sử dụng tám GPU NVIDIA H200, thiết lập một chuẩn mực cao cho phiên bản thử thách hơn này của chuẩn mực Llama 2 70B.
Kết hợp kiến trúc Blackwell và ngăn xếp phần mềm được tối ưu hóa của nó mang lại hiệu suất suy luận ở cấp độ mới, mở đường cho các nhà máy AI cung cấp trí thông minh cao hơn, thông lượng tăng lên và tốc độ mã thông báo nhanh hơn.
qua NVIDIA
Với những điều đã nói, chúng ta bắt đầu bằng cách nói về Green Giant, người đã một lần nữa dẫn đầu và đạt được những kỷ lục ấn tượng với các GPU Blackwell mới nhất của mình như B200. Giá đỡ GB200 NVL72 với tổng cộng 72 chip B200 dẫn đầu, cung cấp thông lượng hiệu suất cao hơn 30 lần tại điểm chuẩn Llama 3.1 405B so với NVIDIA H200 thế hệ trước. NVIDIA cũng chứng kiến sự tăng gấp ba lần trong điểm chuẩn Llama 70B khi so sánh hệ thống B200 8 GPU với hệ thống H200 8 GPU.
AMD cũng đang trình làng bộ tăng tốc Instinct MI325X 256 GB mới nhất của mình, có thể thấy ở cấu hình x8.
Kết quả của AMD đưa chúng ngang bằng với hệ thống H200 và dung lượng bộ nhớ lớn hơn chắc chắn sẽ giúp ích cho các LLM lớn mặc dù chúng vẫn còn kém xa Blackwell B200; với nền tảng Ultra sẽ ra mắt vào cuối năm nay dưới dạng B300, AMD sẽ phải duy trì tốc độ ở cả phân khúc phần cứng và phần mềm. Họ có dòng Instinct MI350.
Cũng có các điểm chuẩn cho dòng Hopper H200, đã được tối ưu hóa liên tục. So với chỉ năm ngoái, hiệu suất suy luận đã tăng 50 phần trăm, đây là một bước tiến đáng kể đối với các công ty vẫn đang dựa vào nền tảng này.
NVIDIA Blackwell B200, AMD Instinct MI325X & More được thêm vào Điểm chuẩn hiệu suất MLPerf Inference mới nhất, Green Team dẫn trước đối thủ về hiệu suất thô
Điểm chuẩn hiệu suất MLPerf Inference v5.0 đã ra mắt và những gã khổng lồ về GPU đã nộp các kết quả mới nhất của họ được hỗ trợ bởi chip mới nhất của họ. Như chúng ta đã thấy trong quá khứ, không chỉ sức mạnh GPU thô mà cả tối ưu hóa phần mềm và hỗ trợ cho hệ sinh thái AI và khối lượng công việc mới cũng rất quan trọng.NVIDIA Blackwell lập kỷ lục mới
Hệ thống GB200 NVL72 — kết nối 72 GPU NVIDIA Blackwell để hoạt động như một GPU khổng lồ duy nhất — mang lại thông lượng cao hơn tới 30 lần trên chuẩn Llama 3.1 405B so với NVIDIA H200 NVL8 trong vòng này. Thành tích này đạt được thông qua hiệu suất trên mỗi GPU tăng gấp ba lần và miền kết nốiNVIDIA NVLinklớn hơn 9x.Trong khi nhiều công ty chạy chuẩn MLPerf trên phần cứng của họ để đánh giá hiệu suất, chỉ có NVIDIA và các đối tác của họ gửi và công bố kết quả trên chuẩn Llama 3.1 405B.
Việc triển khai suy luận sản xuất thường có các hạn chế về độ trễ đối với hai số liệu chính. Đầu tiên là thời gian đến mã thông báo đầu tiên (TTFT) hoặc thời gian để người dùng bắt đầu thấy phản hồi cho truy vấn được đưa ra chomô hình ngôn ngữ lớn.
Thứ hai là thời gian cho mỗi mã thông báo đầu ra (TPOT) hoặc tốc độ mã thông báo được gửi đến người dùng.

Điểm chuẩn Llama 2 70B Interactive mới có TPOT ngắn hơn 5 lần và TTFT thấp hơn 4,4 lần — mô hình hóa trải nghiệm người dùng phản hồi nhanh hơn. Trong bài kiểm tra này, NVIDIA đã sử dụng hệ thống NVIDIA DGX B200 với tám GPU Blackwell, hiệu suất tăng gấp ba lần so với khi sử dụng tám GPU NVIDIA H200, thiết lập một chuẩn mực cao cho phiên bản thử thách hơn này của chuẩn mực Llama 2 70B.
Kết hợp kiến trúc Blackwell và ngăn xếp phần mềm được tối ưu hóa của nó mang lại hiệu suất suy luận ở cấp độ mới, mở đường cho các nhà máy AI cung cấp trí thông minh cao hơn, thông lượng tăng lên và tốc độ mã thông báo nhanh hơn.
qua NVIDIA
Với những điều đã nói, chúng ta bắt đầu bằng cách nói về Green Giant, người đã một lần nữa dẫn đầu và đạt được những kỷ lục ấn tượng với các GPU Blackwell mới nhất của mình như B200. Giá đỡ GB200 NVL72 với tổng cộng 72 chip B200 dẫn đầu, cung cấp thông lượng hiệu suất cao hơn 30 lần tại điểm chuẩn Llama 3.1 405B so với NVIDIA H200 thế hệ trước. NVIDIA cũng chứng kiến sự tăng gấp ba lần trong điểm chuẩn Llama 70B khi so sánh hệ thống B200 8 GPU với hệ thống H200 8 GPU.
MLPerf Inference (llama2-70b-99)
Ngoại tuyếnMáy chủ0166673333450001666688333510000201666733334500016666883335100002Blackwell B200 180 GB (x8 @ 1000W)9885898443Hopper H200 141 GB (x8 @ 700W)3498833071Instinct MI325X 256 GB (x8 @ 1000W)3392830724Hopper H100 80 GB (x8 @ 700W)3130631106AMD cũng đang trình làng bộ tăng tốc Instinct MI325X 256 GB mới nhất của mình, có thể thấy ở cấu hình x8.
Kết quả của AMD đưa chúng ngang bằng với hệ thống H200 và dung lượng bộ nhớ lớn hơn chắc chắn sẽ giúp ích cho các LLM lớn mặc dù chúng vẫn còn kém xa Blackwell B200; với nền tảng Ultra sẽ ra mắt vào cuối năm nay dưới dạng B300, AMD sẽ phải duy trì tốc độ ở cả phân khúc phần cứng và phần mềm. Họ có dòng Instinct MI350.

MLPerf Inference (stable-diffusion-xl)
Ngoại tuyếnMáy chủ061218243036061218243036Blackwell B200 180 GB (x8 @ 1000W)30.3828.44Hopper H200 141 GB (x8 @ 700W)19.4518.30Hopper H100 80 GB (x8 @ 700W)18.3716.04Instinct MI325X 256 GB (x8 @ 1000W)17.1016.18Cũng có các điểm chuẩn cho dòng Hopper H200, đã được tối ưu hóa liên tục. So với chỉ năm ngoái, hiệu suất suy luận đã tăng 50 phần trăm, đây là một bước tiến đáng kể đối với các công ty vẫn đang dựa vào nền tảng này.