NVIDIA đã tiết lộ rằng họ đã phá vỡ được rào cản hiệu suất AI với kiến trúc Blackwell của mình, được ghi nhận là nhờ một loạt các tối ưu hóa và sức mạnh phần cứng.
Với cấu hình này, NVIDIA hiện có thể đạt tới 72.000 TPS trong máy chủ Blackwell và như Jensen đã nói trong bài phát biểu quan trọng tại Computex, các công ty hiện sẽ phô trương tiến trình AI của mình bằng cách cho thấy họ đã tiến xa đến mức nào với đầu ra mã thông báo thông qua phần cứng của mình và có vẻ như NVIDIA hoàn toàn tập trung vào khía cạnh này. Về cách công ty này quản lý để phá vỡ rào cản TP/s, người ta tiết lộ rằng họ đã sử dụng các tối ưu hóa phần mềm mở rộng bằng cách sử dụng TensorRT-LLM và một mô hình bản nháp giải mã suy đoán, mang lại tốc độ tăng gấp 4 lần về hiệu suất.
Trong bài đăng của mình, Nhóm Green đã đi sâu vào một số khía cạnh về cách họ quản lý để tối ưu hóa Blackwell cho LLM quy mô lớn, nhưng một trong những vai trò quan trọng hơn là giải mã suy đoán, đây là một kỹ thuật trong đó một mô hình "bản nháp" nhỏ hơn, nhanh hơn dự đoán trước một số mã thông báo và mô hình chính (lớn hơn) xác minh chúng song song. NVIDIA mô tả nó như sau:
NVIDIA tiếp tục tối ưu hóa Blackwell cho LLM quy mô lớn, thúc đẩy cuộc đua về tốc độ "Thế hệ mã thông báo"
Team Green đã có những bước tiến trong phân khúc AI trong một thời gian khá dài, nhưng công ty này gần đây đã tăng tốc thông qua các giải pháp hỗ trợ Blackwell của mình. Trong bài đăng trên blog mới, NVIDIA tiết lộ rằng họ đã đạt được 1.000 TPS, điều này cũng đúng với một nút DGX B200 duy nhất có tám GPU NVIDIA Blackwell. Điều này đã được thực hiện trên mô hình Llama 4 Maverick với 400 tỷ tham số của Meta, một trong những sản phẩm lớn nhất của công ty và điều này cho thấy hệ sinh thái AI của NVIDIA đã tạo ra tác động lớn đến phân khúc này.
Với cấu hình này, NVIDIA hiện có thể đạt tới 72.000 TPS trong máy chủ Blackwell và như Jensen đã nói trong bài phát biểu quan trọng tại Computex, các công ty hiện sẽ phô trương tiến trình AI của mình bằng cách cho thấy họ đã tiến xa đến mức nào với đầu ra mã thông báo thông qua phần cứng của mình và có vẻ như NVIDIA hoàn toàn tập trung vào khía cạnh này. Về cách công ty này quản lý để phá vỡ rào cản TP/s, người ta tiết lộ rằng họ đã sử dụng các tối ưu hóa phần mềm mở rộng bằng cách sử dụng TensorRT-LLM và một mô hình bản nháp giải mã suy đoán, mang lại tốc độ tăng gấp 4 lần về hiệu suất.
Trong bài đăng của mình, Nhóm Green đã đi sâu vào một số khía cạnh về cách họ quản lý để tối ưu hóa Blackwell cho LLM quy mô lớn, nhưng một trong những vai trò quan trọng hơn là giải mã suy đoán, đây là một kỹ thuật trong đó một mô hình "bản nháp" nhỏ hơn, nhanh hơn dự đoán trước một số mã thông báo và mô hình chính (lớn hơn) xác minh chúng song song. NVIDIA mô tả nó như sau:
Công ty đã sử dụng kiến trúc dựa trên EAGLE3, đây là kiến trúc cấp phần mềm nhằm mục đích tăng tốc suy luận mô hình ngôn ngữ lớn thay vì kiến trúc phần cứng GPU. NVIDIA cho biết với thành tựu này, họ đã thể hiện vị thế dẫn đầu trong phân khúc AI và Blackwell hiện được tối ưu hóa cho LLM lớn như Llama 4 Maverick. Đây chắc chắn là một thành tựu to lớn và là một trong những bước đầu tiên hướng tới việc làm cho các tương tác AI liền mạch và nhanh hơn.Giải mã suy đoán là một kỹ thuật phổ biến được sử dụng để tăng tốc độ suy luận của LLM mà không ảnh hưởng đến chất lượng của văn bản được tạo ra. Nó đạt được mục tiêu này bằng cách có một mô hình "bản nháp" nhỏ hơn, nhanh hơn dự đoán một chuỗi các mã thông báo suy đoán, sau đó được xác minh song song bởi LLM "mục tiêu" lớn hơn.
Tốc độ tăng lên đến từ việc tạo ra nhiều mã thông báo tiềm năng trong một lần lặp lại mô hình mục tiêu với chi phí bổ sung cho mô hình bản nháp.
- NVIDIA