AMD chính thức ra mắt phiên bản tiếp theo của công nghệ ngăn xếp phần mềm mở dưới dạng ROCm 7, giúp tăng tốc hơn nữa năng suất của AI & nhà phát triển.
Với ROCm, AMD cho biết họ đang tập trung nhiều hơn vào các khả năng suy luận đang phát triển trong ngăn xếp phần mềm của mình. Ngăn xếp ROCm 7 sẽ bao gồm các khuôn khổ nâng cao như vLLM v1, llm-d, SGLang và cũng tập trung vào việc phục vụ nhiều tối ưu hóa khác nhau như Suy luận phân tán, Điền trước và Phân tách. Các Kernel và Thuật toán mới sẽ có trong ROCm 7 bao gồm GEMM Autotuning, MoE, Attention và Python-Based Kernel Authoring.
AMD đã công bố hỗ trợ FP6 và FP4 cho dòng MI350 của mình và ROCm 7 cũng bao gồm hỗ trợ đầy đủ cho các kiểu dữ liệu nâng cao này như FP8, FP6, FP4 và Độ chính xác hỗn hợp.
Về hiệu suất, AMD cho biết suy luận là lĩnh vực trọng tâm lớn nhất với ROCm 7, giúp tăng hiệu suất lên tới 3,5 lần trong khối lượng công việc AI. Phân tích hiệu suất nâng cao, chúng ta có thể thấy Llama 3.1 70B tăng tới 3,2 lần, Qwen2-72B tăng 3,4 lần và Deep Seek R1 tăng tới 3,8 lần so với ROCm 6.
Trong DeepSeek R1, AMD cũng so sánh ngăn xếp ROCm 7 chạy trên GPU Instinct MI355X với nền tảng NVIDIA Blackwell B200 chạy CUDA. ROCm 7 đạt hiệu suất thông lượng nhanh hơn 30% trong DeepSeek R1 (Thông lượng FP8) so với CUDA của NVIDIA.
Về hiệu suất đào tạo, ROCm 7 vẫn mang lại sự cải thiện đáng kể so với ROCm 6 với mức cải thiện gấp 3 lần trên Llama 2 70B, Llama 3.1 8B và Quen 1.5 7B.
Bộ phần mềm ROCm mới cũng sẽ được mở rộng sang AI doanh nghiệp với các giải pháp toàn diện từ đầu đến cuối, tích hợp dữ liệu an toàn và dễ triển khai. Bộ phần mềm sẽ hoạt động đồng bộ với GPU, CPU và DPU, đồng thời hỗ trợ nhiều khối lượng công việc khác nhau, tập trung chủ yếu vào khối lượng công việc GenAI.
Cuối cùng, AMD sẽ mở hỗ trợ ROCm trên máy tính xách tay và máy trạm chạy Ryzen vào cuối năm nay, cùng với hỗ trợ Linux tích hợp và Windows đầy đủ vào nửa cuối năm nay.
AMD ra mắt ROCm 7: Thế hệ tiếp theo của những cải tiến phần mềm ngăn xếp mở tập trung vào suy luận AI
Với thông báo về ROCm 7, AMD cuối cùng cũng đã tiến lên từ ngăn xếp phần mềm ROCm 6, vốn đã chứng kiến nhiều bản cập nhật trong vài năm qua và kể từ khi điện toán AI ra đời. Sau đây là một số tính năng chính mà AMD tập trung vào với ROCm 7:- Thuật toán mới nhất & Các mô hình
- Các tính năng nâng cao để mở rộng AI
- Hỗ trợ dòng MI350
- Quản lý cụm
- Khả năng của doanh nghiệp

Với ROCm, AMD cho biết họ đang tập trung nhiều hơn vào các khả năng suy luận đang phát triển trong ngăn xếp phần mềm của mình. Ngăn xếp ROCm 7 sẽ bao gồm các khuôn khổ nâng cao như vLLM v1, llm-d, SGLang và cũng tập trung vào việc phục vụ nhiều tối ưu hóa khác nhau như Suy luận phân tán, Điền trước và Phân tách. Các Kernel và Thuật toán mới sẽ có trong ROCm 7 bao gồm GEMM Autotuning, MoE, Attention và Python-Based Kernel Authoring.

AMD đã công bố hỗ trợ FP6 và FP4 cho dòng MI350 của mình và ROCm 7 cũng bao gồm hỗ trợ đầy đủ cho các kiểu dữ liệu nâng cao này như FP8, FP6, FP4 và Độ chính xác hỗn hợp.
Về hiệu suất, AMD cho biết suy luận là lĩnh vực trọng tâm lớn nhất với ROCm 7, giúp tăng hiệu suất lên tới 3,5 lần trong khối lượng công việc AI. Phân tích hiệu suất nâng cao, chúng ta có thể thấy Llama 3.1 70B tăng tới 3,2 lần, Qwen2-72B tăng 3,4 lần và Deep Seek R1 tăng tới 3,8 lần so với ROCm 6.

Trong DeepSeek R1, AMD cũng so sánh ngăn xếp ROCm 7 chạy trên GPU Instinct MI355X với nền tảng NVIDIA Blackwell B200 chạy CUDA. ROCm 7 đạt hiệu suất thông lượng nhanh hơn 30% trong DeepSeek R1 (Thông lượng FP8) so với CUDA của NVIDIA.

Về hiệu suất đào tạo, ROCm 7 vẫn mang lại sự cải thiện đáng kể so với ROCm 6 với mức cải thiện gấp 3 lần trên Llama 2 70B, Llama 3.1 8B và Quen 1.5 7B.

Bộ phần mềm ROCm mới cũng sẽ được mở rộng sang AI doanh nghiệp với các giải pháp toàn diện từ đầu đến cuối, tích hợp dữ liệu an toàn và dễ triển khai. Bộ phần mềm sẽ hoạt động đồng bộ với GPU, CPU và DPU, đồng thời hỗ trợ nhiều khối lượng công việc khác nhau, tập trung chủ yếu vào khối lượng công việc GenAI.

Cuối cùng, AMD sẽ mở hỗ trợ ROCm trên máy tính xách tay và máy trạm chạy Ryzen vào cuối năm nay, cùng với hỗ trợ Linux tích hợp và Windows đầy đủ vào nửa cuối năm nay.