Theo quan niệm thông thường, bạn cần một núi GPU Nvidia với giá khoảng 50.000 đô la một cái để có cơ hội chạy các mô hình AI mới nhất. Nhưng rõ ràng là không phải vậy. EXO Labs (qua Indian Defence Review) tuyên bố đã có được Llama 2 LLM đang chạy trên hộp Windows 98 khoảng năm 1997 nhờ bộ xử lý Pentium II. Hoan hô! Vấn đề là gì? Nó chạy chậm hơn khoảng 20.000 lần so với GPU hiện đại. Haroo.
Rõ ràng là Exo Labs đã mua máy với giá chỉ dưới 120 đô la trên eBay, sau đó có lẽ vấn đề đau đầu nhất là làm sao để các thiết bị ngoại vi hoạt động, với các cổng PS2 cũ và chỉ có một đầu vào USB.
Thật vậy, việc đưa các tệp cần thiết vào máy là một vấn đề đau đầu thực sự. Sau đó, cần phải biên dịch các tệp theo định dạng tương thích với bộ lệnh cũ của Pentium II.
Dù sao thì, với mã và phần cứng đã được sắp xếp, đã đến lúc chạy Llama 2. Theo báo cáo, phiên bản tham số 260K của mô hình đạt được 39,31 mã thông báo mỗi giây trên Pentium II, trong khi phiên bản tham số 15M lớn hơn chỉ đạt 1,03 mã thông báo mỗi giây.
Họ thậm chí còn thử chạy một mô hình dữ liệu một phần bằng cách sử dụng phiên bản tham số một tỷ của Llama 3.2, trả về mức 0,0093 mã thông báo mỗi giây. Để đưa điều đó vào bối cảnh, có những tham chiếu đến mô hình tham số 3.2 một tỷ đạt 40 mã thông báo mỗi giây trên CPU Arm và 200 mã thông báo mỗi giây trên GPU.
Nói cách khác, nó chạy chậm hơn khoảng 20.000 lần trên Pentium II. Nhưng này, nó đang chạy. Sự so sánh không hoàn hảo, có đủ loại biến số về cách thiết lập các mô hình. Nhưng con số 20.000 lần đó có lẽ đưa ra ý tưởng đúng về hiệu suất chênh lệch theo thứ tự độ lớn.
Thật vậy, mặc dù thật ấn tượng khi chạy một LLM hiện đại trên một CPU cũ như vậy, nhưng khoảng cách hiệu suất là lời nhắc nhở rằng tốc độ rất quan trọng. Trên thực tế, nó hơi giống trò chơi 3D.
Nếu biên dịch đúng, chắc chắn bạn có thể chạy Cyberpunk 2077 ở chế độ theo dõi đường dẫn đầy đủ trên Pentium II ở 4K. Nhưng có lẽ bạn sẽ thấy tốc độ khung hình tương tự như hiệu suất 0,0093 token mỗi giây của P II. Đến thời điểm đó, tất cả chỉ là học thuật.
Nhưng có lẽ sẽ rất thú vị khi xem các pixel được hiển thị từng cái một. Mặt khác, việc hoàn thành một lần chạy chuẩn có thể mất nhiều năm. Có lẽ chúng ta sẽ tạm gác lại tất cả những điều đó, bây giờ.
CPU tốt nhất cho chơi game: Chip hàng đầu từ Intel và AMD.
Bo mạch chủ chơi game tốt nhất: Bo mạch phù hợp.
Card đồ họa tốt nhất: Bộ đẩy pixel hoàn hảo của bạn đang chờ.
Tốt nhất SSD dành cho chơi game: Hãy tham gia trò chơi trước.
Rõ ràng là Exo Labs đã mua máy với giá chỉ dưới 120 đô la trên eBay, sau đó có lẽ vấn đề đau đầu nhất là làm sao để các thiết bị ngoại vi hoạt động, với các cổng PS2 cũ và chỉ có một đầu vào USB.
Thật vậy, việc đưa các tệp cần thiết vào máy là một vấn đề đau đầu thực sự. Sau đó, cần phải biên dịch các tệp theo định dạng tương thích với bộ lệnh cũ của Pentium II.
Dù sao thì, với mã và phần cứng đã được sắp xếp, đã đến lúc chạy Llama 2. Theo báo cáo, phiên bản tham số 260K của mô hình đạt được 39,31 mã thông báo mỗi giây trên Pentium II, trong khi phiên bản tham số 15M lớn hơn chỉ đạt 1,03 mã thông báo mỗi giây.
Họ thậm chí còn thử chạy một mô hình dữ liệu một phần bằng cách sử dụng phiên bản tham số một tỷ của Llama 3.2, trả về mức 0,0093 mã thông báo mỗi giây. Để đưa điều đó vào bối cảnh, có những tham chiếu đến mô hình tham số 3.2 một tỷ đạt 40 mã thông báo mỗi giây trên CPU Arm và 200 mã thông báo mỗi giây trên GPU.
Nói cách khác, nó chạy chậm hơn khoảng 20.000 lần trên Pentium II. Nhưng này, nó đang chạy. Sự so sánh không hoàn hảo, có đủ loại biến số về cách thiết lập các mô hình. Nhưng con số 20.000 lần đó có lẽ đưa ra ý tưởng đúng về hiệu suất chênh lệch theo thứ tự độ lớn.
Thật vậy, mặc dù thật ấn tượng khi chạy một LLM hiện đại trên một CPU cũ như vậy, nhưng khoảng cách hiệu suất là lời nhắc nhở rằng tốc độ rất quan trọng. Trên thực tế, nó hơi giống trò chơi 3D.
Nếu biên dịch đúng, chắc chắn bạn có thể chạy Cyberpunk 2077 ở chế độ theo dõi đường dẫn đầy đủ trên Pentium II ở 4K. Nhưng có lẽ bạn sẽ thấy tốc độ khung hình tương tự như hiệu suất 0,0093 token mỗi giây của P II. Đến thời điểm đó, tất cả chỉ là học thuật.
Nhưng có lẽ sẽ rất thú vị khi xem các pixel được hiển thị từng cái một. Mặt khác, việc hoàn thành một lần chạy chuẩn có thể mất nhiều năm. Có lẽ chúng ta sẽ tạm gác lại tất cả những điều đó, bây giờ.

CPU tốt nhất cho chơi game: Chip hàng đầu từ Intel và AMD.
Bo mạch chủ chơi game tốt nhất: Bo mạch phù hợp.
Card đồ họa tốt nhất: Bộ đẩy pixel hoàn hảo của bạn đang chờ.
Tốt nhất SSD dành cho chơi game: Hãy tham gia trò chơi trước.