Các nhà nghiên cứu của Microsoft tuyên bố có Mô hình ngôn ngữ lớn (LLM) ở mức 1 bit, hay "bitnet", là mô hình mạnh nhất hiện nay. Được gọi là BitNet b1.58 2B4T, nó hiệu quả đến mức có thể chạy trên CPU.
Tất cả các mô hình AI đều được xây dựng xung quanh một tập hợp các trọng số và độ lệch, các giá trị số xác định tầm quan trọng của các kết nối giữa các nơ-ron ảo khác nhau tạo nên mạng lưới. Các giá trị này được lưu trữ dưới dạng số ở dạng dấu phẩy động (hay float theo thuật ngữ lập trình) có số chữ số thập phân và do đó độ chính xác phụ thuộc vào số bit được phân bổ cho nó. Trọng số được mã hóa trong một số thực à Ví dụ, 16 bit sẽ chính xác hơn đáng kể so với trọng số 8 bit.
Điều này có thể tạo ra sự khác biệt đáng kể trong quá trình suy luận — các hoạt động mà thông qua đó mô hình AI hiện có được đào tạo sẽ đưa ra dự đoán từ dữ liệu mới. Giá trị trọng số càng chính xác thì về mặt lý thuyết, mô hình càng có thể đạt được những kết luận nhất quán và định tính. Nhưng có một nhược điểm: các thông số này càng chính xác thì sức mạnh tính toán càng lớn và lượng bộ nhớ cần thiết để xử lý chúng càng tăng.
Điều này thúc đẩy các nhà phát triển đưa ra lựa chọn rõ ràng: chúng ta nên ưu tiên hiệu suất thô hay hiệu quả? Các LLM tiên tiến như GPT thường lựa chọn tham số ở mức 16 hoặc 32 bit và do đó ưu tiên hiệu suất hơn là các tài nguyên cần thiết. Nhưng cũng có một loại mô hình khác, được gọi là bitnet, trong đó số bit được phân bổ cho mỗi tham số được giảm xuống mức tối thiểu để ưu tiên hiệu quả. Về bản chất, đây là các LLM nén trong đó mỗi trọng số được mã hóa thành một bit duy nhất. Thay vì làm việc với các giá trị sắc thái, như 1.0494098344, họ giải quyết bằng ba biến thể: -1, 0 và 1.
Chắc chắn, nó còn lâu mới có thể cạnh tranh được với GPT của OpenAI, phiên bản mới nhất của nó sử dụng khoảng 1.750 tỷ tham số trên 16 bit. Nhưng các nhà nghiên cứu của Microsoft khẳng định rằng nó vượt trội hơn Llama 3.2 1B của Meta, Gemma 3 1B của Google và Qwen 2.5 1.5B của Alibaba trên một số điểm chuẩn phổ biến.
Và lợi ích của nó không chỉ giới hạn ở hiệu suất thô. Nó cũng nhanh hơn tất cả các mẫu khác có cùng kích thước và cần ít bộ nhớ hơn rất nhiều. Trên thực tế, nó hiệu quả đến mức có thể chạy trên một CPU duy nhất. Điều này có vẻ tầm thường, nhưng lại là sự khác biệt rất lớn so với GPT và các công nghệ khác, sử dụng số lượng lớn GPU để thực hiện nhiều hoạt động song song.
Nhưng đây vẫn là tiến bộ đáng kể và sẽ rất thú vị khi xem các công ty có thể đẩy hiệu suất của các mô hình nhỏ này trong tương lai xa đến mức nào.
Tất cả các mô hình AI đều được xây dựng xung quanh một tập hợp các trọng số và độ lệch, các giá trị số xác định tầm quan trọng của các kết nối giữa các nơ-ron ảo khác nhau tạo nên mạng lưới. Các giá trị này được lưu trữ dưới dạng số ở dạng dấu phẩy động (hay float theo thuật ngữ lập trình) có số chữ số thập phân và do đó độ chính xác phụ thuộc vào số bit được phân bổ cho nó. Trọng số được mã hóa trong một số thực à Ví dụ, 16 bit sẽ chính xác hơn đáng kể so với trọng số 8 bit.
Điều này có thể tạo ra sự khác biệt đáng kể trong quá trình suy luận — các hoạt động mà thông qua đó mô hình AI hiện có được đào tạo sẽ đưa ra dự đoán từ dữ liệu mới. Giá trị trọng số càng chính xác thì về mặt lý thuyết, mô hình càng có thể đạt được những kết luận nhất quán và định tính. Nhưng có một nhược điểm: các thông số này càng chính xác thì sức mạnh tính toán càng lớn và lượng bộ nhớ cần thiết để xử lý chúng càng tăng.
Điều này thúc đẩy các nhà phát triển đưa ra lựa chọn rõ ràng: chúng ta nên ưu tiên hiệu suất thô hay hiệu quả? Các LLM tiên tiến như GPT thường lựa chọn tham số ở mức 16 hoặc 32 bit và do đó ưu tiên hiệu suất hơn là các tài nguyên cần thiết. Nhưng cũng có một loại mô hình khác, được gọi là bitnet, trong đó số bit được phân bổ cho mỗi tham số được giảm xuống mức tối thiểu để ưu tiên hiệu quả. Về bản chất, đây là các LLM nén trong đó mỗi trọng số được mã hóa thành một bit duy nhất. Thay vì làm việc với các giá trị sắc thái, như 1.0494098344, họ giải quyết bằng ba biến thể: -1, 0 và 1.
Cuối cùng là một bitnet hiệu suất cao
Theo truyền thống, các công ty AI lớn thường bỏ qua các bitnet này vì cho rằng chúng hoạt động kém hiệu quả so với các tiêu chuẩn của ngành. Nhưng hiện nay Microsoft tuyên bố đã thay đổi thỏa thuận với BitNet b1.58 2B4T, có khoảng 2 tỷ tham số thành 1 bit. Có vẻ như nó mang lại hiệu suất toàn diện. đáng kính trọng, và thậm chí rất ấn tượng khi người ta xem xét những giới hạn vốn có trong loại mô hình này.Chắc chắn, nó còn lâu mới có thể cạnh tranh được với GPT của OpenAI, phiên bản mới nhất của nó sử dụng khoảng 1.750 tỷ tham số trên 16 bit. Nhưng các nhà nghiên cứu của Microsoft khẳng định rằng nó vượt trội hơn Llama 3.2 1B của Meta, Gemma 3 1B của Google và Qwen 2.5 1.5B của Alibaba trên một số điểm chuẩn phổ biến.
Và lợi ích của nó không chỉ giới hạn ở hiệu suất thô. Nó cũng nhanh hơn tất cả các mẫu khác có cùng kích thước và cần ít bộ nhớ hơn rất nhiều. Trên thực tế, nó hiệu quả đến mức có thể chạy trên một CPU duy nhất. Điều này có vẻ tầm thường, nhưng lại là sự khác biệt rất lớn so với GPT và các công nghệ khác, sử dụng số lượng lớn GPU để thực hiện nhiều hoạt động song song.
Một sản phẩm chưa hoàn thiện nhưng đầy hứa hẹn
Tuy nhiên, vẫn có một nhược điểm: khả năng tương thích. Trên trang HuggingFace où Mô hình được cập nhật, Microsoft khẳng định cần phải có phần cứng chuyên dụng và được tối ưu hóa cao để khai thác hiệu suất của bitnet này. Nói cách khác, vẫn còn nhiều trở ngại đối với quá trình dân chủ hóa các LLM nén này.Nhưng đây vẫn là tiến bộ đáng kể và sẽ rất thú vị khi xem các công ty có thể đẩy hiệu suất của các mô hình nhỏ này trong tương lai xa đến mức nào.