Đây là câu chuyện khó tin về một chiếc máy tính 25 tuổi được hồi sinh trong thời đại trí tuệ nhân tạo. Một nhóm các nhà nghiên cứu đã thành công trong việc chạy một mô hình ngôn ngữ lấy cảm hứng từ LLaMA 2 trên một máy tính được trang bị bộ xử lý Pentium II 350 MHz và RAM 128 MB. Hệ điều hành? Rõ ràng là Windows 98.
Mô hình được sử dụng ở đây, có tên là stories260K, rõ ràng không có sức mạnh như ChatGPT, nhưng nó có khả năng tạo văn bản với tốc độ khoảng 39 mã thông báo mỗi giây. Tốc độ khiêm tốn nhưng đủ để chứng minh rằng AI có thể thích ứng với phần cứng cũ của người tiêu dùng.
Dự án công nghệ cổ điển này đòi hỏi nhiều hơn là chỉ tải xuống đơn giản. Để mọi thứ hoạt động được, nhóm đã phải làm việc với những hạn chế của một chiếc PC cũ. Không có cách nào để sử dụng bàn phím USB hiện đại hoặc ổ đĩa flash USB: quay lại với thiết bị PS/2 và FTP cũ để truyền tệp!
Việc biên dịch mã cũng là một cuộc khám phá khảo cổ học. Thoát khỏi trình biên dịch hiện đại: Borland C++ 5.02, phát hành năm 1998, được chọn để điều chỉnh tệp llama2.c, một mã C tối giản. Một số điều chỉnh là cần thiết, chẳng hạn như thay thế các loại máy hiện đại hoặc quản lý đồng hồ hệ thống theo cách thủ công.
Nhóm nghiên cứu đã tóm tắt thành tựu của mình một cách hài hước: "Nếu nó chạy trên PC năm 1998, thì nó có thể chạy ở bất kỳ đâu."
Ngoài thành tựu kỹ thuật, dự án còn có tham vọng lớn hơn: làm cho trí tuệ nhân tạo dễ tiếp cận hơn. Ngày nay, phần lớn các mô hình AI đều chạy trên máy chủ từ xa trong các trung tâm dữ liệu. Một giải pháp tốn kém, tốn nhiều năng lượng, phụ thuộc vào các nền tảng đám mây lớn.
EXO cung cấp một giải pháp thay thế: chạy các mô hình cục bộ, trực tiếp trên phần cứng của người dùng, ngay cả những mô hình khiêm tốn. BitNet là một phần của logic này với cách tiếp cận cực kỳ nhỏ gọn. EXO tuyên bố rằng, nhờ phương pháp này, một mô hình với 100 tỷ tham số về mặt lý thuyết có thể chạy trên một CPU duy nhất, với tốc độ gần bằng tốc độ đọc của con người (5 đến 7 mã thông báo/giây).
Cách tiếp cận này mở ra những khả năng bất ngờ: tích hợp AI vào điện thoại cũ, máy tính bị lãng quên hoặc thậm chí là các thiết bị nhúng không có kết nối cố định với đám mây.
Tiếp theo là gì? EXO hứa hẹn các công cụ mã nguồn mở cho những ai muốn dùng thử trên các máy cũ khác và đang nỗ lực tích hợp các mô hình ba thành phần vào các lĩnh vực chuyên biệt, chẳng hạn như mô hình hóa protein.
Quay lại những điều cơ bản
Để đáp ứng thách thức này, nhóm đã dựa vào một kiến trúc có tên là BitNet. Không giống như các mô hình truyền thống đòi hỏi hàng chục gigabyte bộ nhớ và card đồ họa hiện đại, BitNet dựa trên trọng số ba phần (0, -1, 1), giúp giảm đáng kể kích thước của mô hình. Kết quả: một mô hình với 7 tỷ tham số phù hợp với dung lượng lưu trữ 1,38 GB.Mô hình được sử dụng ở đây, có tên là stories260K, rõ ràng không có sức mạnh như ChatGPT, nhưng nó có khả năng tạo văn bản với tốc độ khoảng 39 mã thông báo mỗi giây. Tốc độ khiêm tốn nhưng đủ để chứng minh rằng AI có thể thích ứng với phần cứng cũ của người tiêu dùng.
Dự án công nghệ cổ điển này đòi hỏi nhiều hơn là chỉ tải xuống đơn giản. Để mọi thứ hoạt động được, nhóm đã phải làm việc với những hạn chế của một chiếc PC cũ. Không có cách nào để sử dụng bàn phím USB hiện đại hoặc ổ đĩa flash USB: quay lại với thiết bị PS/2 và FTP cũ để truyền tệp!
Việc biên dịch mã cũng là một cuộc khám phá khảo cổ học. Thoát khỏi trình biên dịch hiện đại: Borland C++ 5.02, phát hành năm 1998, được chọn để điều chỉnh tệp llama2.c, một mã C tối giản. Một số điều chỉnh là cần thiết, chẳng hạn như thay thế các loại máy hiện đại hoặc quản lý đồng hồ hệ thống theo cách thủ công.
Nhóm nghiên cứu đã tóm tắt thành tựu của mình một cách hài hước: "Nếu nó chạy trên PC năm 1998, thì nó có thể chạy ở bất kỳ đâu."
Ngoài thành tựu kỹ thuật, dự án còn có tham vọng lớn hơn: làm cho trí tuệ nhân tạo dễ tiếp cận hơn. Ngày nay, phần lớn các mô hình AI đều chạy trên máy chủ từ xa trong các trung tâm dữ liệu. Một giải pháp tốn kém, tốn nhiều năng lượng, phụ thuộc vào các nền tảng đám mây lớn.
EXO cung cấp một giải pháp thay thế: chạy các mô hình cục bộ, trực tiếp trên phần cứng của người dùng, ngay cả những mô hình khiêm tốn. BitNet là một phần của logic này với cách tiếp cận cực kỳ nhỏ gọn. EXO tuyên bố rằng, nhờ phương pháp này, một mô hình với 100 tỷ tham số về mặt lý thuyết có thể chạy trên một CPU duy nhất, với tốc độ gần bằng tốc độ đọc của con người (5 đến 7 mã thông báo/giây).
Cách tiếp cận này mở ra những khả năng bất ngờ: tích hợp AI vào điện thoại cũ, máy tính bị lãng quên hoặc thậm chí là các thiết bị nhúng không có kết nối cố định với đám mây.
Tiếp theo là gì? EXO hứa hẹn các công cụ mã nguồn mở cho những ai muốn dùng thử trên các máy cũ khác và đang nỗ lực tích hợp các mô hình ba thành phần vào các lĩnh vực chuyên biệt, chẳng hạn như mô hình hóa protein.