Áp lực lên AI: Alibaba ra mắt “Qwen3” với kiến trúc MoE

theanh

Administrator
Nhân viên
Trên Codeforces, nó đã được nhắc đến, vượt qua o3-mini của OpenAI và Gemini 2.5 Pro của Google. Thế hệ mô hình trí tuệ nhân tạo mới của Alibaba, được công bố vào thứ Hai, ngày 27 tháng 4, có tên là Qwen3 và phiên bản có số lượng tham số lớn nhất (Qwen-3-235B-A22B) đang đạt đến tầm cao mới. Khi xem xét chi tiết, chúng tôi phát hiện ra rằng nó đã hoạt động tốt hơn về mặt lý luận, trong bài kiểm tra BFCL, công lý mới để phân tích khả năng lý luận của AI về các vấn đề nhất định.

Song song với DeepSeek, Alibaba là lãnh địa hoàn toàn mới trên thị trường AI tạo sinh và một số mô hình Qwen3 của hãng hiện có sẵn trên các nền tảng như Hugging Face và GitHub. Phiên bản lớn hơn vẫn chưa có sẵn nhưng sẽ có theo giấy phép mở. Theo Alibaba, những mẫu xe này là "lai", nghĩa là chúng có thể đáp ứng được nhu cầu về tốc độ. hoặc ưu tiên những lý luận chất lượng. "Chúng tôi đã tích hợp hoàn hảo các chế độ phản chiếu và không phản chiếu, mang đến cho người dùng sự linh hoạt cần thiết", nhóm Alibaba phụ trách Qwen giải thích trong bài đăng trên blog.


Alibaba mở ra Kiến trúc chuyên gia hỗn hợp (MoE) cho AI của mình​

Chi tiết hơn, các mô hình Qwen3 của Alibaba có sẵn bằng 119 ngôn ngữ và đã được đào tạo trên dữ liệu ở quy mô 36 nghìn tỷ mã thông báo. Trước đây, Qwen2 không thể cạnh tranh với các AI hiện có của Mỹ. Với mô hình Qwen3 lớn nhất hiện có, chúng ta có thể tiến gần hơn đến R1 từ phòng thí nghiệm DeepSeek của Trung Quốc. Tháng 1 năm ngoái, Alibaba đã cố gắng cạnh tranh với OpenAI với Qwen2.5-Max, một mô hình tiên tiến có thể so sánh với GPT-4 hoặc thậm chí là Claude-3.5-Sonnet từ Anthropic.

Để tiến xa hơn, Qwen3 đã tích hợp đáng kể một kiến trúc chuyên gia hỗn hợp (MoE), một bước đột phá thực sự trong các mô hình nơ-ron với phương pháp tiếp cận mô-đun và chuyên biệt, phân phối một nhiệm vụ thành một số nhiệm vụ phụ, sau đó sẽ được gửi đến các mô hình chuyên biệt – “chuyên gia” – mỗi loại được thiết kế để xử lý các loại dữ liệu hoặc tác vụ cụ thể.



Nguồn: Tech Crunch
 
Back
Bên trên