Trí tuệ nhân tạo đã biết cách phân tích văn bản, tạo hình ảnh và mã hóa toàn bộ chương trình. Nhưng liệu cô ấy có hiểu được cảm giác của chúng ta không? Alibaba muốn biến điều này thành hiện thực. Với R1-Omni, mô hình mới nhất do Tongyi Lab phát triển, gã khổng lồ Trung Quốc đặt mục tiêu tiến xa hơn khả năng nhận dạng khuôn mặt đơn thuần: giải mã cảm xúc của con người từ video.
Mặc dù việc nhận ra cảm xúc không phải là một ý tưởng mới, nhưng từ lâu nó đã thiếu sự tinh tế. Các mô hình thị giác máy tính ban đầu được coi là gần đúng, thậm chí là thiên vị. Nhưng những tiến bộ gần đây trong học sâu và xử lý ngôn ngữ tự nhiên hiện nay giúp có thể tinh chỉnh những phân tích này. Với R1-Omni, Alibaba đang dựa vào một AI tinh vi và đáng tin cậy hơn, có khả năng giải mã các tín hiệu mà con người thường nhận biết mà không cần suy nghĩ.
Nhưng Alibaba không muốn chơi trên cùng một lĩnh vực. Thay vì cải thiện ngôn ngữ, công ty Trung Quốc này lại đặt cược vào cảm xúc. Một cách tấn công vào nơi OpenAI chưa đánh dấu được lãnh thổ. Một lựa chọn chiến lược mạnh mẽ khác: cung cấp quyền truy cập vào mô hình miễn phí. Một chiến thuật nhằm mục đích dân chủ hóa việc sử dụng R1-Omni và đẩy nhanh quá trình áp dụng, bằng cách thu hút các nhà phát triển và công ty mong muốn khai thác công nghệ mới này.
Những thành kiến về thuật toán, vốn đã là vấn đề trong nhận dạng khuôn mặt, do đó có nguy cơ làm sai lệch các phân tích cảm xúc. AI hiệu chỉnh kém có thể đưa ra kết luận sai lầm, có thể gây ra hậu quả nghiêm trọng trong các lĩnh vực nhạy cảm như tuyển dụng, tư pháp hoặc giám sát. Alibaba sẽ phải chứng minh rằng mô hình của mình là đáng tin cậy, minh bạch và có đạo đức, nếu không sẽ có nguy cơ gây mất lòng tin.
Đằng sau lập trường hợp tác này là một tham vọng khác: kiểm soát hướng đi của công nghệ này. Bằng cách đặt nền tảng cho AI cảm xúc có thể truy cập và sửa đổi, Alibaba có thể quyết định các tiêu chuẩn công nghiệp trong tương lai, tương tự như những gì Meta đã làm với Llama hoặc Google đã làm với TensorFlow.
Nhưng sự nhiệt tình phải được kiềm chế bằng sự cảnh giác cao độ. AI càng hiểu được cảm xúc của chúng ta thì chúng càng có thể được khai thác để thuyết phục, thao túng hoặc giám sát. Vấn đề không chỉ là công nghệ: mà còn là xã hội và chính trị. Ai sẽ có quyền truy cập vào dữ liệu này? Ai sẽ kiểm soát các thuật toán này?
AI phải đối mặt với thách thức về cảm xúc: ranh giới vẫn còn mờ nhạt
Việc hiểu video không chỉ giới hạn ở việc xác định đối tượng hoặc nhận dạng khuôn mặt. Alibaba muốn tiêm thêm tính nhân văn vào hoạt động phân tích máy móc. R1-Omni không chỉ diễn giải biểu cảm khuôn mặt: nó còn tham chiếu chéo nhiều tín hiệu thị giác, từ ngôn ngữ cơ thể đến trang phục và môi trường. Mục tiêu là gì? Liên kết từng chi tiết với một trạng thái cảm xúc cụ thể.Mặc dù việc nhận ra cảm xúc không phải là một ý tưởng mới, nhưng từ lâu nó đã thiếu sự tinh tế. Các mô hình thị giác máy tính ban đầu được coi là gần đúng, thậm chí là thiên vị. Nhưng những tiến bộ gần đây trong học sâu và xử lý ngôn ngữ tự nhiên hiện nay giúp có thể tinh chỉnh những phân tích này. Với R1-Omni, Alibaba đang dựa vào một AI tinh vi và đáng tin cậy hơn, có khả năng giải mã các tín hiệu mà con người thường nhận biết mà không cần suy nghĩ.
Alibaba muốn vượt qua OpenAI
Thách thức đối với Alibaba rất rõ ràng: định vị mình là công ty dẫn đầu thế giới về trí tuệ nhân tạo ứng dụng. Việc công bố R1-Omni diễn ra trong bối cảnh cuộc đua đổi mới đang diễn ra, khi OpenAI vừa mới ra mắt GPT-4.5. Một mô hình thậm chí còn mạnh mẽ hơn để diễn giải ngôn ngữ và hiểu các truy vấn của người dùng.Nhưng Alibaba không muốn chơi trên cùng một lĩnh vực. Thay vì cải thiện ngôn ngữ, công ty Trung Quốc này lại đặt cược vào cảm xúc. Một cách tấn công vào nơi OpenAI chưa đánh dấu được lãnh thổ. Một lựa chọn chiến lược mạnh mẽ khác: cung cấp quyền truy cập vào mô hình miễn phí. Một chiến thuật nhằm mục đích dân chủ hóa việc sử dụng R1-Omni và đẩy nhanh quá trình áp dụng, bằng cách thu hút các nhà phát triển và công ty mong muốn khai thác công nghệ mới này.
Một canh bạc mạo hiểm? Đạo đức trong tầm ngắm
Việc cung cấp cho máy móc khả năng phân tích cảm xúc của con người chắc chắn sẽ nảy sinh những câu hỏi nhạy cảm. Ai đảm bảo rằng dữ liệu này sẽ không được sử dụng cho mục đích thương mại hoặc an ninh? Liệu cảm xúc có thực sự có thể được chuẩn hóa không? Sự đa dạng văn hóa đóng vai trò quan trọng trong việc diễn giải biểu cảm khuôn mặt và ngôn ngữ cơ thể. Những gì được coi là cảm xúc ở phương Tây có thể được diễn giải theo cách khác ở Châu Á, Châu Phi hoặc Trung Đông.Những thành kiến về thuật toán, vốn đã là vấn đề trong nhận dạng khuôn mặt, do đó có nguy cơ làm sai lệch các phân tích cảm xúc. AI hiệu chỉnh kém có thể đưa ra kết luận sai lầm, có thể gây ra hậu quả nghiêm trọng trong các lĩnh vực nhạy cảm như tuyển dụng, tư pháp hoặc giám sát. Alibaba sẽ phải chứng minh rằng mô hình của mình là đáng tin cậy, minh bạch và có đạo đức, nếu không sẽ có nguy cơ gây mất lòng tin.
Nguồn mở: một chiến lược mạnh mẽ để thúc đẩy đổi mới
Thay vì bảo vệ mô hình của mình một cách thận trọng, Alibaba đang lựa chọn nguồn mở. Một lựa chọn có thể gây ngạc nhiên, nhưng lại là một phần của chiến lược đã được thiết lập từ lâu: thúc đẩy việc áp dụng rộng rãi và khuyến khích sự đóng góp từ bên ngoài. Bằng cách mở AI cho các nhà phát triển và nhà nghiên cứu, gã khổng lồ Trung Quốc hy vọng sẽ tăng tốc quá trình cải tiến và khẳng định mình là tiêu chuẩn trong lĩnh vực này.Đằng sau lập trường hợp tác này là một tham vọng khác: kiểm soát hướng đi của công nghệ này. Bằng cách đặt nền tảng cho AI cảm xúc có thể truy cập và sửa đổi, Alibaba có thể quyết định các tiêu chuẩn công nghiệp trong tương lai, tương tự như những gì Meta đã làm với Llama hoặc Google đã làm với TensorFlow.
Hướng tới một AI nhân văn hơn… hay một AI xâm phạm hơn?
Nếu Alibaba thành công, tương tác giữa con người và máy móc có thể thay đổi hoàn toàn. Hãy tưởng tượng một chatbot có thể điều chỉnh phản hồi dựa trên tâm trạng của bạn, một trợ lý ảo phát hiện mức độ căng thẳng của bạn và điều chỉnh giọng điệu, hoặc thậm chí là quảng cáo nhắm mục tiêu dựa trên trạng thái cảm xúc của bạn. Một cuộc cách mạng trong các lĩnh vực như dịch vụ khách hàng, chăm sóc sức khỏe và tiếp thị.Nhưng sự nhiệt tình phải được kiềm chế bằng sự cảnh giác cao độ. AI càng hiểu được cảm xúc của chúng ta thì chúng càng có thể được khai thác để thuyết phục, thao túng hoặc giám sát. Vấn đề không chỉ là công nghệ: mà còn là xã hội và chính trị. Ai sẽ có quyền truy cập vào dữ liệu này? Ai sẽ kiểm soát các thuật toán này?