Sesame, một công ty khởi nghiệp có trụ sở tại San Francisco, vừa công bố công nghệ giọng nói nhân tạo có độ chân thực chưa từng có. Sự tiến bộ trong trí tuệ nhân tạo (AI) này đang tạo ra cả sự phấn khích và lo ngại trong số những người dùng đầu tiên, với một số báo cáo rằng họ cảm thấy "bị làm phiền" trong quá trình tương tác với hệ thống.
Vào ngày 27 tháng 2 năm 2025, Sesame đã trình bày Mô hình giọng nói hội thoại của mình, kết quả của quá trình đào tạo trên gần một triệu giờ dữ liệu âm thanh tiếng Anh. Hai nhân vật AI, Maya và Miles, hiện đã có thể được công khai để trình diễn thông qua blog nghiên cứu của công ty. Công nghệ này hướng đến mục tiêu mà Sesame gọi là "sự hiện diện của giọng nói", một chất lượng giọng nói tự nhiên đến mức không thể phân biệt được với giọng nói của con người.
Được sáng lập bởi Brendan Iribe, đồng sáng lập Oculus, Sesame đã tập trung nỗ lực vào bốn khía cạnh chính: trí tuệ cảm xúc, động lực đàm thoại, nhận thức theo ngữ cảnh và tính nhất quán của tính cách. Mục tiêu là tạo ra các tương tác bằng giọng nói với máy tính một cách tự nhiên và trôi chảy như với con người.
Đọc thêm – AI này có thể bắt chước giọng nói của bạn Chỉ sau vài giây ghi âm, thật đáng sợ
Sesame có kế hoạch kết hợp công nghệ giọng nói này với kính AI nhẹ, cung cấp "quyền truy cập thuận tiện vào người bạn đồng hành có khả năng quan sát thế giới bên cạnh bạn". Triển vọng này đặt ra câu hỏi về quyền riêng tư và tính phổ biến của AI trong cuộc sống hàng ngày của chúng ta.
Các ứng dụng tiềm năng của công nghệ này rất lớn, từ việc cải thiện các trung tâm cuộc gọi đến việc học ngôn ngữ. Sesame có kế hoạch mở rộng hỗ trợ cho hơn 20 ngôn ngữ và mở nguồn một số thành phần chính theo giấy phép Apache 2.0. Bước đột phá của Sesame cho thấy rằng các giao diện lấy giọng nói làm trung tâm có thể định hình làn sóng tương tác giữa con người và máy tính tiếp theo, dù tốt hay xấu.

Vào ngày 27 tháng 2 năm 2025, Sesame đã trình bày Mô hình giọng nói hội thoại của mình, kết quả của quá trình đào tạo trên gần một triệu giờ dữ liệu âm thanh tiếng Anh. Hai nhân vật AI, Maya và Miles, hiện đã có thể được công khai để trình diễn thông qua blog nghiên cứu của công ty. Công nghệ này hướng đến mục tiêu mà Sesame gọi là "sự hiện diện của giọng nói", một chất lượng giọng nói tự nhiên đến mức không thể phân biệt được với giọng nói của con người.
Được sáng lập bởi Brendan Iribe, đồng sáng lập Oculus, Sesame đã tập trung nỗ lực vào bốn khía cạnh chính: trí tuệ cảm xúc, động lực đàm thoại, nhận thức theo ngữ cảnh và tính nhất quán của tính cách. Mục tiêu là tạo ra các tương tác bằng giọng nói với máy tính một cách tự nhiên và trôi chảy như với con người.
Đọc thêm – AI này có thể bắt chước giọng nói của bạn Chỉ sau vài giây ghi âm, thật đáng sợ
Phản ứng trái chiều về sự đổi mới này
Phản ứng từ người dùng và các chuyên gia trong ngành cũng trái chiều. Sean Hollister của The Verge gọi công nghệ này là "trợ lý giọng nói đầu tiên mà tôi muốn nói chuyện nhiều hơn một lần". Tổng giám đốc điều hành của Shopify, Tobi Lutke đã công khai ca ngợi sự đổi mới này là "hoàn toàn đáng kinh ngạc". Tuy nhiên, một số người dùng, chẳng hạn như Mark Hachman của PCWorld, đã báo cáo rằng họ cảm thấy bất an trước tính chân thực đáng lo ngại của những giọng nói nhân tạo này.Sesame có kế hoạch kết hợp công nghệ giọng nói này với kính AI nhẹ, cung cấp "quyền truy cập thuận tiện vào người bạn đồng hành có khả năng quan sát thế giới bên cạnh bạn". Triển vọng này đặt ra câu hỏi về quyền riêng tư và tính phổ biến của AI trong cuộc sống hàng ngày của chúng ta.
Các ứng dụng tiềm năng của công nghệ này rất lớn, từ việc cải thiện các trung tâm cuộc gọi đến việc học ngôn ngữ. Sesame có kế hoạch mở rộng hỗ trợ cho hơn 20 ngôn ngữ và mở nguồn một số thành phần chính theo giấy phép Apache 2.0. Bước đột phá của Sesame cho thấy rằng các giao diện lấy giọng nói làm trung tâm có thể định hình làn sóng tương tác giữa con người và máy tính tiếp theo, dù tốt hay xấu.