Một video lan truyền gần đây được Forbes phát hiện, trong đó mô tả hai mô hình AI trò chuyện bằng "ngôn ngữ" mà con người không thể hiểu được, đang làm dấy lên một số cuộc thảo luận khá hấp dẫn: sau đây là tổng quan nhanh về kịch bản cực kỳ khó hiểu này và có khả năng sẽ trở nên phổ biến hơn nhiều trong tương lai.
Ngày nay, khả năng của các thế hệ mô hình ngôn ngữ lớn đa phương thức (LLM) mới nhất, như ChatGPT, đã vượt xa khả năng tạo văn bản đơn giản. Các tác nhân đàm thoại này hiện có thể giao tiếp bằng lời nói nhờ sự kết hợp giữa công nghệ chuyển văn bản thành giọng nói để tổng hợp giọng nói và công nghệ chuyển giọng nói thành văn bản để hiểu.
Dựa trên các khả năng mới này, ngành công nghiệp đã bắt đầu hình dung về một tương lai mà các chatbot này có thể trở thành trợ lý cá nhân thực sự. Ví dụ, các công ty lớn trong ngành đều đang thiết kế các hệ thống có khả năng liên hệ trực tiếp với khách sạn, nhà hàng hoặc nhà bán lẻ để đặt chỗ hoặc đặt hàng. Nhưng cũng có trường hợp ngược lại. Trong một thời gian, ngày càng nhiều công ty áp dụng các hệ thống dựa trên AI để tương tác với khách hàng, để nhân viên có thể tập trung vào các nhiệm vụ ít tầm thường hoặc nhạy cảm hơn.
Với ý tưởng này, hai nhà phát triển Boris Starkov và Anton Pidkuiko đã thiết kế một chương trình nguồn mở có tên là Gibberlink. Đúng như tên gọi, bắt nguồn từ các từ tiếng Anh "gibberish" và "link", đây là một hệ thống cho phép hai mô hình AI giao tiếp bằng một loại ngôn ngữ mới mà con người hoàn toàn không thể hiểu được. Thay vì ngôn ngữ thông thường, họ sử dụng một loạt âm thanh nghe hơi giống âm thanh của một chiếc modem cũ, hoặc thậm chí là âm thanh của chú robot R2-D2 nổi tiếng trong loạt phim Chiến tranh giữa các vì sao.
Hai người bạn đã trình bày hệ thống của họ tại một hội nghị do ElevenLabs tổ chức tại London, đây là một công ty đã khẳng định được vị thế của mình khi sử dụng AI để lồng tiếng cho các diễn viên nổi tiếng. Video về cuộc trao đổi giữa các AI này lan truyền với tốc độ chóng mặt trên web, thu hút hàng triệu lượt xem chỉ trong vài ngày. Và bạn không cần phải tìm đâu xa để hiểu lý do tại sao.
Nhưng nếu chuỗi sự kiện này có tác động lớn đến con người, thì trên hết là vì việc bị loại khỏi cuộc thảo luận sẽ tạo ra những cảm xúc mâu thuẫn, giữa sự thích thú và lo lắng. Việc chứng kiến các hệ thống ảo tương tác mà chúng ta không hiểu một từ nào được nói ra đặt ra nhiều câu hỏi khó chịu về chủ đề minh bạch và kiểm soát. Sự liên kết: thách thức thực sự của AI tạo sinh Điều này đặc biệt nổi bật trong bối cảnh hiện tại, với sự xuất hiện ngày càng nhiều của các tác nhân AI có tính tự chủ. Những điều này đòi hỏi phải triển khai các cơ chế kiểm soát chặt chẽ để đánh giá cái mà ngành công nghiệp gọi là sự phù hợp—liệu các hệ thống này có hoạt động theo đúng kỳ vọng và tiêu chuẩn của người tạo ra chúng hay không. Ngày nay, việc kiểm soát sự liên kết này không hề dễ dàng vì cái mà người ta thường gọi là "hộp đen của AI".
Với FunSearch, DeepMind đang bắt đầu mở "hộp đen" của AI
Vấn đề với các thuật toán dựa trên máy học này là ngay cả khi bạn biết dữ liệu mình đang đưa vào và nhận được kết quả dễ hiểu thì toàn bộ quá trình diễn ra ở giữa thường quá trừu tượng để não người có thể hiểu được. Với các hệ thống như Gibberlink, chúng tôi thêm một lớp trừu tượng mới khiến cho các mô hình này thậm chí còn ít giá cả phải chăng hơn. Do đó, điều này có xu hướng củng cố nỗi lo sợ rằng một hệ thống dựa trên AI một ngày nào đó có thể kiểm soát các hệ thống quan trọng mà không được phép, với hậu quả có thể gây ra thảm khốc cho nhân loại.
Liệu những nỗi lo sợ này có cơ sở không? Thật khó để nói ở thời điểm này - nhưng trong mọi trường hợp, Gibberlink khó có thể là giải pháp thay đổi cuộc chơi trong vấn đề này. Chỉ vì các mô hình đột nhiên có thể giao tiếp như R2-D2 không có nghĩa là một loại Skynet nào đó sẽ xuất hiện chỉ sau một đêm, hoàn toàn không phải vậy.
Mặt khác, Gibberlink minh họa một cách hoàn hảo tầm quan trọng của việc đảm bảo các mô hình AI được căn chỉnh theo cách này hay cách khác. Mục đích của công nghệ này vẫn là phục vụ nhân loại và sẽ rất thú vị khi xem các kỹ sư sẽ đảm bảo công nghệ này tiếp tục làm như vậy như thế nào trong khi tối ưu hóa các hệ thống này thông qua các phương pháp như thế này.
Ngày nay, khả năng của các thế hệ mô hình ngôn ngữ lớn đa phương thức (LLM) mới nhất, như ChatGPT, đã vượt xa khả năng tạo văn bản đơn giản. Các tác nhân đàm thoại này hiện có thể giao tiếp bằng lời nói nhờ sự kết hợp giữa công nghệ chuyển văn bản thành giọng nói để tổng hợp giọng nói và công nghệ chuyển giọng nói thành văn bản để hiểu.
Dựa trên các khả năng mới này, ngành công nghiệp đã bắt đầu hình dung về một tương lai mà các chatbot này có thể trở thành trợ lý cá nhân thực sự. Ví dụ, các công ty lớn trong ngành đều đang thiết kế các hệ thống có khả năng liên hệ trực tiếp với khách sạn, nhà hàng hoặc nhà bán lẻ để đặt chỗ hoặc đặt hàng. Nhưng cũng có trường hợp ngược lại. Trong một thời gian, ngày càng nhiều công ty áp dụng các hệ thống dựa trên AI để tương tác với khách hàng, để nhân viên có thể tập trung vào các nhiệm vụ ít tầm thường hoặc nhạy cảm hơn.
Gibberlink, một "ngôn ngữ" mới cho AI
Do đó, có vẻ như tương tác giữa AI sẽ trở nên ngày càng thường xuyên hơn và một số nhà phát triển đã bắt đầu tìm kiếm các phương pháp tiếp cận mới để hợp lý hóa các trao đổi này. Suy cho cùng, thực tế là các hệ thống này giao tiếp bằng tiếng Anh, tiếng Pháp hoặc thứ tiếng nào khác chỉ có ý nghĩa khi chúng giao tiếp với con người; Vậy tại sao họ lại phải bận tâm đến lớp phức tạp hoàn toàn không cần thiết này khi nói đến việc khiến một mô hình AI khác hiểu được mình?Với ý tưởng này, hai nhà phát triển Boris Starkov và Anton Pidkuiko đã thiết kế một chương trình nguồn mở có tên là Gibberlink. Đúng như tên gọi, bắt nguồn từ các từ tiếng Anh "gibberish" và "link", đây là một hệ thống cho phép hai mô hình AI giao tiếp bằng một loại ngôn ngữ mới mà con người hoàn toàn không thể hiểu được. Thay vì ngôn ngữ thông thường, họ sử dụng một loạt âm thanh nghe hơi giống âm thanh của một chiếc modem cũ, hoặc thậm chí là âm thanh của chú robot R2-D2 nổi tiếng trong loạt phim Chiến tranh giữa các vì sao.
Hai người bạn đã trình bày hệ thống của họ tại một hội nghị do ElevenLabs tổ chức tại London, đây là một công ty đã khẳng định được vị thế của mình khi sử dụng AI để lồng tiếng cho các diễn viên nổi tiếng. Video về cuộc trao đổi giữa các AI này lan truyền với tốc độ chóng mặt trên web, thu hút hàng triệu lượt xem chỉ trong vài ngày. Và bạn không cần phải tìm đâu xa để hiểu lý do tại sao.
Giữa sự thích thú và sự thất vọng
Một mặt, công nghệ này đại diện cho một giá trị gia tăng thực sự. Bằng cách loại bỏ lớp trừu tượng mà ngôn ngữ con người đại diện, hai mô hình có thể giao tiếp hiệu quả hơn nhiều. Ngoài việc hạn chế nguy cơ hiểu sai, điều này còn giúp giảm thời lượng tương tác và theo đó là giảm nhu cầu về sức mạnh tính toán và năng lượng - hai điểm đặc biệt quan trọng đối với tương lai của ngành công nghiệp này.Nhưng nếu chuỗi sự kiện này có tác động lớn đến con người, thì trên hết là vì việc bị loại khỏi cuộc thảo luận sẽ tạo ra những cảm xúc mâu thuẫn, giữa sự thích thú và lo lắng. Việc chứng kiến các hệ thống ảo tương tác mà chúng ta không hiểu một từ nào được nói ra đặt ra nhiều câu hỏi khó chịu về chủ đề minh bạch và kiểm soát. Sự liên kết: thách thức thực sự của AI tạo sinh Điều này đặc biệt nổi bật trong bối cảnh hiện tại, với sự xuất hiện ngày càng nhiều của các tác nhân AI có tính tự chủ. Những điều này đòi hỏi phải triển khai các cơ chế kiểm soát chặt chẽ để đánh giá cái mà ngành công nghiệp gọi là sự phù hợp—liệu các hệ thống này có hoạt động theo đúng kỳ vọng và tiêu chuẩn của người tạo ra chúng hay không. Ngày nay, việc kiểm soát sự liên kết này không hề dễ dàng vì cái mà người ta thường gọi là "hộp đen của AI".
Với FunSearch, DeepMind đang bắt đầu mở "hộp đen" của AI
Vấn đề với các thuật toán dựa trên máy học này là ngay cả khi bạn biết dữ liệu mình đang đưa vào và nhận được kết quả dễ hiểu thì toàn bộ quá trình diễn ra ở giữa thường quá trừu tượng để não người có thể hiểu được. Với các hệ thống như Gibberlink, chúng tôi thêm một lớp trừu tượng mới khiến cho các mô hình này thậm chí còn ít giá cả phải chăng hơn. Do đó, điều này có xu hướng củng cố nỗi lo sợ rằng một hệ thống dựa trên AI một ngày nào đó có thể kiểm soát các hệ thống quan trọng mà không được phép, với hậu quả có thể gây ra thảm khốc cho nhân loại.
Liệu những nỗi lo sợ này có cơ sở không? Thật khó để nói ở thời điểm này - nhưng trong mọi trường hợp, Gibberlink khó có thể là giải pháp thay đổi cuộc chơi trong vấn đề này. Chỉ vì các mô hình đột nhiên có thể giao tiếp như R2-D2 không có nghĩa là một loại Skynet nào đó sẽ xuất hiện chỉ sau một đêm, hoàn toàn không phải vậy.
Mặt khác, Gibberlink minh họa một cách hoàn hảo tầm quan trọng của việc đảm bảo các mô hình AI được căn chỉnh theo cách này hay cách khác. Mục đích của công nghệ này vẫn là phục vụ nhân loại và sẽ rất thú vị khi xem các kỹ sư sẽ đảm bảo công nghệ này tiếp tục làm như vậy như thế nào trong khi tối ưu hóa các hệ thống này thông qua các phương pháp như thế này.