GPT-4.5 và LLaMa-3.1, các mô hình ngôn ngữ chính từ OpenAI và Meta, gần đây đã vượt qua thành công phiên bản cập nhật của Bài kiểm tra Turing nổi tiếng, đo lường khả năng của một mô hình trong việc tự coi mình là con người trong một cuộc trò chuyện văn bản... nhưng hãy cẩn thận với những hiểu lầm.
Phiên bản gốc của bài kiểm tra, được Alan Turing lừng danh đưa ra vào năm 1950, dựa trên sự tương tác giữa một người thẩm vấn là con người, người này đồng thời nói chuyện với hai "nhân chứng"—một cỗ máy và một con người khác. Hai nhân chứng này có cùng một mục tiêu: thuyết phục người đối thoại rằng họ là con người thực sự. Nếu người đánh giá không xác định được máy một cách nhất quán (trong hơn 50% trường hợp), thì có thể coi như máy đã vượt qua bài kiểm tra.
Trong công trình này do Đại học San Diego, Hoa Kỳ, thực hiện, các nhà nghiên cứu đã chọn một phiên bản khác của bài kiểm tra ban đầu. Như thường lệ với các biến thể hiện đại này, các nhà nghiên cứu đã cung cấp cho cả hai mô hình các truy vấn văn bản (hoặc lời nhắc) yêu cầu chúng áp dụng "tính cách" giống con người nhất có thể, bao gồm sử dụng ngôn ngữ khá quen thuộc và kết hợp những gì các nhà nghiên cứu gọi là "tín hiệu xã hội-cảm xúc" nhằm mục đích gây nhầm lẫn vấn đề.
Trong nghiên cứu của họ, được công bố trên máy chủ bản thảo trước ArXiv, các tác giả kết luận rằng cả hai mô hình đều vượt qua bài kiểm tra một cách xuất sắc. LLaMa 3.1 được đánh giá là có sức thuyết phục hơn so với đối thủ là con người trong 56% trường hợp, trong khi GPT-4.5 thậm chí còn đạt được số điểm ấn tượng là 73%.
Điều quan trọng là ngay cả khi các phiên bản hiện đại của Bài kiểm tra Turing mạnh mẽ hơn nhiều so với phiên bản gốc xét về phương pháp luận, thì mục tiêu không bao giờ là so sánh năng lực trí tuệ của mô hình AI và con người. Đây vẫn là một trò chơi mô phỏng có mục tiêu duy nhất là kiểm tra khả năng của những công cụ này trong việc đóng giả thành con người – một sự khác biệt cực kỳ quan trọng trong bối cảnh này. Trên thực tế, vấn đề này liên quan nhiều hơn đến việc kiểm tra mức độ cả tin của con người hơn là khả năng 'trí tuệ' của mô hình.
Điểm này trở nên đặc biệt rõ ràng khi chúng ta loại bỏ những 'lời nhắc cá nhân hóa' nổi tiếng này khỏi phương trình. Ví dụ, nếu không có chúng, điểm số của GPT-4.5 sẽ giảm xuống còn 36%. Điều này một lần nữa chứng minh rằng thành công của ông trong thí nghiệm đầu tiên không phải là dấu hiệu của trí thông minh. Những kết quả này chỉ đơn giản cho thấy rằng, một khi được cấu hình đúng cách, các LLM hiện đại có năng lực cực kỳ cao trong việc trích xuất các dấu hiệu ngôn ngữ của danh tính con người và chắt lọc chúng một cách hiệu quả thành một cuộc trò chuyện.
Cũng cần nhớ rằng đây không phải là lần đầu tiên một mô hình ngôn ngữ lớn có thể đánh lừa người đối thoại ngoài đời thực theo cách này, hoàn toàn không phải vậy. Ví dụ đầu tiên được ghi chép lại (ELIZA, một chatbot thô sơ do các kỹ sư MIT thiết kế), đã đánh lừa được một số người... ngay từ năm 1965!
Điều thú vị nữa là chính ELIZA này vẫn đạt được số điểm 23% trong nghiên cứu mới này, trong khi khả năng 'lý luận' của nó vượt xa khả năng của các LLM hiện đại. Theo các tác giả, điều này là do các cuộc đối thoại do chatbot thời tiền sử này tạo ra không tương ứng với ý tưởng về mô hình AI mà con người ngày nay có. Nói cách khác, điều này một lần nữa cho thấy rằng Bài kiểm tra Turing chủ yếu vẫn là một cách đánh giá con người, chứ không phải là chuẩn mực AI thực sự.
Để xác định liệu một LLM có một ngày nào đó đạt đến giai đoạn trí tuệ nhân tạo nói chung, với khả năng lý luận vượt trội hơn con người hay không, do đó, cần phải phát triển các loại bài kiểm tra mới... và có thể loại trừ loài của chúng ta khỏi phương trình. Thật vậy, có rất ít khả năng chúng ta vẫn có thể đánh giá khách quan tình hình nếu một ngày nào đó chúng ta phải đối mặt với AI siêu phàm như vậy.
Do đó, sẽ rất thú vị khi theo dõi các dự án của các nhà nghiên cứu làm việc trên các chuẩn mực AI. Trong bối cảnh hiện tại, khi nhiều chuyên gia tin rằng trí thông minh nhân tạo tổng quát có thể xuất hiện trong vòng vài năm, họ sẽ phải cực kỳ khéo léo trong việc tìm ra cách đánh giá các mô hình khác nhau trong khi loại trừ sự thiên vị của con người khỏi phương trình, và quá trình đạt được điều này chắc chắn sẽ khá hấp dẫn.
Văn bản nghiên cứu có sẵn tại đây.
Phiên bản gốc của bài kiểm tra, được Alan Turing lừng danh đưa ra vào năm 1950, dựa trên sự tương tác giữa một người thẩm vấn là con người, người này đồng thời nói chuyện với hai "nhân chứng"—một cỗ máy và một con người khác. Hai nhân chứng này có cùng một mục tiêu: thuyết phục người đối thoại rằng họ là con người thực sự. Nếu người đánh giá không xác định được máy một cách nhất quán (trong hơn 50% trường hợp), thì có thể coi như máy đã vượt qua bài kiểm tra.
Trong công trình này do Đại học San Diego, Hoa Kỳ, thực hiện, các nhà nghiên cứu đã chọn một phiên bản khác của bài kiểm tra ban đầu. Như thường lệ với các biến thể hiện đại này, các nhà nghiên cứu đã cung cấp cho cả hai mô hình các truy vấn văn bản (hoặc lời nhắc) yêu cầu chúng áp dụng "tính cách" giống con người nhất có thể, bao gồm sử dụng ngôn ngữ khá quen thuộc và kết hợp những gì các nhà nghiên cứu gọi là "tín hiệu xã hội-cảm xúc" nhằm mục đích gây nhầm lẫn vấn đề.
Trong nghiên cứu của họ, được công bố trên máy chủ bản thảo trước ArXiv, các tác giả kết luận rằng cả hai mô hình đều vượt qua bài kiểm tra một cách xuất sắc. LLaMa 3.1 được đánh giá là có sức thuyết phục hơn so với đối thủ là con người trong 56% trường hợp, trong khi GPT-4.5 thậm chí còn đạt được số điểm ấn tượng là 73%.
Bài kiểm tra Turing kiểm tra con người nhiều hơn là máy móc
Trên mạng xã hội, nhiều người dùng Internet và người sáng tạo nội dung đã nhanh chóng tuyên bố rằng đây là bước ngoặt lớn trong lịch sử của công nghệ này và là dấu hiệu rõ ràng cho thấy chúng ta đang bước vào kỷ nguyên của cái gọi là trí tuệ nhân tạo "tổng quát". Tuy nhiên, đây là một cách giải thích rất giật gân, hoàn toàn không liên quan đến ý nghĩa thực sự của nghiên cứu này.Điều quan trọng là ngay cả khi các phiên bản hiện đại của Bài kiểm tra Turing mạnh mẽ hơn nhiều so với phiên bản gốc xét về phương pháp luận, thì mục tiêu không bao giờ là so sánh năng lực trí tuệ của mô hình AI và con người. Đây vẫn là một trò chơi mô phỏng có mục tiêu duy nhất là kiểm tra khả năng của những công cụ này trong việc đóng giả thành con người – một sự khác biệt cực kỳ quan trọng trong bối cảnh này. Trên thực tế, vấn đề này liên quan nhiều hơn đến việc kiểm tra mức độ cả tin của con người hơn là khả năng 'trí tuệ' của mô hình.
Điểm này trở nên đặc biệt rõ ràng khi chúng ta loại bỏ những 'lời nhắc cá nhân hóa' nổi tiếng này khỏi phương trình. Ví dụ, nếu không có chúng, điểm số của GPT-4.5 sẽ giảm xuống còn 36%. Điều này một lần nữa chứng minh rằng thành công của ông trong thí nghiệm đầu tiên không phải là dấu hiệu của trí thông minh. Những kết quả này chỉ đơn giản cho thấy rằng, một khi được cấu hình đúng cách, các LLM hiện đại có năng lực cực kỳ cao trong việc trích xuất các dấu hiệu ngôn ngữ của danh tính con người và chắt lọc chúng một cách hiệu quả thành một cuộc trò chuyện.
Cũng cần nhớ rằng đây không phải là lần đầu tiên một mô hình ngôn ngữ lớn có thể đánh lừa người đối thoại ngoài đời thực theo cách này, hoàn toàn không phải vậy. Ví dụ đầu tiên được ghi chép lại (ELIZA, một chatbot thô sơ do các kỹ sư MIT thiết kế), đã đánh lừa được một số người... ngay từ năm 1965!
Điều thú vị nữa là chính ELIZA này vẫn đạt được số điểm 23% trong nghiên cứu mới này, trong khi khả năng 'lý luận' của nó vượt xa khả năng của các LLM hiện đại. Theo các tác giả, điều này là do các cuộc đối thoại do chatbot thời tiền sử này tạo ra không tương ứng với ý tưởng về mô hình AI mà con người ngày nay có. Nói cách khác, điều này một lần nữa cho thấy rằng Bài kiểm tra Turing chủ yếu vẫn là một cách đánh giá con người, chứ không phải là chuẩn mực AI thực sự.
Kiểm tra "trí thông minh" của các mô hình AI: một thách thức kỹ thuật thực sự
Điều này đưa chúng ta đến hàm ý khác của tác phẩm này. Trong bài báo của mình, các tác giả của nghiên cứu nhấn mạnh rằng trí thông minh là một hiện tượng "phức tạp và thay đổi" mà không có bài kiểm tra thống nhất nào, và chắc chắn là cả bài kiểm tra của Turing, hiện có khả năng định lượng một cách chặt chẽ.Để xác định liệu một LLM có một ngày nào đó đạt đến giai đoạn trí tuệ nhân tạo nói chung, với khả năng lý luận vượt trội hơn con người hay không, do đó, cần phải phát triển các loại bài kiểm tra mới... và có thể loại trừ loài của chúng ta khỏi phương trình. Thật vậy, có rất ít khả năng chúng ta vẫn có thể đánh giá khách quan tình hình nếu một ngày nào đó chúng ta phải đối mặt với AI siêu phàm như vậy.
Do đó, sẽ rất thú vị khi theo dõi các dự án của các nhà nghiên cứu làm việc trên các chuẩn mực AI. Trong bối cảnh hiện tại, khi nhiều chuyên gia tin rằng trí thông minh nhân tạo tổng quát có thể xuất hiện trong vòng vài năm, họ sẽ phải cực kỳ khéo léo trong việc tìm ra cách đánh giá các mô hình khác nhau trong khi loại trừ sự thiên vị của con người khỏi phương trình, và quá trình đạt được điều này chắc chắn sẽ khá hấp dẫn.
Văn bản nghiên cứu có sẵn tại đây.