Vấn đề ảo giác của ChatGPT đang trở nên tồi tệ hơn theo các thử nghiệm của chính OpenAI và không ai hiểu tại sao

theanh

Administrator
Nhân viên
Bạn còn nhớ khi chúng tôi đưa tin cách đây khoảng một tháng rằng Anthropic đã phát hiện ra rằng những gì đang diễn ra bên trong các mô hình AI rất khác so với cách các mô hình tự mô tả quá trình "suy nghĩ" của chúng không? Vâng, đối với bí ẩn xung quanh các mô hình ngôn ngữ lớn (LLM) mới nhất, cùng với vô số các mô hình khác, giờ đây bạn có thể thêm vào ảo giác ngày càng tệ hơn. Và đó là theo thử nghiệm của cái tên hàng đầu trong lĩnh vực chatbot, OpenAI.

New York Times đưa tin rằng cuộc điều tra của OpenAI về các LLM lớn GPT o3 và GPT o4-mini mới nhất của họ phát hiện ra rằng chúng dễ gây ảo giác hoặc bịa ra thông tin sai lệch hơn đáng kể so với mô hình GPT o1 trước đó.

"Công ty phát hiện ra rằng o3 — hệ thống mạnh nhất của họ — gây ảo giác 33 phần trăm thời gian khi chạy thử nghiệm chuẩn PersonQA của mình, bao gồm việc trả lời các câu hỏi về những người của công chúng. Con số này cao gấp đôi tỷ lệ ảo giác của hệ thống lý luận trước đây của OpenAI, được gọi là o1. O4-mini mới gây ảo giác ở tỷ lệ thậm chí còn cao hơn: 48 phần trăm", tờ Times cho biết.

"Khi chạy một thử nghiệm khác có tên là SimpleQA, trong đó đặt ra những câu hỏi chung hơn, tỷ lệ ảo giác đối với o3 và o4-mini là 51 phần trăm và 79 phần trăm. Hệ thống trước đó, o1, gây ảo giác 44 phần trăm thời gian."

OpenAI cho biết cần phải nghiên cứu thêm để hiểu lý do tại sao các mô hình mới nhất dễ gây ảo giác hơn. Nhưng theo một số nhà quan sát trong ngành, cái gọi là các mô hình "lý luận" là ứng cử viên hàng đầu.

"Các công nghệ mới nhất và mạnh mẽ nhất — cái gọi là các hệ thống lý luận từ các công ty như OpenAI, Google và công ty khởi nghiệp DeepSeek của Trung Quốc — đang tạo ra nhiều lỗi hơn chứ không phải ít hơn", tờ Times tuyên bố.

Nói một cách đơn giản, các mô hình lý luận là một loại LLM được thiết kế để thực hiện các nhiệm vụ phức tạp. Thay vì chỉ đưa ra văn bản dựa trên các mô hình xác suất thống kê, các mô hình lý luận chia nhỏ các câu hỏi hoặc nhiệm vụ thành các bước riêng lẻ tương tự như quá trình suy nghĩ của con người.

Mô hình lý luận đầu tiên của OpenAI, o1, ra mắt vào năm ngoái và được cho là ngang bằng với thành tích của các nghiên cứu sinh tiến sĩ về vật lý, hóa học và sinh học, đồng thời đánh bại họ về toán học và mã hóa nhờ sử dụng các kỹ thuật học tăng cường.
AI, giải thích

eQ4QvnT5n24R9f4nQNq5MP-1200-80.jpg



Trí tuệ nhân tạo tổng quát là gì?: Chúng ta sẽ đi sâu vào thuật ngữ của AI và ý nghĩa thực sự của các thuật ngữ này.

"Tương tự như cách con người có thể suy nghĩ trong một thời gian dài trước khi trả lời một câu hỏi khó, o1 sử dụng một chuỗi suy nghĩ khi cố gắng giải quyết một vấn đề", OpenAI đã nói khi o1 được phát hành.

Tuy nhiên, OpenAI đã phản bác lại lời kể rằng các mô hình lý luận phải chịu tỷ lệ ảo giác gia tăng. "Ảo giác không phải là bản chất phổ biến hơn trong các mô hình lý luận, mặc dù chúng tôi đang tích cực làm việc để giảm tỷ lệ ảo giác cao hơn mà chúng tôi thấy ở o3 và o4-mini", Gaby Raila của OpenAI nói với tờ Times.

Dù sự thật là gì, có một điều chắc chắn. Các mô hình AI cần phải cắt bỏ phần lớn những điều vô nghĩa và dối trá nếu chúng muốn hữu ích như những người đề xuất chúng hiện đang hình dung. Theo tình hình hiện tại, rất khó để tin tưởng vào kết quả đầu ra của bất kỳ LLM nào. Hầu như mọi thứ đều phải được kiểm tra lại cẩn thận.

Điều đó ổn đối với một số nhiệm vụ. Nhưng lợi ích chính là tiết kiệm thời gian hoặc công sức, thì nhu cầu kiểm tra và xác minh thực tế đầu ra AI một cách tỉ mỉ lại làm mất đi mục đích sử dụng chúng. Vẫn còn phải xem liệu OpenAI và phần còn lại của ngành LLM có thể giải quyết được tất cả những giấc mơ robot không mong muốn đó hay không.
 
Back
Bên trên