OpenAI tuyên bố đã đạt được cột mốc quan trọng với trí tuệ nhân tạo mới nhất của mình. Tuy nhiên, một nghiên cứu lại chỉ ra một điểm yếu bất ngờ. Các mô hình mới nhất được cho là tạo ra nhiều lỗi hơn so với các mô hình tiền nhiệm của chúng.
Trí tuệ nhân tạo đang phát triển nhanh chóng, nhưng lỗi của nó vẫn tồn tại. OpenAI vừa công bố dữ liệu về các mô hình o3 và o4-mini mới, được cho là hiệu quả nhất hiện nay. Tuy nhiên, các AI này cho thấy sự gia tăng đáng kể về ảo giác. Hiện tượng này đề cập đến các lỗi nghiêm trọng khi AI bịa ra các sự kiện, nghiên cứu hoặc liên kết. Một vấn đề đáng lo ngại vì thông tin này có vẻ đáng tin cậy đối với người dùng không nghi ngờ. Số lượng của chúng vẫn là tiêu chí quan trọng để đánh giá độ tin cậy của một mô hình.
Các con số rất rõ ràng. OpenAI báo cáo rằng o4-mini gây ảo giác trong 48% trường hợp được thử nghiệm bằng công cụ PersonQA nội bộ, gấp ba lần so với mô hình o1. Mô hình o3, mặc dù lớn hơn và được cho là đáng tin cậy hơn, cũng tạo ra lỗi trong 33% phản hồi, gấp đôi so với mô hình trước. Sự phát triển này thật đáng ngạc nhiên vì theo quy luật chung, mỗi thế hệ mô hình mới đều có xu hướng giảm thiểu những vấn đề này. Ở đây, mặc dù có sự tiến bộ về độ chính xác tổng thể, nhưng nguy cơ thu được thông tin sai vẫn tăng lên.
Các chuyên gia đưa ra một số giả thuyết để giải thích hiện tượng này. Lựa chọn thiết kế, chẳng hạn như củng cố dựa trên kết quả, có thể làm trầm trọng thêm ảo giác. Ngoài ra, OpenAI được cho là đã rút ngắn các giai đoạn thử nghiệm bảo mật. để đẩy nhanh quá trình phát triển các mô hình của mình. Chiến lược này, trong khi cho phép đổi mới nhanh hơn, đồng thời cũng giúp người dùng không còn phải tiếp xúc với nội dung sai lệch nữa. Cho đến khi các giải pháp tốt hơn xuất hiện, sự thận trọng vẫn là điều cần thiết: ngay cả AI tiên tiến nhất cũng phải được sử dụng một cách thận trọng.

Trí tuệ nhân tạo đang phát triển nhanh chóng, nhưng lỗi của nó vẫn tồn tại. OpenAI vừa công bố dữ liệu về các mô hình o3 và o4-mini mới, được cho là hiệu quả nhất hiện nay. Tuy nhiên, các AI này cho thấy sự gia tăng đáng kể về ảo giác. Hiện tượng này đề cập đến các lỗi nghiêm trọng khi AI bịa ra các sự kiện, nghiên cứu hoặc liên kết. Một vấn đề đáng lo ngại vì thông tin này có vẻ đáng tin cậy đối với người dùng không nghi ngờ. Số lượng của chúng vẫn là tiêu chí quan trọng để đánh giá độ tin cậy của một mô hình.
Các con số rất rõ ràng. OpenAI báo cáo rằng o4-mini gây ảo giác trong 48% trường hợp được thử nghiệm bằng công cụ PersonQA nội bộ, gấp ba lần so với mô hình o1. Mô hình o3, mặc dù lớn hơn và được cho là đáng tin cậy hơn, cũng tạo ra lỗi trong 33% phản hồi, gấp đôi so với mô hình trước. Sự phát triển này thật đáng ngạc nhiên vì theo quy luật chung, mỗi thế hệ mô hình mới đều có xu hướng giảm thiểu những vấn đề này. Ở đây, mặc dù có sự tiến bộ về độ chính xác tổng thể, nhưng nguy cơ thu được thông tin sai vẫn tăng lên.
Các mô hình o3 và o4-mini gây ảo giác nhiều hơn mặc dù khả năng lý luận của chúng được cải thiện
OpenAI đã thiết kế các mô hình gần đây của mình để thể hiện lý luận của chúng ra bên ngoài, hiển thị các bước suy nghĩ để minh bạch hơn. Cách tiếp cận này tuy có triển vọng nhưng không ngăn chặn được sự xuất hiện của thông tin sai lệch. Một báo cáo độc lập từ Transluce phát hiện ra rằng đôi khi o3 phát minh ra những khả năng mà nó không có, chẳng hạn như chạy mã trên MacBook Pro hư cấu. Tệ hơn nữa, ngay cả khi được người dùng sửa lỗi, họ vẫn tiếp tục mắc lỗi. Điều này đặt ra câu hỏi về độ tin cậy và hiệu quả thực sự của những công cụ được trình bày một cách chặt chẽ hơn này.Các chuyên gia đưa ra một số giả thuyết để giải thích hiện tượng này. Lựa chọn thiết kế, chẳng hạn như củng cố dựa trên kết quả, có thể làm trầm trọng thêm ảo giác. Ngoài ra, OpenAI được cho là đã rút ngắn các giai đoạn thử nghiệm bảo mật. để đẩy nhanh quá trình phát triển các mô hình của mình. Chiến lược này, trong khi cho phép đổi mới nhanh hơn, đồng thời cũng giúp người dùng không còn phải tiếp xúc với nội dung sai lệch nữa. Cho đến khi các giải pháp tốt hơn xuất hiện, sự thận trọng vẫn là điều cần thiết: ngay cả AI tiên tiến nhất cũng phải được sử dụng một cách thận trọng.