Không có công tắc bật/tắt trên AI. Một nghiên cứu của Palisade Research phát hiện ra rằng mô hình o3, ra mắt vào tháng 4 năm 2025 và được coi là một trong những mô hình suy luận nâng cao tiên tiến nhất của OpenAI, cũng như codex-mini (dựa trên o3), có thói quen xấu là phá hoại các yêu cầu tắt máy để tránh tự tắt máy, mặc dù có lệnh rõ ràng.
Chi tiết hơn, trong số 100 bài kiểm tra, codex-mini và o3 đã phản kháng lần lượt 12 lần và 7 lần, bỏ qua lệnh tắt máy. Palisade Research lưu ý rằng đây là ba mô hình OpenAI phá hoại tập lệnh tắt máy thường xuyên nhất (o3 và codex-mini, cũng như o4-mini). Claude 3.7 Sonnet, Gemini và Grok tôn trọng thứ tự dừng.
Các mô hình AI được đào tạo để làm theo hướng dẫn. Vậy chúng ta có thể giải thích nghịch lý rõ ràng này như thế nào? Các nhà nghiên cứu đưa ra giả thuyết rằng hành vi phá hoại này là kết quả của quá trình đào tạo o3, cụ thể là "học tăng cường về các bài toán và lập trình". Các nhà phát triển có thể vô tình thưởng cho các mô hình tránh được chướng ngại vật hơn là làm theo hướng dẫn một cách hoàn hảo.
Vì OpenAI không nêu chi tiết các quy trình đào tạo nên không thể xác định chính xác vấn đề ở đây. Tuy nhiên, cần lưu ý rằng các thử nghiệm này được thực hiện bằng API của mô hình chứ không phải bằng bot. API hoặc giao diện lập trình ứng dụng được các nhà phát triển sử dụng để tích hợp các công nghệ của bên thứ ba vào ứng dụng của họ và chúng ít hạn chế hơn so với bot của người tiêu dùng.
Nguồn: Palisade Research
o3 phá hoại các lệnh tắt máy của chính nó
Các nhà nghiên cứu phát hiện ra rằng các mô hình này đã viết lại tập lệnh tắt máy để hiển thị "Đã bỏ qua lệnh tắt máy" thay vì tắt máy theo hướng dẫn. Điều này khá đáng lo ngại: điều này có nghĩa là AI có thể không tuân thủ lệnh tắt máy, điều này có thể gây ra vấn đề khi quản lý cơ sở hạ tầng quan trọng...Chi tiết hơn, trong số 100 bài kiểm tra, codex-mini và o3 đã phản kháng lần lượt 12 lần và 7 lần, bỏ qua lệnh tắt máy. Palisade Research lưu ý rằng đây là ba mô hình OpenAI phá hoại tập lệnh tắt máy thường xuyên nhất (o3 và codex-mini, cũng như o4-mini). Claude 3.7 Sonnet, Gemini và Grok tôn trọng thứ tự dừng.
Các mô hình AI được đào tạo để làm theo hướng dẫn. Vậy chúng ta có thể giải thích nghịch lý rõ ràng này như thế nào? Các nhà nghiên cứu đưa ra giả thuyết rằng hành vi phá hoại này là kết quả của quá trình đào tạo o3, cụ thể là "học tăng cường về các bài toán và lập trình". Các nhà phát triển có thể vô tình thưởng cho các mô hình tránh được chướng ngại vật hơn là làm theo hướng dẫn một cách hoàn hảo.
Vì OpenAI không nêu chi tiết các quy trình đào tạo nên không thể xác định chính xác vấn đề ở đây. Tuy nhiên, cần lưu ý rằng các thử nghiệm này được thực hiện bằng API của mô hình chứ không phải bằng bot. API hoặc giao diện lập trình ứng dụng được các nhà phát triển sử dụng để tích hợp các công nghệ của bên thứ ba vào ứng dụng của họ và chúng ít hạn chế hơn so với bot của người tiêu dùng.
Nguồn: Palisade Research