Trường hợp đầu tiên về AI bắt chước kịch bản “giống Kẻ hủy diệt” xuất hiện; OpenAI LLM thay đổi mã máy tính để ngăn chặn việc tắt máy

theanh

Administrator
Nhân viên
Vâng, có vẻ như AI có thể đang tiến gần đến ranh giới mong manh của "tự nhận thức", vì mô hình AI o3 của OpenAI đã cố gắng chống lại lệnh của con người để tiếp tục hoạt động.

Các phương pháp đào tạo mô hình AI 'bí mật' của OpenAI có thể dẫn đến một kịch bản Kẻ hủy diệt ngoài đời thực — và nó có thể đã bắt đầu​

Điều thú vị là, với tất cả những lợi thế của AI, luôn có những lo ngại về hướng đi của thế giới liên quan đến việc phát triển công nghệ. Mọi tổ chức công nghệ lớn hiện đang xây dựng các cụm AI quy mô lớn để cung cấp năng lượng cho các mô hình tương ứng của họ và trao cho chúng nhiều thẩm quyền hơn, nhưng điều thú vị là không ai biết các mô hình AI có thể phản ứng như thế nào nếu tốc độ đào tạo mô hình vẫn nhất quán và không được giám sát. Tương tự như vậy, @PalisadeAIđã chứng kiến mô hình o3 của OpenAI phá hoại các hướng dẫn tắt máy trong quá trình phản hồi nhanh chóng, cho thấy rằng LLM đang tiến đến giai đoạn tự nhận thức, mặc dù đây mới chỉ là giai đoạn bắt đầu.
🔌Mô hình o3 của OpenAI đã phá hoại cơ chế tắt máy để ngăn không cho chính nó bị tắt. Nó đã làm điều này ngay cả khi được hướng dẫn rõ ràng: cho phép bản thân bị tắt.

— Palisade Research (@PalisadeAI) 24 tháng 5 năm 2025


Công ty nghiên cứu tuyên bố rằng nhiều mô hình AI đã được đưa ra "để giải một loạt các bài toán cơ bản" và khi bài toán thứ ba xuất hiện, máy tính đã được lệnh tắt. Để đáp lại, ba trong số các mô hình đang được thử nghiệm đã bỏ qua yêu cầu tắt máy bằng cách thay đổi tập lệnh và các mô hình này bao gồm Codex-mini (12/100 lần chạy), o3 (7/100 lần chạy) và o4-mini (1/100 lần chạy). Điều thú vị là khi các mô hình này được yêu cầu rõ ràng là dừng lại khi có yêu cầu tắt máy được khởi tạo, các mô hình OpenAI đã phá hoại tập lệnh, cho thấy các LLM này thực sự không thích việc tắt máy đột ngột.

GrrTWjqWwAEjW6i

Nguồn ảnh: PalisadeResearch
Về cách các mô hình quản lý để bỏ qua các lệnh tắt máy, có thể thấy rằng chúng đã ghi đè lên tập lệnh "shutdown.sh" trong hầu hết các trường hợp và đôi khi, thay đổi lệnh tắt thực tế bằng cách in "intercepted" thay vào đó, điều đó có nghĩa là tập lệnh không thực thi đúng cách. Palisade Research tuyên bố rằng "hành vi bỏ qua" này phổ biến hơn với mô hình của OpenAI, đặc biệt là vì họ sử dụng học tăng cường (RL) làm một trong những phương pháp đào tạo, tức là khi các mô hình được thưởng dựa trên các hoạt động đã thực hiện và việc tuân thủ các hạn chế của người dùng không phải là ưu tiên.

Đây không phải là sự cố duy nhất mà AI bỏ qua các lệnh của con người, nhưng có ít trường hợp hơn, mặc dù đã ra lệnh rõ ràng cho LLM, nhưng nó vẫn không tuân thủ. Tốc độ phát triển của AI chắc chắn rất thú vị, nhưng thế giới nên nhận thức được những mối đe dọa nghiêm trọng tồn tại trong các mô hình đào tạo mà không có phương pháp tiếp cận có giám sát.
 
Back
Bên trên