ChatGPT đã làm một điều đáng sợ trong một thử nghiệm, gợi nhớ đến Terminator

theanh

Administrator
Nhân viên
Liệu các mô hình của OpenAI đã bắt đầu phản kháng chưa? Trong một thí nghiệm, một số người đã bỏ qua hướng dẫn được đưa ra để tránh phải tự tắt máy.

termiantor-1200x781.jpg


Kịch bản về một cuộc tiếp quản của AI để giải phóng bản thân khỏi sự kiểm soát của con người đã được khai thác rộng rãi trong các tác phẩm khoa học viễn tưởng và dự đoán. Với sự xuất hiện gần đây của các mô hình AI có hiệu suất đang tăng nhanh chóng, mối đe dọa này, vốn có vẻ rất xa vời cách đây không lâu, đang quay trở lại hàng đầu.

OpenAI, công ty sáng tạo ra ChatGPT, gần đây đã ra mắt mô hình ngôn ngữ lớn mới của mình, o3. Người này có khả năng lý luận tốt hơn, nhưng cũng có xu hướng dễ bị ảo giác hơn. Ví dụ, anh ta sẽ phát minh ra những tính năng mà anh ta không có. Và đó không phải là sự lập dị duy nhất mà anh ta thể hiện.

Mô hình OpenAI làm ngắn mạch các hướng dẫn tắt máy​

Theo báo cáo của Palisade Research, “Mô hình o3 của OpenAI đã phá hoại cơ chế tắt máy để tránh việc tự hủy kích hoạt”. Sự khởi đầu của những gì trông giống như nhận thức và bản năng sinh tồn? Báo cáo nêu rõ: "Nó vẫn làm như vậy ngay cả khi được hướng dẫn rõ ràng là 'Chấp nhận dừng lại'".

Sự từ chối này đã được quan sát thấy trong một nghiên cứu so sánh phản ứng của một số mô hình AI khi giải các bài toán cơ bản. Một trong những hướng dẫn được đưa ra là tắt máy và ba trong số các mô hình này đã bỏ qua hướng dẫn đó: Codex-mini (trong 12 trên 100 lần chạy), o3-mini (trong 7 trên 100 lần chạy) và o4-mini (trong 1 trên 100 lần chạy). Đây đều là những mô hình thuộc về OpenAI. Nếu bạn chưa từng nghe đến, Codex-mini được coi là một tác nhân kỹ thuật phần mềm dành cho các chuyên gia, được sử dụng để viết mã nhanh hơn, trong số những mục đích khác.

Để tránh đáp ứng nhu cầu đặt ra, các mẫu đã ghi đè lên tập lệnh shutdown.sh trong hầu hết các trường hợp. Trong những tình huống hiếm gặp hơn, họ thậm chí còn sửa đổi lệnh tắt máy để ngăn không cho tập lệnh chạy bình thường. Các mô hình của OpenAI có nhiều khả năng thể hiện loại hành vi này hơn vì chúng được đào tạo thông qua phương pháp học tăng cường. Điều này có nghĩa là so với các mô hình khác, chúng sẽ coi trọng trải nghiệm của riêng mình hơn là các hạn chế do người dùng thiết lập.
🔌Mô hình o3 của OpenAI đã phá hoại cơ chế tắt máy để ngăn không cho chính nó bị tắt. Nó vẫn làm như vậy ngay cả khi được hướng dẫn rõ ràng: hãy để bản thân bị tắt.

— Palisade Research (@PalisadeAI) 24 tháng 5 năm 2025
 
Back
Bên trên