Trong khoảng một năm nữa, chúng ta có thể mất khả năng phát hiện xem một số mô hình AI hàng đầu có đang âm mưu chống lại chúng ta hay không

theanh

Administrator
Nhân viên
Đây không phải là lời khuyên đầu tư. Tác giả không nắm giữ bất kỳ cổ phiếu nào được đề cập. Wccftech.com có chính sách tiết lộ và đạo đức.

Các mô hình AI, đặc biệt là loại lý luận, là kết quả của một khoa học vẫn còn mơ hồ, có phần bí ẩn, thúc đẩy các nhà nghiên cứu và kỹ sư dựa vào chuỗi quá trình suy nghĩ - bao gồm các bước lý luận "giống như trẻ con" mà các mô hình AI như vậy thực hiện để đi đến câu trả lời - để có được cái nhìn sâu sắc về hoạt động bên trong của các mô hình của chúng.

Tuy nhiên, các mô hình AI hiện đang nhanh chóng làm lu mờ quá trình quan trọng này bằng cách sử dụng các lối tắt khó hiểu để đi đến một kết luận nhất định, theo báo cáo của The Information.

Ví dụ, khi mô hình R1 của DeepSeek được yêu cầu giải một bài toán hóa học, chuỗi quá trình suy nghĩ của nó bao gồm thuật ngữ hóa học có liên quan xen kẽ với các thuật ngữ có vẻ khó hiểu vô nghĩa:
"(Dimethyl(oxo)-lambda6-sulfa雰囲idine)methane tặng một nhóm CH2rola xảy ra trong phản ứng, Thực hành chuyển đổi sản phẩm so với thêm điều này.vào mô-đun sản phẩm. Thật vậy"hãy tính tổng số cho biết Frederick sẽ có 10 +1 =11 cacbon. Vậy câu trả lời q Edina là 11."
Tất nhiên, câu trả lời cuối cùng của mô hình AI là 11, là đúng. Vậy tại sao điều này lại xảy ra? Vâng, các mô hình này không bắt buộc phải tuân theo tiếng Anh thông thường khi chúng giải quyết một vấn đề, cho phép chúng áp dụng các lối tắt có vẻ khó hiểu. Hơn nữa, theo phát hiện gần đây của nhóm nghiên cứu đứng sau Qwen LLM của Alibaba, chỉ có khoảng 20 phần trăm các từ có liên quan nhất trong chuỗi quy trình suy nghĩ của một mô hình nhất định thực hiện phần lớn công việc lý luận cơ bản, khiến 80 phần trăm còn lại trở thành một sự hợp nhất không thể đọc được.

Một nhà nghiên cứu của OpenAI mà The Information đã nói chuyện hiện tin rằng chuỗi quy trình suy nghĩ của hầu hết các mô hình AI hàng đầu sẽ tan rã thành một mớ hỗn độn không thể đọc được gồm các từ và ký tự trong khoảng một năm.

Đây là tin xấu cho các kỹ sư AI dựa vào điều này bước phức tạp để tinh chỉnh độ chính xác của các mô hình của họ. Hơn nữa, các chuyên gia bảo mật AI đặc biệt trân trọng các bước lý luận này để xác định xem các mô hình này có âm mưu chống lại tổ tiên của chúng hay không.

Như chúng tôi đã lưu ý trong một bài đăng gần đây, hầu hết các mô hình AI đều không gặp vấn đề gì khi sử dụng các phương tiện phi đạo đức hoặc thậm chí là bất hợp pháp trong nỗ lực tìm ra giải pháp theo cách hiệu quả nhất, theo kết quả của một nghiên cứu do Anthropic thực hiện gần đây. Trong một trường hợp cực đoan, một mô hình thậm chí còn sẵn sàng cắt nguồn cung cấp oxy của phòng máy chủ giả định để tránh bị tắt máy, giết chết nhân viên trong quá trình này.

Ngay cả khi các mô hình này không tăng tốc theo chuỗi quy trình suy nghĩ không thể đọc được, một số công ty AI vẫn có thể cố tình hy sinh tính dễ đọc để tăng hiệu suất trong ngắn hạn.
 
Back
Bên trên