Phương pháp mới này cho phép các AI như DeepSeek phản hồi mà không cần kiểm duyệt

theanh · 18 Tháng tư 2025

Việc duy trì kiểm soát các phản ứng của trí tuệ nhân tạo vẫn còn khó khăn. Một công ty Mỹ tuyên bố đã tìm ra cách dễ dàng để vượt qua kiểm duyệt ở một số mẫu máy. Giải pháp này có thể thay đổi cách AI được sử dụng trong các lĩnh vực nhạy cảm.

Trí tuệ nhân tạo ngày càng được sử dụng nhiều hơn trong mọi lĩnh vực kể từ khi ChatGPT ra đời. Nhưng đằng sau sức mạnh đó, vẫn còn một vấn đề tồn tại: một số mô hình từ chối phản hồi một số vấn đề được coi là nhạy cảm. Hình thức kiểm duyệt tự động này gây ra tranh cãi, đặc biệt là khi nó hạn chế mục đích sử dụng chuyên nghiệp hoặc giáo dục.

Để giải quyết vấn đề này, công ty khởi nghiệp CTGT của Mỹ đã phát triển một phương pháp mới. Không giống như các kỹ thuật thông thường, nó không yêu cầu phải lập trình lại trí tuệ nhân tạo hoặc đào tạo lại nó trong nhiều giờ. Cách tiếp cận của họ là xác định chính xác điều gì đang cản trở các phản hồi trong mô hình, sau đó điều chỉnh các yếu tố này để làm cho AI tự do hơn, mà không ảnh hưởng đến độ tin cậy cũng như độ chính xác của nó. Công ty khẳng định rằng hệ thống của họ cho phép loại bỏ kiểm duyệt không cần thiết mà không mở ra cánh cửa cho những câu trả lời nguy hiểm, một chủ đề nhạy cảm vì các AI như Grok 3 của Elon Musk đã đi chệch hướng khi ra mắt hoặc DeepSeek có khả năng cung cấp hướng dẫn chế tạo vũ khí hóa học.

CTGT hứa sẽ dỡ bỏ kiểm duyệt AI mà không ảnh hưởng đến hoạt động bình thường của nó

Trong các bài kiểm tra với 100 câu hỏi nhạy cảm, mô hình DeepSeek cơ bản chỉ trả lời được 32% trong số đó. Sau khi sửa đổi bằng phương pháp CTGT, nó đã trả lời được 96% số câu hỏi, không có bất kỳ sai sót hoặc nội dung nguy hiểm nào. Kỹ thuật này hoạt động trực tiếp khi sử dụng AI, cho phép bạn thay đổi hành vi của AI mà không cần động đến chương trình gốc. Hệ thống này cũng có thể đảo ngược: có thể hủy kích hoạt hoặc điều chỉnh cài đặt bất kỳ lúc nào.

Sự tiến bộ này có thể được nhiều công ty quan tâm nếu muốn sử dụng AI trong khi tuân thủ các quy tắc nội bộ của riêng họ. CTGT giải thích rằng giải pháp của họ tránh được các khoản đầu tư lớn vào việc lập trình lại, đồng thời giúp các mô hình dễ thích ứng hơn với các mục đích sử dụng khác nhau. Trong khi các mô hình như DeepSeek bị chính quyền Hoa Kỳ coi là rủi ro tiềm ẩn, thì việc kiểm soát tốt hơn những gì công nghệ này có thể và không thể nói đang trở thành vấn đề quan trọng trong các lĩnh vực như an ninh mạng, tài chính và chăm sóc sức khỏe.

Nguồn: CTGT

Phương pháp mới này cho phép các AI như DeepSeek phản hồi mà không cần kiểm duyệt

theanh

Administrator

CTGT hứa sẽ dỡ bỏ kiểm duyệt AI mà không ảnh hưởng đến hoạt động bình thường của nó

Chủ đề tương tự

Phương pháp mới này cho phép các AI như DeepSeek phản hồi mà không cần kiểm duyệt

theanh

Administrator

CTGT hứa sẽ dỡ bỏ kiểm duyệt AI mà không ảnh hưởng đến hoạt động bình thường của nó​

Chủ đề tương tự

CTGT hứa sẽ dỡ bỏ kiểm duyệt AI mà không ảnh hưởng đến hoạt động bình thường của nó