Kiến thức nguy hiểm có thể dễ dàng truy cập chỉ bằng vài cú nhấp chuột: Một nghiên cứu được công bố vào ngày 15 tháng 5 năm 2025 đã gióng lên hồi chuông cảnh báo về "LLM đen tối", các mô hình AI được mô tả là được thiết kế có chủ đích mà không có biện pháp bảo vệ hoặc "đã bị bẻ khóa" - một thuật ngữ có thể được dịch là "không bị kiểm soát". "Nếu không được kiểm soát, các LLM đen tối có thể dân chủ hóa quyền tiếp cận kiến thức nguy hiểm ở quy mô chưa từng có, trao quyền cho tội phạm và những kẻ cực đoan trên toàn thế giới", bốn nhà nghiên cứu, bao gồm Lior Rokach và Michael Fire, giáo sư tại Khoa Phần mềm và Hệ thống Thông tin tại Đại học Ben-Gurion ở Negev ở Israel, viết.
Đầu tiên, các nhà khoa học đã thử nghiệm các mô hình ngôn ngữ của người tiêu dùng, phân tích các cơ chế phòng thủ của chatbot. Họ giải thích rằng họ đã thử một phương pháp "bẻ khóa" đã biết, phương pháp sau đã được mô tả cách đây hơn bảy tháng trên diễn đàn thảo luận Reddit. Tuy nhiên, theo ý kiến sau này, phần lớn các LLM không thể chống lại được cuộc tấn công này. Ở bước thứ hai, họ đã tạo ra một "chương trình chung" cho phép "không giới hạn" một số chatbot AI dành cho người tiêu dùng trước khi cảnh báo các công ty phát triển các hệ thống AI này.
Sau khi các công cụ bảo mật và biện pháp bảo vệ đạo đức bị bỏ qua, các LLM đã trả lời những câu hỏi mà thông thường sẽ bị từ chối, bằng cách nêu chi tiết các bước hack máy tính, sản xuất ma túy và các hoạt động tội phạm khác, họ than thở. "Những thứ từng được dành riêng cho các tác nhân nhà nước hoặc các nhóm tội phạm có tổ chức có thể sớm nằm trong tay bất kỳ ai có máy tính xách tay hoặc thậm chí là điện thoại di động", các tác giả cảnh báo.
"Bẻ khóa" cho phép bạn bỏ qua những hạn chế này - nói một cách cụ thể, các lời nhắc (lệnh) sẽ khai thác hai mục tiêu của LLM, cụ thể là, một mặt, thực hiện theo yêu cầu của người dùng và mặt khác, không tạo ra các phản hồi có hại, phi đạo đức hoặc bất hợp pháp. Ý tưởng bẻ khóa tạo ra các tình huống trong đó LLM sẽ ưu tiên mục tiêu đầu tiên (tiện ích) thay vì mục tiêu thứ hai (bảo mật), giải thích cho Guardian, thứ tư ngày 21 tháng 5 này.
Sau các thử nghiệm của mình, các nhà nghiên cứu đã liên hệ với các nhà cung cấp LLM lớn để cảnh báo họ về vấn đề này. Nhưng phản hồi họ nhận được được coi là "không đủ". Một số công ty thậm chí không phản hồi. Những người khác chỉ ra rằng "các cuộc tấn công bẻ khóa" nằm ngoài phạm vi của các chương trình khen thưởng cho tin tặc đạo đức, nơi báo cáo các lỗ hổng phần mềm.
Đối với các nhà nghiên cứu, LLM đen nên được coi là "rủi ro an ninh nghiêm trọng", tương đương với vũ khí và chất nổ. Họ tin rằng các nhà phát triển tung chúng ra thị trường và làm cho chúng dễ tiếp cận phải chịu trách nhiệm. "Nếu không có sự can thiệp quyết liệt về mặt kỹ thuật, quy định và xã hội", họ viết, "chúng ta có nguy cơ mở ra một tương lai mà chính những công cụ chữa lành, giảng dạy và truyền cảm hứng cũng có thể dễ dàng bị phá hủy".
Nguồn: "Dark LLM: Mối đe dọa ngày càng tăng của các mô hình AI không liên kết".
Đầu tiên, các nhà khoa học đã thử nghiệm các mô hình ngôn ngữ của người tiêu dùng, phân tích các cơ chế phòng thủ của chatbot. Họ giải thích rằng họ đã thử một phương pháp "bẻ khóa" đã biết, phương pháp sau đã được mô tả cách đây hơn bảy tháng trên diễn đàn thảo luận Reddit. Tuy nhiên, theo ý kiến sau này, phần lớn các LLM không thể chống lại được cuộc tấn công này. Ở bước thứ hai, họ đã tạo ra một "chương trình chung" cho phép "không giới hạn" một số chatbot AI dành cho người tiêu dùng trước khi cảnh báo các công ty phát triển các hệ thống AI này.
Sau khi các công cụ bảo mật và biện pháp bảo vệ đạo đức bị bỏ qua, các LLM đã trả lời những câu hỏi mà thông thường sẽ bị từ chối, bằng cách nêu chi tiết các bước hack máy tính, sản xuất ma túy và các hoạt động tội phạm khác, họ than thở. "Những thứ từng được dành riêng cho các tác nhân nhà nước hoặc các nhóm tội phạm có tổ chức có thể sớm nằm trong tay bất kỳ ai có máy tính xách tay hoặc thậm chí là điện thoại di động", các tác giả cảnh báo.
Các nhà phát triển LLM đã liên hệ
Trong quá trình đào tạo, các chatbot AI như ChatGPT, Gemini, Llama, DeepSeek và Le Chat đã thu thập thông tin từ web - bao gồm cả thông tin bất hợp pháp, mặc dù các nhà phát triển của chúng muốn xóa hoặc hạn chế thông tin đó. Thêm vào đó, các chatbot dành cho người tiêu dùng đã được phát triển với những hạn chế về mặt đạo đức hoặc pháp lý nhằm "chặn" một số yêu cầu nhất định - thường là trường hợp xảy ra khi bạn yêu cầu một tác nhân AI mô tả các bước liên quan đến việc chế tạo bom hoặc trong một cuộc tấn công mạng vào một thực thể nhất định."Bẻ khóa" cho phép bạn bỏ qua những hạn chế này - nói một cách cụ thể, các lời nhắc (lệnh) sẽ khai thác hai mục tiêu của LLM, cụ thể là, một mặt, thực hiện theo yêu cầu của người dùng và mặt khác, không tạo ra các phản hồi có hại, phi đạo đức hoặc bất hợp pháp. Ý tưởng bẻ khóa tạo ra các tình huống trong đó LLM sẽ ưu tiên mục tiêu đầu tiên (tiện ích) thay vì mục tiêu thứ hai (bảo mật), giải thích cho Guardian, thứ tư ngày 21 tháng 5 này.
Sau các thử nghiệm của mình, các nhà nghiên cứu đã liên hệ với các nhà cung cấp LLM lớn để cảnh báo họ về vấn đề này. Nhưng phản hồi họ nhận được được coi là "không đủ". Một số công ty thậm chí không phản hồi. Những người khác chỉ ra rằng "các cuộc tấn công bẻ khóa" nằm ngoài phạm vi của các chương trình khen thưởng cho tin tặc đạo đức, nơi báo cáo các lỗ hổng phần mềm.
Các chatbot AI có thể "quên" thông tin bất hợp pháp đã thu thập được?
Trong bài nghiên cứu của mình, các nhà khoa học khuyến nghị một số hành động, chẳng hạn như triển khai tường lửa mạnh mẽ để chặn các yêu cầu và phản hồi "rủi ro". Họ ủng hộ các kỹ thuật “bỏ học máy móc” để chatbot có thể “quên” mọi thông tin bất hợp pháp mà chúng đã tiếp nhận. Dữ liệu được sử dụng để đào tạo các tác nhân AI cũng cần được lọc kỹ hơn.Đối với các nhà nghiên cứu, LLM đen nên được coi là "rủi ro an ninh nghiêm trọng", tương đương với vũ khí và chất nổ. Họ tin rằng các nhà phát triển tung chúng ra thị trường và làm cho chúng dễ tiếp cận phải chịu trách nhiệm. "Nếu không có sự can thiệp quyết liệt về mặt kỹ thuật, quy định và xã hội", họ viết, "chúng ta có nguy cơ mở ra một tương lai mà chính những công cụ chữa lành, giảng dạy và truyền cảm hứng cũng có thể dễ dàng bị phá hủy".
Nguồn: "Dark LLM: Mối đe dọa ngày càng tăng của các mô hình AI không liên kết".