Hàng ngàn mật khẩu được sử dụng để đào tạo Chatgpt và AI khác

theanh

Administrator
Nhân viên
Gần 12.000 thông tin nhạy cảm, chẳng hạn như khóa API và mật khẩu, đã được các nhà nghiên cứu từ Truffle Security phát hiện trong Common Crawl. Common Crawl là tên của một khối lượng lớn dữ liệu nguồn mở. Được thu thập từ năm 2008 tại Across the web, dữ liệu này chủ yếu được sử dụng để đào tạo các mô hình AI. Những gã khổng lồ như OpenAI, DeepSeek, Google, Meta, Anthropic và Stability sử dụng tập dữ liệu để đào tạo các mô hình ngôn ngữ của họ (Mô hình ngôn ngữ lớn hay LLM). Một phần là nhờ vào dữ liệu này mà các AI như ChatGPT phát triển và học cách phản hồi các yêu cầu của người dùng.

Gần 12.000 thông tin mật được cung cấp cho AI​

Theo các nhà nghiên cứu đã sàng lọc 400 terabyte dữ liệu từ 2,67 tỷ trang web, kho lưu trữ bao gồm 11.908 thông tin mật. Quá trình quét dựa trên TruffleHog, một công cụ bảo mật nguồn mở được thiết kế để tìm kiếm thông tin nhạy cảm, chẳng hạn như khóa API, mật khẩu hoặc các bí mật khác.

Do đó, chúng đã rơi vào tay trí tuệ nhân tạo trong quá trình đào tạo. Phát hiện này "làm nổi bật một vấn đề đang ngày càng gia tăng: LLM được đào tạo trên mã không an toàn có thể vô tình tạo ra kết quả gây rủi ro&raqu;. Tóm lại, AI có thể tiết lộ thông tin theo cách này hay cách khác và tạo ra các phản hồi bao gồm dữ liệu nhạy cảm. Tuy nhiên, cần nhớ rằng dữ liệu được sử dụng để đào tạo các mô hình ngôn ngữ lớn luôn được xử lý ngược dòng. Quá trình xử lý này cho phép dữ liệu được làm sạch bằng cách loại trừ thông tin trùng lặp, có hại hoặc vô dụng.

Trong số dữ liệu được khai quật trong kho dữ liệu, chúng tôi tìm thấy các khóa API hợp lệ cung cấp quyền truy cập vào các dịch vụ như Amazon Web Services (AWS) hoặc MailChimp. Trên hết, các nhà nghiên cứu đã tìm thấy rất nhiều khóa cho MailChimp, nền tảng tự động hóa email.

Sai lầm của nhà phát triển​

Như Truffle Security giải thích trong báo cáo của mình, các nhà phát triển đã mắc lỗi khi chèn trực tiếp dữ liệu nhạy cảm (chẳng hạn như thông tin đăng nhập hoặc khóa API) vào mã biểu mẫu HTML và tập lệnh JavaScript. Một số khóa thậm chí còn quay lại nhiều lần, điều này tối đa hóa rủi ro.

Sau khi phát hiện ra điều này, Truffle Security đã liên lạc với tất cả các thực thể có khóa và mật khẩu rơi vào tay AI. Với sự giúp đỡ của các nhà nghiên cứu, các công ty đã có thể "xoay vòng/thu hồi tập thể hàng nghìn khóa" như một biện pháp bảo mật.

Nguồn: Truffle Security
 
Back
Bên trên