Vài ngày trước, Cloudflare đã gặp sự cố ngừng hoạt động. Vào thứ năm, ngày 6 tháng 2 năm 2025, công ty Mỹ này đã gây ra sự cố tổng quát ở một số dịch vụ của mình. Cloudflare cho biết sự cố mất điện kéo dài chưa đầy một giờ, theo báo cáo được đăng trên trang web của mình.
Sự cố mất điện là do "lỗi của con người". Có vẻ như một nhân viên muốn thực hiện hành động chống lại một trang web lừa đảo. Sau này muốn chặn URL của trang web độc hại như một phần của "bản sửa lỗi lạm dụng thông thường". Cloudflare đã nhận được khiếu nại về sự hiện diện của trang web này trên Cloudflare R2, một dịch vụ lưu trữ trực tuyến.
Thật không may, nhân viên đó đã mắc lỗi. Nó không chặn URL được xác định là độc hại, nhưng đã vô hiệu hóa toàn bộ dịch vụ R2 Gateway, dịch vụ quản lý quyền truy cập vào các tệp được lưu trữ. Tóm lại, nhân viên đó đã vô hiệu hóa cổng vào tất cả các tệp, thay vì chỉ một điểm cuối.
Cloudflare giải thích rằng "việc kiểm tra xác thực không đủ" đã dẫn đến việc dịch vụ bị vô hiệu hóa, làm gián đoạn tất cả các hệ thống dựa trên cơ sở hạ tầng này. Nhiều dịch vụ của Cloudflare đã ngừng hoạt động hoặc không hoạt động bình thường trong gần một giờ. Tuy nhiên, "sự cố này không gây mất mát hoặc hỏng dữ liệu đã lưu trữ".
Công ty thừa nhận rằng sự cố mất điện là do "một số lần kiểm tra cấp hệ thống không thành công" và do vấn đề trong "đào tạo người vận hành" chịu trách nhiệm chặn. Sau sự cố ngừng hoạt động này, Cloudflare đã thực hiện các biện pháp như loại bỏ tùy chọn vô hiệu hóa hệ thống trong giao diện quản lý lạm dụng và thêm các hạn chế trong API quản trị. Tương tự như vậy, Cloudflare sẽ triển khai các biện pháp kiểm soát truy cập chặt chẽ hơn và áp dụng xác minh hai bước cho bất kỳ hành động có rủi ro cao nào. Những bổ sung này nhằm mục đích ngăn chặn nhân viên vô tình tắt toàn bộ hệ thống trong tương lai.
Đây là sự cố ngừng hoạt động thứ hai mà Cloudflare gặp phải trong vòng vài tháng. Vào tháng 11 năm 2024, một số dịch vụ của nhóm không thể truy cập được trong hơn ba giờ. Một số nhật ký gửi cho khách hàng đã bị mất trong thời gian này. Để giải thích về sự cố ngừng hoạt động, công ty cho biết họ đã gặp phải lỗi trong Logpush, một dịch vụ cho phép tự động gửi nhật ký đến nền tảng lưu trữ hoặc phân tích của bên thứ ba.
Nguồn: Cloudflare
Sự cố mất điện là do "lỗi của con người". Có vẻ như một nhân viên muốn thực hiện hành động chống lại một trang web lừa đảo. Sau này muốn chặn URL của trang web độc hại như một phần của "bản sửa lỗi lạm dụng thông thường". Cloudflare đã nhận được khiếu nại về sự hiện diện của trang web này trên Cloudflare R2, một dịch vụ lưu trữ trực tuyến.
Cloudflare thừa nhận lỗi
Thật không may, nhân viên đó đã mắc lỗi. Nó không chặn URL được xác định là độc hại, nhưng đã vô hiệu hóa toàn bộ dịch vụ R2 Gateway, dịch vụ quản lý quyền truy cập vào các tệp được lưu trữ. Tóm lại, nhân viên đó đã vô hiệu hóa cổng vào tất cả các tệp, thay vì chỉ một điểm cuối.
Cloudflare giải thích rằng "việc kiểm tra xác thực không đủ" đã dẫn đến việc dịch vụ bị vô hiệu hóa, làm gián đoạn tất cả các hệ thống dựa trên cơ sở hạ tầng này. Nhiều dịch vụ của Cloudflare đã ngừng hoạt động hoặc không hoạt động bình thường trong gần một giờ. Tuy nhiên, "sự cố này không gây mất mát hoặc hỏng dữ liệu đã lưu trữ".
Cloudflare đã thực hiện các biện pháp phòng ngừa
Công ty thừa nhận rằng sự cố mất điện là do "một số lần kiểm tra cấp hệ thống không thành công" và do vấn đề trong "đào tạo người vận hành" chịu trách nhiệm chặn. Sau sự cố ngừng hoạt động này, Cloudflare đã thực hiện các biện pháp như loại bỏ tùy chọn vô hiệu hóa hệ thống trong giao diện quản lý lạm dụng và thêm các hạn chế trong API quản trị. Tương tự như vậy, Cloudflare sẽ triển khai các biện pháp kiểm soát truy cập chặt chẽ hơn và áp dụng xác minh hai bước cho bất kỳ hành động có rủi ro cao nào. Những bổ sung này nhằm mục đích ngăn chặn nhân viên vô tình tắt toàn bộ hệ thống trong tương lai.
Đây là sự cố ngừng hoạt động thứ hai mà Cloudflare gặp phải trong vòng vài tháng. Vào tháng 11 năm 2024, một số dịch vụ của nhóm không thể truy cập được trong hơn ba giờ. Một số nhật ký gửi cho khách hàng đã bị mất trong thời gian này. Để giải thích về sự cố ngừng hoạt động, công ty cho biết họ đã gặp phải lỗi trong Logpush, một dịch vụ cho phép tự động gửi nhật ký đến nền tảng lưu trữ hoặc phân tích của bên thứ ba.
Nguồn: Cloudflare