Hỏi / Đáp Sự cố liên tục - Lỗi là do Kernel PnP?

Lumberjack88

New member
Tôi đã xây dựng hệ thống PC chạy Windows 11 của mình cách đây một thời gian và chưa bao giờ gặp phải sự cố sập máy liên tục cho đến vài ngày trước.

Khi sự cố xảy ra, hai màn hình của tôi chuyển sang màu đen và quạt bắt đầu quay với tốc độ tối đa. Nếu tôi không làm gì, tình trạng này có thể kéo dài trong nhiều giờ. Tôi phải tắt máy thủ công bằng nút I/O và chỉ sau đó tôi mới khởi động lại bình thường. PC vẫn thực hiện các tác vụ của nó ở chế độ nền, tức là tôi có thể nghe thấy âm thanh của video youtube mà tôi đã xem trước khi sự cố xảy ra, nhưng hai màn hình không phản ứng nữa.

Sự cố mới nhất xảy ra hôm nay, CPU và GPU không hoạt động hết công suất (tôi chỉ đang duyệt youtube) và nhiệt độ không thể cao đến vậy vì PC chỉ chạy được khoảng 10-15 phút và tôi có rất nhiều quạt cộng với một bộ làm mát AIO lớn cho CPU. Khi tôi tham khảo Windows Event Viewer, đây là các sự kiện quan trọng hoặc cảnh báo xảy ra ngay trước khi sự cố xảy ra;

Lỗi (ID sự kiện (6008), Danh mục tác vụ (Không có)) Nhật ký sự kiện: Việc tắt hệ thống trước đó lúc 10:53:11 CH ngày 9/9/2024 là không mong muốn.

Quan trọng (ID sự kiện (41), Danh mục tác vụ (63)) Nguồn điện hạt nhân: Hệ thống đã khởi động lại mà không tắt hoàn toàn trước. Lỗi này có thể xảy ra nếu hệ thống ngừng phản hồi, bị sập hoặc mất điện đột ngột.

Cảnh báo (ID sự kiện (219), Danh mục tác vụ (212)) Kernel-PnP: Trình điều khiển \Driver\WUDFRd không tải được cho thiết bị ROOT\WINDOWSHELLOFACESOFTWAREDRIVER\0000.

Tôi cũng gặp lỗi này thỉnh thoảng, nhưng tôi không nghĩ là nó gây ra sự cố này vì nó xuất hiện vài lần trong vài giờ:

Lỗi (ID sự kiện (1796), Danh mục tác vụ (Không có)) TPM-WMI: Bản cập nhật Secure Boot không cập nhật được biến Secure Boot có lỗi Secure Boot không được bật trên máy này.. Để biết thêm thông tin, vui lòng xem https://go.microsoft.com/fwlink/?linkid=2169931

Tôi chưa bao giờ sử dụng khởi động an toàn, tôi có phải cập nhật thủ công để thông báo này không xuất hiện nữa không?

Ngoài ra, tôi có thể cung cấp tệp nào khác để hiểu rõ hơn về những gì đã xảy ra trước khi sự cố xảy ra không?

Các bạn có biết nguyên nhân gây ra những sự cố này không? Có thể là phần mềm điều khiển quạt bị lỗi hoặc cáp PSU GPU bị hỏng?

Sau đây là thông số kỹ thuật hệ thống của tôi:

Bo mạch chủ: Gigabyte B550 Vision D Firmware 17 (firmware 1 năm tuổi, firmware hiện tại có bản cập nhật AGESA cho CPU)

CPU: AMD 5950X

RAM: G-Skill Trident Z NEO 3600MHz 4x16GB

GPU: MSI 4090 Suprim X (bản cập nhật trình điều khiển NVidia mới nhất)

PSU: Seasonic Prime TX-1000

Vỏ máy: Corsair 5000T (13 quạt Corsair SP120)

HĐH: Windows 11 mới nhất

Phần mềm điều khiển quạt: Corsair iCue (bản cập nhật mới nhất)
 
Bạn nhận được cảnh báo khởi động an toàn vì bạn đã bật TPM, hãy tắt TPM trong BIOS và cảnh báo sẽ biến mất (hoặc bật khởi động an toàn, tùy bạn chọn)
không liên quan

lỗi pnp đó không gây ra màn hình đen, lỗi này là do Windows Hello (nhận dạng khuôn mặt/vân tay/mã PIN để đăng nhập)

màn hình đen thường là do GPU, hãy kiểm tra cáp nguồn xem đã được kết nối đúng cách chưa

btw nút khởi động lại bình thường trên vỏ máy không hoạt động?
 
bạn nhận được cảnh báo khởi động an toàn vì bạn đã bật TPM, hãy tắt TPM trong bios và cảnh báo sẽ biến mất (hoặc bật khởi động an toàn, tùy bạn chọn)
không liên quan

lỗi pnp đó không gây ra màn hình đen, lỗi này là do windows hello (nhận dạng khuôn mặt/vân tay/mã pin để đăng nhập)

màn hình đen thường là do GPU, hãy kiểm tra cáp nguồn xem đã được kết nối đúng chưa

btw nút khởi động lại bình thường trên vỏ máy không hoạt động?
AFAIK, tôi phải bật TPM để đăng ký Windows 11 hay thực sự không có lý do để bật TPM?

Tôi đang sử dụng 12VHPWR thẳng từ cablemod tương thích với PSU TX 1000 của tôi và cho đến nay, nó phục vụ tôi khá tốt. Tôi đã rút phích cắm dây nguồn đó và không thấy có điểm nào bị chảy hoặc bất cứ thứ gì tương tự, vì vậy tôi chỉ có thể cho rằng nguồn điện cung cấp phải còn nguyên vẹn. Tôi biết rằng kiểm tra nó bằng Đồng hồ vạn năng có lẽ là phương pháp tốt hơn để xác định đầy đủ chức năng...

Tôi nhận thấy một điều kỳ lạ khi tôi đang chạy một số tập lệnh học máy pytorch. Quá trình đào tạo dừng lại sau khoảng 30 phút với thông báo rằng có lỗi CUDA, nhưng màn hình không bị đen lần này. Có thể đây chỉ là GPU bị hỏng và bắt đầu hoạt động thất thường không? Hoặc có thể nó chỉ bị quá tải bởi nhiệt độ mà nó phải chịu đựng trong mùa hè khá nóng nực này?

Có cách nào để tôi kiểm tra xem tất cả các lõi CUDA có thực hiện đúng chức năng của chúng không? Lõi CUDA cũng có thể gây ra màn hình đen không?

Lỗi lõi CUDA xuất hiện trước khi tôi rút phích cắm và cắm lại dây nguồn vào GPU. Có thể quy trình đơn giản này đã giúp ích, thời tiết cũng trở nên lạnh hơn một chút nên có thể điều đó cũng giúp ích.

Tôi có thể truy cập vào cả nút đặt lại và tắt máy chức năng trên vỏ máy của mình, nhưng tôi thường chỉ nhấn nút tắt máy, để PC ở đó trong một hoặc hai phút và khởi động lại từ đầu.
 
Back
Bên trên