Hỏi / Đáp Tình huống này có thể xảy ra như thế nào? Có ai giúp được không. Biểu hiện của quỷ GPU. Vấn đề về bo mạch chủ?

grantw88

New member
Bối cảnh: Tôi có đủ kiến thức về phần cứng để trở nên 'nguy hiểm'. Tự nhận mình là người nổi tiếng, đã xây dựng một mỏ ETH 200+ GPU nhiều năm trước trên các M/B khác nhau, tất cả đều là GPU cũ từ eBay và chạy nó để kiếm lời cho một số nhà đầu tư, vì vậy tôi có thể làm những việc như dán lại mọi thứ và hàn cơ bản, nhưng thực ra tôi là một người đam mê phần mềm.

Bối cảnh vấn đề: Đã mua một cỗ máy tốt (G/Byte M/B, Core i9 và hai GPU Z790 cách đây vài năm) thực sự là 'máy tính để bàn để sử dụng chung' của tôi nhưng tôi đã chạy nó qua đêm để đào thêm một ít ETH. Theo thời gian, tôi mua một cỗ máy mới hơn (lại là G/Byte M/B, core i9, v.v.). Bạn sẽ thấy tại sao các chi tiết của những cỗ máy này có lẽ KHÔNG phải là vấn đề sau này. Chúng ta có thể gọi cỗ máy ban đầu là #1 và cỗ máy mới là #2. Khi tôi mua #2, tôi đã lấy một trong những GPU (chúng giống hệt nhau về mọi mặt, ngoại trừ số sê-ri) và đặt nó vào #2. Trong một thời gian, mọi thứ đều ổn...

Biểu hiện của vấn đề: Máy số 1 đôi khi sẽ làm những gì tôi gọi là 'máy bay'. MỌI THỨ trở nên đen kịt, GPU quay đến RPM tối đa (cả hai quạt) và về cơ bản là không cần bất kỳ đầu vào nào, chỉ cần tắt nguồn/khởi động lại cứng.

Thời gian xảy ra vấn đề: Khi #1 'máy bay' lần đầu tiên, nó đã chạy được 6 tháng, sau đó nó lại làm như vậy một tháng sau (ish), rồi lại làm như vậy một tuần sau, rồi vài ngày sau. Vì vậy, tôi nghĩ rằng có vấn đề gì đó với GPU. Lấy nó ra (không chạm vào bất cứ thứ gì khác), kiểm tra lại (nó hoàn hảo, không có vết xước, không có vết nâu, không có gì) và lắp lại, nó hoạt động tốt. Và tôi nghĩ đó là lỗi hệ điều hành kỳ lạ (Windows 11), không có gì phải lo lắng. Khoảng 6 tháng sau, không chính xác, có thể là 4 hoặc 5 tháng, nó lại khởi động lại, khởi động lại, khởi động lại sau 2 tuần, sau đó là vài ngày, và không, tôi vẫn kiên trì, và nó ngày càng gần hơn / ngắn hơn và sau khoảng một tuần, nó chỉ chạy được 5 phút rồi khởi động lại.

Đã thử giải quyết: Vì vậy, tôi kiểm tra mọi thứ, kiểm tra bộ nhớ, kiểm tra bo mạch chủ, kiểm tra GPU, bạn cứ nói, tôi kiểm tra, phần mềm và phần cứng, và mọi thứ có vẻ ổn. Vì vậy, tôi tuyên bố GPU 'đáng ngờ' và đổi máy GPU số 1 và số 2. Vì vậy, bây giờ tôi có GPU khác trong số 1. Nó chạy hoàn hảo trong vài tháng, và sau đó máy bay. Tình huống tương tự, một vài tuần sau, sau đó một vài ngày sau, sau đó một vài giờ sau. Tôi lấy GPU ra khỏi khe cắm, [giờ tôi đã khôn ngoan hơn] và lắp lại vào cùng khe cắm, khởi động, nó lại chạy trong nhiều tháng nữa.

Bối cảnh khác: Điều này đã xảy ra trong khoảng 4,5 năm nay, cả hai máy đều hoàn hảo, tuyệt vời, cả hai GPU dường như không thể phân biệt được, ngoại trừ máy số 1, 'máy bay' này vẫn xảy ra, và sau đó xảy ra thường xuyên hơn, cho đến khi tôi lấy GPU ra và lắp lại. Tôi đã cập nhật Firmware trên bo mạch chủ lên phiên bản mới nhất (ổn định) do G/Byte khuyến nghị (khoảng 2 năm trước) và tôi vẫn gặp vấn đề tương tự. TÔI nên bắt đầu tìm kiếm vấn đề ở ĐÂU?

Một số tuyên bố cụ thể:
- Tôi cảm thấy không thể là GPU, vì việc đổi chúng cũng gây ra vấn đề tương tự ở #1 và không có vấn đề gì ở #2
- Tôi cảm thấy không thể là khe cắm GPU trên bo mạch chủ, vì việc gặp vấn đề tương tự trên 2 khe cắm trên M/B có vẻ không thể xảy ra
- Không phải là bộ nhớ (DDR4), vì tôi đã đổi tất cả bộ nhớ giữa các máy, vẫn gặp vấn đề tương tự
- Không phải là PSU, tôi cũng đã đổi chúng, chúng khác nhau, nhưng cả hai máy Gold > 1000W và khi nhàn rỗi, mỗi máy đều chạy < 100w
- CÓ THỂ* là do CPU trên #1, vì tôi không có phương tiện để chuyển đổi chúng (phiên bản cụ thể trong #1 không hoạt động trong #2), nhưng chắc chắn điều này không có khả năng xảy ra trong tình huống này
- KHÔNG phải do cài đặt Windows 11.. khoảng một năm trước, SSD đã chết trên #1 và tôi có một SSD hoàn toàn mới và một bản cài đặt Win 11 hoàn toàn mới, và nó vẫn hoạt động chính xác như vậy, vì vậy tôi loại trừ SSD và tôi loại trừ Hệ điều hành
- Không phải do BIOS/FIRMWARE của M/Board, tôi đã cập nhật nó cách đây 2 năm và vấn đề vẫn tiếp diễn.

- Có khả năng xảy ra NHẤT (theo tôi) là Gigabyte m/b trên #1. Bây giờ tôi THÍCH MB G/Byte. Tôi đã gặp vấn đề với hầu như MỌI nhà sản xuất khác, và tôi từ chối sử dụng bất kỳ thứ gì ngoại trừ G/Byte hiện tại, và khi chạy 30-40 máy (thỉnh thoảng trong NHIỀU NĂM mà không có gì ngoại trừ việc khởi động lại nhanh chóng), tôi chưa bao giờ gặp vấn đề gì với bo mạch chủ G/Byte. Niềm tin của tôi có sai chỗ không? Tôi THỰC SỰ không muốn đi mua một Bo mạch chủ thay thế (100 bảng Anh?), vì vậy tôi chỉ sống chung với vấn đề này. Việc tháo GPU ra hai lần một năm hiện mất khoảng 2 phút của tôi, vì vậy nó hầu như không phải là vấn đề, NHƯNG, tôi rất muốn biết TẠI SAO?

Tôi RẤT MUỐN những người có nhiều kinh nghiệm hơn hỏi tôi những câu hỏi để cố gắng tinh chỉnh (thu hẹp) không gian vấn đề có thể xảy ra hoặc đưa ra bất kỳ đề xuất nào mà bạn có thể.

Cảm ơn bạn đã dành thời gian đọc bài viết dài dòng của tôi...

PS cuối cùng: Tôi đã đọc lại những điều trên và sửa một số lỗi đánh máy giữa #1 và #2. để tránh nghi ngờ, vấn đề xảy ra ở #1, #2 hoạt động hoàn hảo trong 5 năm; trong trường hợp tôi đã đánh máy sai mà tôi đã bỏ sót...
 
Khuyến nghị của tôi là hãy xem xét thật kỹ Lịch sử/Giám sát độ tin cậy và nhật ký Trình xem sự kiện của cả Máy 1 và Máy 2.

So sánh các nhật ký tốt nhất có thể đối với các sự kiện gần đây hơn và tất cả các lần hoán đổi, v.v. đã được thực hiện.

Tìm kiếm một số lỗi phổ biến, cảnh báo hoặc thậm chí là các sự kiện thông tin theo sau các vấn đề được mô tả.

Bắt đầu với Lịch sử/Giám sát độ tin cậy. Thân thiện hơn nhiều với người dùng cuối và định dạng dòng thời gian có thể tiết lộ một số mẫu.

Trình xem sự kiện sẽ cần nhiều thời gian và công sức hơn để điều hướng và hiểu. Tuy nhiên, có thể có nhiều thông tin và chi tiết hơn.

Để trợ giúp với Event Viewer:

Cách thực hiện - Cách sử dụng Windows 10 Event Viewer | Diễn đàn Tom's Hardware (tomshardware.com)

Trong cả hai công cụ, bạn có thể nhấp/chọn bất kỳ mục nào để biết thêm chi tiết về những gì đã xảy ra. Các chi tiết có thể hữu ích hoặc không. Mã lỗi, hệ điều hành và tham chiếu phần mềm đều quan trọng.

Cụ thể, bạn đang tìm kiếm các mục đã ghi ngay trước hoặc tại thời điểm xảy ra sự kiện máy bay/màn hình đen được mô tả.

Hãy nhớ rằng bất cứ điều gì đang xảy ra có thể không có một nguyên nhân duy nhất. Có thể có một số "cơn bão hoàn hảo" của các nguyên nhân, đó là lý do tại sao hành vi lại không liên tục như vậy. "Nguyên nhân" bao gồm cả phần mềm.
 
Cảm ơn Ralston18, tôi là một quản trị viên hệ thống Linux cũ, và tôi đã xem nhật ký EventVwr nhiều lần, quên đề cập đến điều đó. Không có gì trong nhật ký (trừ thông tin) trong Ứng dụng hoặc Bảo mật hoặc Hệ thống có vẻ liên quan theo bất kỳ cách nào, chỉ có lỗi khi khởi động ghi chú rằng hệ thống đã tắt đột ngột.

Tôi CHƯA BAO GIỜ gặp Lịch sử độ tin cậy và sự cố trước đây, rất thú vị. Chỉ có 1 mục nhất quán, đó là sự cố DWM. Suy nghĩ hiện tại của tôi là DWM có thể bị sập khi tôi tắt máy, nhưng DWM CÓ THỂ bị sập và tất nhiên là gây ra sự cố. Có vẻ *hơi* kỳ lạ trên nhiều GPU và nhiều cài đặt hệ điều hành, nhưng chắc chắn nó đã cung cấp cho tôi một góc nhìn để cố gắng chia đôi vấn đề, cảm ơn sự giúp đỡ/đầu vào của bạn, tôi rất trân trọng.
 
Vâng, thưa ông Ralston18, tôi KHÔNG BIẾT ông đã chỉ ra vấn đề chưa, nhưng tôi CÓ THỂ nói với ông rằng #2 *có* hỗ trợ GPU, còn #1 *không* và cả hai máy đều chạy theo chiều dọc, vì vậy đây *thực sự* có thể là vấn đề. Tôi sẽ đưa vào hỗ trợ GPU và nếu vấn đề không tái diễn trong một năm (giả sử) thì ông đã giải quyết được rồi!

Cảm ơn ông một lần nữa

P.S. Tôi đã tìm kiếm ông trên 'buymeacoffee.com' và nếu ông đăng ký, vui lòng trả lời chủ đề này và tôi sẽ là người quyên góp đầu tiên của ông 😎
 
Back
Bên trên