Nguyên nhân nào có thể gây ra hiện tượng này? GPU của tôi bị lỗi hay có thể là do nguyên nhân nào khác?

maquis

New member
Xin chào!

Tôi có một chiếc PC tự chế mà tôi đã thiết lập cách đây khoảng 2 năm để làm nghệ thuật 3D bằng Blender. Nó bao gồm một CPU Ryzen 9 5950x, GPU RTX 3080 ti. Tuần này, tôi đang kết xuất một hình ảnh động và tôi nhận thấy rằng mỗi khung hình của hình ảnh động mất nhiều thời gian hơn để kết xuất, mặc dù các khung hình khá giống nhau. Vài khung hình đầu tiên mất khoảng 2-3 phút để kết xuất và đến khung hình thứ 27, tôi đã tắt kết xuất sau khi nó đã chạy trong 2,5 giờ. Tôi đã cân nhắc đến khả năng rò rỉ bộ nhớ (mặc dù trước đó tôi đã thực hiện các bản kết xuất dài hơn nhiều mà không gặp sự cố), vì vậy tôi đã thử đóng Blender và thậm chí đăng xuất hoàn toàn khỏi tài khoản của mình trên máy tính, sau đó khởi động lại bản kết xuất, nhưng tôi vẫn không thể thực hiện bất kỳ tiến triển nào khi khởi động lại.

Vì vậy, tôi đã khởi động lại. Khi tôi tắt máy, phải mất khá nhiều thời gian để bắt đầu khởi động lại và sau đó tôi nhận được thông báo BIOS cho biết rằng tôi có CPU mới và cần thiết lập lại BIOS. (Tôi không nhớ văn bản của thông báo đó, nhưng tôi nghĩ rằng nó khá chuẩn khi bạn thay đổi CPU của mình). Tất cả những gì tôi đã làm là khởi động lại, nhưng tôi đã vào và đặt lại cài đặt BIOS của mình (gần như là mặc định ngoại trừ XMP đang bật), sau đó khởi động lại. Lần này, khởi động lại bản kết xuất ở khung hình 27 diễn ra rất tốt và nó đã trở lại mức kết xuất ~ 2,5 phút trong một vài khung hình, sau đó bắt đầu chậm lại. Đến khoảng khung hình 35, tôi đã tắt nó vì nó đã diễn ra trong hơn một giờ và đã hoàn thành 10% khung hình.

Khởi động lại lần nữa. Lần này, không có gì kỳ lạ trong quá trình khởi động lại, nhưng khi nó trở lại, các bản kết xuất vẫn không di chuyển ở bất kỳ tốc độ nào gần với tốc độ hợp lý. Có một vài lần khi tôi bắt đầu kết xuất, nó ngừng tuyên bố hết bộ nhớ GPU trong vòng vài phút, nhưng khi nó không có vấn đề về bộ nhớ GPU, thì rõ ràng là khi nó bắt đầu thực hiện các mẫu, chúng tôi đang xem một khung hình kéo dài nhiều giờ, vì vậy tôi đã hủy kết xuất. Hủy kết xuất bị treo khá tệ và thường yêu cầu sử dụng Trình quản lý tác vụ để tắt hoàn toàn Blender.

Vì vậy, tôi đã chuyển Blender sang kết xuất bằng CPU thay vì GPU. Hoạt động tốt -- 12-15 phút cho mỗi khung hình, tệ hơn so với 2,5 phút, nhưng khá hợp lý đối với kết xuất CPU. Nó có thể thực hiện nhiều khung hình liên tiếp mà không có bất kỳ thay đổi đáng kể nào về thời gian kết xuất cho mỗi khung hình, vì vậy có vẻ như nó không gặp vấn đề gì với điều đó.

Tôi cũng có thể di chuyển tệp blender sang một máy tính có thông số kỹ thuật tương tự và xác minh rằng máy tính kia có thể thực hiện 30+ khung hình liên tiếp ở chế độ kết xuất GPU mà không có thay đổi đáng kể về tốc độ kết xuất trên mỗi khung hình, do đó, tốc độ chậm lại có vẻ là do máy cụ thể.

Vì vậy, *có vẻ* với tôi rằng đây là lỗi GPU hoặc có thể là lỗi RAM GPU? Có vẻ như đó là một kết luận hợp lý không? Có điều gì khác mà tôi còn thiếu có thể gây ra loại lỗi này không? Hoặc có điều gì khác mà tôi nên thử/kiểm tra trước khi trải qua quy trình RMA kéo dài hơn 3 tuần không? (GPU vẫn còn trong thời hạn bảo hành.... mặc dù tôi rất muốn có lý do để nâng cấp, nhưng tôi muốn được thay thế miễn phí).

Thành thật mà nói, tôi vừa mới thay CPU trong máy này cách đây khoảng 2 tháng do CPU bị hỏng, vì vậy tôi tự hỏi liệu có thứ gì khác b0rk3d trong máy gây ra lỗi phần cứng lặp đi lặp lại không, mặc dù tôi thừa nhận rằng với nghệ thuật 3D, tôi đang đẩy máy tính khá mạnh và thường xuyên thực hiện các bản kết xuất / hoạt ảnh dài. Tôi có hệ thống làm mát khá tốt và bất cứ khi nào tôi kiểm tra, nhiệt độ CPU và GPU thường nằm trong phạm vi bình thường. (Tôi có hệ thống làm mát bằng nước iCue cho CPU và vỏ máy có tổng cộng 10 quạt...). Tôi sử dụng PSU Corsair HX1200 và có vẻ ổn. Tuy nhiên, tôi thừa nhận rằng tôi không giỏi về phần cứng và đây là chiếc máy đầu tiên tôi từng chế tạo, vì vậy nếu có điều gì đó tôi có thể làm để khiến hai thành phần hỏng gần nhau như vậy, sau 2 năm chế tạo, tôi muốn sửa nó!

Cảm ơn bạn rất nhiều vì đã giúp đỡ!
 
Khi đăng một chủ đề về bản chất khắc phục sự cố, bạn nên đưa vào thông số kỹ thuật đầy đủ của hệ thống. Vui lòng liệt kê thông số kỹ thuật cho bản dựng của bạn như sau:
CPU:
Bộ làm mát CPU:
Bo mạch chủ:
Ram:
SSD/HDD:
GPU:
PSU:
Khung máy:
Hệ điều hành:
Màn hình:
bao gồm tuổi của PSU ngoài nhãn hiệu và kiểu máy. Phiên bản BIOS cho bo mạch chủ của bạn tại thời điểm này.

Thời gian trong BIOS có thay đổi thành 00:00/12:00 không? Nếu có, bạn có thể muốn thay pin CMOS bằng một cell mới.
 
CPU: ryzen 9 5950x
Bộ làm mát CPU: icue h100i RGB pro x
Bo mạch chủ: gigabyte x570 Aorus master
Ram: Corsair 128gb. Khá chắc chắn là vengeance RGB pro. 4 thanh 32gb. Tất cả đều vượt qua memtest một tháng trước.
SSD/HDD: Samsung m.2s. a 970 pro và 980 pro
GPU: gigabyte rtx 3080 ti gaming OC 12gb
PSU: Corsair hx1200
Vỏ máy: Corsair 5000d flows
HĐH: win11
Màn hình: không nhớ nhưng điều này không liên quan ở đây.
 
Khi đăng một chủ đề về khắc phục sự cố, thông thường bạn nên đưa vào thông số kỹ thuật đầy đủ của hệ thống. Vui lòng liệt kê thông số kỹ thuật cho bản dựng của bạn như sau:
CPU:
Bộ làm mát CPU:
Bo mạch chủ:
Ram:
SSD/HDD:
GPU:
PSU:
Khung máy:
Hệ điều hành:
Màn hình:
bao gồm tuổi của PSU ngoài nhãn hiệu và kiểu máy. Phiên bản BIOS cho bo mạch chủ của bạn tại thời điểm này.

Thời gian trong BIOS có thay đổi thành 00:00/12:00 không? Nếu có, có thể bạn muốn thay pin CMOS bằng một cell mới.
Đã thêm phản hồi cung cấp thông tin chi tiết được liệt kê.

Tôi không chú ý đến việc thời gian BIOS có được đặt lại không. Tôi có thể kiểm tra xem nó có đặt lại không, nhưng các lần khởi động lại trong tương lai không đặt lại BIOS. Tuy nhiên, pin CMOS sẽ không gây ra sự cố khi máy đang chạy, phải không?
 
Ồ, có vẻ như không phải do card màn hình. Tôi đã đổi card màn hình với máy tính của vợ tôi (thông số kỹ thuật tương tự) và máy tính của anh ấy vẫn có thể kết xuất nhanh trong khi máy tính của tôi vẫn *chậm kinh khủng*.

Vậy, nguyên nhân nào khác có thể gây ra tình trạng này? Không phải do kết xuất CPU chậm, vì CPU và RAM hệ thống sử dụng nhiều hơn. Tình trạng chậm xảy ra trong thời gian chạy các mẫu -- chúng dường như tải mọi thứ vào bộ nhớ GPU và lưu kết xuất đã hoàn thành với tốc độ tương tự, vì vậy có vẻ như không phải là sự cố về đĩa. Liệu đó có phải là sự cố về bo mạch chủ không??? Hay là vấn đề gì khác???

Sau khi sự cố bắt đầu, tôi đã cập nhật lên trình điều khiển Nvidia studio mới nhất, nhưng điều đó không giải quyết được vấn đề gì....
 
Vâng, có vẻ như không phải do card màn hình. Tôi đã đổi card màn hình với máy tính của vợ tôi (thông số kỹ thuật tương tự) và máy tính của anh ấy vẫn có thể hiển thị nhanh trong khi máy tính của tôi vẫn *chậm một cách đau đớn*.

Vậy, điều gì khác có thể gây ra điều này? Nó không chậm trên kết xuất CPU, sử dụng CPU và RAM hệ thống nhiều hơn. Sự chậm chạp là trong thời gian chạy các mẫu -- chúng dường như tải mọi thứ vào bộ nhớ GPU và lưu kết xuất đã hoàn thành với tốc độ tương tự, vì vậy có vẻ như không phải là sự cố đĩa. Điều đó có khiến nó trở thành sự cố bo mạch chủ không??? Hay là điều gì khác???

Sau khi sự cố bắt đầu, tôi đã cập nhật lên trình điều khiển Nvidia studio mới nhất, nhưng điều đó không giải quyết được bất cứ điều gì....
Chắc chắn là một vấn đề kỳ lạ. Sẽ rắc rối như thế nào nếu gỡ cài đặt/cài đặt lại Blender?
 
Chắc chắn là một vấn đề kỳ lạ. Gỡ cài đặt/cài đặt lại Blender sẽ rắc rối đến mức nào?
Thực ra hôm nay tôi đã đi theo hướng đó.

Cập nhật thú vị từ đêm qua: Tôi đã cài đặt sạch trình điều khiển Nvidia, nhưng không có tác dụng gì.

Tôi đã thử kết xuất một cảnh đơn giản hơn (một cảnh có ít khối lượng hơn và không có VDB), và nó kết xuất với cùng tốc độ trên cả hai máy mà tôi có quyền truy cập. Điều này có thể chỉ đơn giản là do cảnh đơn giản.

Thú vị hơn nhiều, tôi đã thử hoán đổi tính toán GPU từ CUDA sang Optix và máy tính của tôi có thể kết xuất ở tốc độ bình thường. Vì vậy, nó là b0rk3d trên CUDA, nhưng không phải Optix, điều này khiến tôi nghĩ rằng đây có nhiều khả năng là sự cố phần mềm hơn là sự cố phần cứng. (Máy kia vẫn đang sử dụng CUDA, vì vậy cảnh không thể hoạt động trong CUDA không phải là vấn đề).

Tôi sẽ thử xóa hoàn toàn tất cả các cài đặt và tiện ích bổ sung của Blender để xem điều đó có giúp ích không. Máy của chồng tôi không cài đặt bất kỳ tiện ích bổ sung nào vào Blender vì anh ấy không sử dụng Blender và tôi chỉ sử dụng nó thỉnh thoảng để kết xuất thêm. Vì vậy, có thể một trong các tiện ích bổ sung của tôi đang làm hỏng mọi thứ hoặc có tệp bộ đệm bị hỏng ở đâu đó hoặc đại loại thế. (Đặc biệt nghi ngờ về tiện ích bổ sung mà tôi sử dụng để quản lý/làm việc với vdb).

Hy vọng tôi có thể sớm tìm ra cách giải quyết. Trường hợp tệ nhất, tôi chỉ chuyển sang dựng Optix vĩnh viễn, ít nhất là đối với những cảnh phức tạp hơn này, nhưng tôi thường gặp lỗi lạ trong Optix hơn là trong CUDA, vì vậy tôi muốn có CUDA ít nhất là một tùy chọn.

Cảm ơn!
 
Có thể có một số nguyên nhân gây ra hành vi mà bạn đang thấy. Trước khi đưa ra kết luận về GPU của bạn, hãy thử kiểm tra các sự cố phần mềm như trình điều khiển lỗi thời hoặc cài đặt bị hỏng. Nếu những điều đó có vẻ ổn, hãy theo dõi nhiệt độ GPU của bạn để xem nó có quá nóng không. Ngoài ra, hãy cân nhắc chạy thử nghiệm ứng suất để xác định bất kỳ lỗi phần cứng tiềm ẩn nào. Đôi khi, ngay cả kết nối lỏng lẻo hoặc sự cố nguồn điện cũng có thể là thủ phạm. Hãy bắt đầu với các bước này và bạn có thể xác định chính xác vấn đề mà không cần GPU mới!
Vâng, tôi thực sự rất bối rối về nguyên nhân gây ra sự cố này. Đôi khi, Optix dường như hoàn thành mọi thứ khá nhanh và đôi khi Optix cũng chậm. Có vẻ như không phải do GPU, nhưng tôi không thấy nhiệt độ đặc biệt cao (3 cảm biến, 66, 70, 76C khi kết xuất) và đôi khi tôi thấy máy chậm ngay cả sau khi máy tính đã tắt một lúc. Nhưng có thể quạt không làm tốt công việc của chúng? Nhiệt độ giảm khá nhanh (50, 60, 60) sau khi kết xuất bị tắt hoặc hoàn tất.

Tôi đã xóa hoàn toàn tất cả các cài đặt/tiện ích bổ sung của Blender và gỡ cài đặt Blender hoàn toàn (xóa tất cả các tệp tạm thời mà tôi có thể tìm thấy), sau đó cài đặt Blender mới. Tôi thực sự rất bối rối về toàn bộ sự việc vì *cảm giác* như nó sẽ hoạt động bình thường, nhưng nó không hoạt động!
 
Back
Bên trên