Cara Memulihkan dari Kesalahan Internal (IERR) untuk Intel® Server Boards

Dokumentasi

Pemecahan Masalah

000006043

17/07/2023

Apa yang saya lihat?

IERR adalah kesalahan bencana yang dilaporkan oleh prosesor tetapi umumnya disebabkan oleh perangkat di luar inti prosesor (misalnya, memori, PCIe).

  • Eksekusi prosesor terhenti karena biasanya ada peristiwa di luar prosesor.
  • Masalah ini sering disertai dengan peristiwa CATERR yang dapat dirujuk silang untuk informasi tambahan.

Cara memperbaikinya:

Ikuti langkah-langkah berikut ini dalam rangka:

  1. Tinjau Log Peristiwa Sistem (SEL) untuk peristiwa Kode Koreksi Kesalahan (ECC). Memori cacat dapat memicu IERR.
  2. Tinjau SEL untuk acara PCIe apa pun. Perangkat PCIe yang tidak berfungsi dapat memicu IERR.
  3. Pastikan driver Sistem Operasi (OS) diperbarui untuk server serta untuk perangkat keras yang baru ditambahkan. Driver OS yang sudah tidak berlaku dapat memicu IERR.
  4. Periksa log OS untuk entri Arsitektur Pemeriksaan Mesin (MCA) apa pun yang mungkin mengindikasikan kesalahan perangkat keras yang dapat memicu IERR.
  5. Konfirmasikan bahwa Anda memiliki BIOS terbaru untuk sistem server.
  6. Buka Baseboard Management Controller Web Console > Konfigurasi Memori > Jenis > PPR dan atur pengaturan PPR ke Hard.
  7. Jika log mengonfirmasi bahwa ada modul memori tertentu yang dapat menyebabkan masalah, lanjutkan untuk memasang kembali stik memori dan memantau server selama 24 jam.

Topik terkait
Server saya mengalami crash dan menunjukkan galat ini: Mesin CPU Prosesor Chk
Untuk pembaruan firmware dan tips pemecahan masalah
Panduan Pemecahan Masalah Log Peristiwa Sistem untuk Intel® Server Board