Diagnostik Dasar untuk Kesalahan Memori ECC yang Dapat Dikoreksi/Tidak Dapat Dikoreksi dengan Intel® Server Board

Dokumentasi

Pemecahan Masalah

000024007

21/12/2023

Catatan Untuk dukungan pemecahan masalah yang dijelaskan dalam artikel ini, silakan merujuk ke Spesifikasi Produk Teknis untuk platform server Anda.

Apa yang saya lihat?

Peristiwa Error Correcting Code (ECC) yang Dapat Dikoreksi dan/atau Tidak Dapat Dikoreksi untuk modul memori. Sebagai contoh:

Mmry ECC Sensor SMI Handler Peringatan Memori CPU: 1, DIMM: D0 DIMM Peringkat: 1. - ECC yang dapat diperbaiki / kesalahan memori lain yang dapat diperbaiki - Ditegaskan.

Apa itu Peristiwa Kesalahan Koreksi Kesalahan Memori (ECC) yang Dapat Dikoreksi?

Kesalahan ECC yang dapat diperbaiki menunjukkan ambang batas untuk Modul Memori In-line Ganda (DIMM) tertentu dalam jangka waktu tertentu.


Cara memperbaikinya:

Kesalahan data memori dicatat sebagai dapat diperbaiki atau tidak dapat diperbaiki. Lihat petunjuk di bawah ini, berdasarkan jenis kesalahan yang Anda temui:

error types

Catatan
  • Jika tidak ada masalah bencana (Purple Screen of Death (PSOD) atau restart yang tidak terduga) dan kesalahan ECC yang dapat diperbaiki, termasuk kesalahan Adaptative Double Device Data Correction (ADDDC), kurang dari 10 kejadian setiap 24 jam untuk setiap lokasi DIMM, yang berada dalam batas ambang batas, rekomendasinya adalah memantau server untuk setiap terulangnya kesalahan ECC di setiap lokasi DIMM yang memicu kejadian.
  • Jika terjadi masalah bencana (Purple Screen of Death (PSOD) atau restart yang tidak terduga) dan kesalahan ECC yang dapat diperbaiki, termasuk kesalahan Adaptative Double Device Data Correction (ADDDC), kurang dari 10 kejadian setiap 24 jam untuk setiap lokasi DIMM, disarankan untuk memasang kembali setiap lokasi DIMM dengan mengikuti langkah-langkah di bawah ini:
    1. Matikan sistem dan lepaskan kabel daya AC.
    2. Identifikasi lokasi DIMM untuk memasang kembali. Lihat Spesifikasi Teknis Produk untuk platform server Anda guna mengidentifikasi lokasi DIMM.
    3. Lakukan pemasangan kembali DIMM yang teridentifikasi.
    4. Masukkan kabel daya AC dan daya kembali pada sistem.
    5. Amati selama 24 jam untuk setiap terulangnya kesalahan ECC.
    6. Jika kesalahan ECC berlanjut dengan lokasi DIM yang sama yang dipasang ulang, maka buat dan kirim log SEL dan Debug , keduanya dihasilkan dari Konsol Web BMC ke Intel Customer Support
  • Fitur pengujian memori lanjutan (AMT) diperkenalkan dalam rangkaian BIOS dan firmware yang dimulai dengan revisi BIOS 02.01.0014 untuk Sistem Server Intel® S2600BP, S2600WF, dan S2600ST; dan dimulai dengan revisi BIOS 22.01.0097 untuk Sistem Server Intel® S9200WK. Untuk produk ini, sarankan untuk mengaktifkan fitur pengujian memori lanjutan (AMT) dan perbaikan paket pos (PPR) melalui utilitas pengaturan BIOS untuk melakukan pemeriksaan penuh kesehatan memori. Lihat Bab 5 dalam Panduan Penggantian Memori dan Uji Memori Tingkat Lanjut untuk Produk Server Intel Berbasis Chipset Intel® 62X – Laporan Resmi untuk langkah-langkah detail.

Catatan

Kesalahan Kode Koreksi Kesalahan (ECC) mengoreksi diri sendiri. Tergantung pada konfigurasi keandalan ketersediaan serviceability (RAS) memori, kontroler memori terpadu (IMC) dapat mengambil DIMM yang terpengaruh offline.

Untuk platform server Intel yang berbeda, ada beberapa perbedaan dalam definisi peristiwanya, lihat Panduan Mengatasi Masalah Log Peristiwa Sistem untuk platform server Anda

Intel menyarankan untuk mengunduh dan memperbarui BIOS sistem ke versi terbaru yang tersedia untuk platform server Anda.

Jika sistem adalah Intel® Data Center Block untuk Nutanix* Enterprise Cloud, kunjungi halaman Manajer Siklus Hidup Nutanix*. Untuk daftar kompatibilitas perangkat keras dan firmware, kunjungi halaman kompatibilitas Perangkat Keras dan Firmware Nutanix*.

Topik terkait
Panduan Penggantian Memori dan Uji Memori Tingkat Lanjut untuk Produk Server Intel Berbasis Chipset Intel® 62X – Laporan Resmi
Peran Memori ECC
Cara Memulihkan dari IERR untuk Intel® Server Board
Server Saya Crash dan Menunjukkan Kesalahan ini: Mesin CPU Prosesor Chk
Untuk pembaruan firmware dan tips pemecahan masalah
Apa itu Peristiwa Kesalahan Koreksi Kesalahan Memori (ECC) yang Dapat Dikoreksi?
Alat SDLA Cara menghitung Kesalahan ECC