Memecahkan masalah konten untuk membantu menemukan modul memori yang rusak
Bagaimana cara menentukan lokasi Central Processing Unit (CPU) yang tepat (1 atau 2) dan bank Dual in-line memory modules (DIMM) ketika ada modul memori yang mencurigakan dan rusak?
Lanjutkan seperti yang ditunjukkan di bawah ini, yang didasarkan pada langkah-langkah diagnostik untuk menemukan DIMM yang menyebabkan IErr ECC_error:
Catatan | Pastikan alat ipmitool (lihat IPMI, V2.0, Alat Uji Perintah) dimuat pada, atau tersedia untuk dijalankan pada node tersebut. Ini akan memungkinkan Anda untuk memeriksa Log Peristiwa Sistem (yang merupakan biner). |
Catatan |
Periksa Log Peristiwa Sistem dengan melihat Daftar Diperpanjang dengan cara ini:
#sudo ipmitool sel elist | Kurang
1c | 24/08/2018 | 22:51:49 | Sensor ECC Memori Mmry | ECC yang Tidak Dapat Dikoreksi | Menegaskan
1d | 24/08/2018 | 22:51:49 | Sensor ECC Memori Mmry | ECC yang Tidak Dapat Dikoreksi | Menegaskan Kemudian Anda dapat memeriksa entri apa pun di Log Peristiwa Sistem dengan merujuk ke nilai Heksadesimal (HEX) di kolom pertama: #sudo ipmitool sel dapatkan 0x1c
ID Rekaman SEL: 001c Tipe Catatan : 02 Stempel Waktu : 08/24/2018 22:51:48 ID Genset: 0033 Revisi EvM : 04 Jenis Sensor : Memori Nomor Sensor : 02 Jenis Peristiwa: Descrete khusus sensor Arah Acara : Peristiwa Pernyataan Data Peristiwa (RAW) : a10103 Interpretasi Peristiwa : Hilang Deskripsi : ECC yang tidak dapat dikoreksi ID Sensor: Sensor ECC Mmry (0x2) ID Entitas : 32.1 (Perangkat Memori) Jenis Sensor : Memori (0x0c) |
Men-debug lokasi log Data Peristiwa (RAW)
- Masukkan angka itu ke dalam kalkulator:
- Lihatlah nilai Biner (BIN), khususnya 8 byte terakhir. Pada gambar di atas, lihat bit paling kanan (seperti yang disorot).
- Ubah itu menjadi desimal dan seperti yang ditunjukkan tabel di bawah ini, bit paling kanan mewakili nilai soket DIMM: 0 = A, 1 = B, 2 = C, 3 = D, dan seterusnya.
Bit paling kanan kedua mewakili soket CPU.
Dalam hal ini, b0000 = CPU1. b0001 akan sama dengan CPU2.
Saat menggunakan IPMI, tidak mungkin untuk mendapatkan tingkat detail seperti yang ditampilkan pada Baseboard Management Controller (BMC) Web Graphical User Interface (GUI). Namun, Anda dapat menggunakan Redfish dengan menjalankan perintah berikutnya: curl -k -u <user>:<password> https://<ip>/redfish/v1/Systems/<serial #>/LogServices/SEL/Entries?$skiptoken=0.
Catatan |
Skiptoken adalah tempat untuk memulai. Biasanya akan mengembalikan 50 catatan, jadi skiptoken akan menjadi 0, 50, 100, dan seterusnya. Di akhir tanggapan, ini memberi tahu Anda apa skiptoken berikutnya yang harus terus membaca. |
Atau, Anda dapat menggunakan Intel® Server Debug and Provisioning Tool (Intel® SDP Tool) dari sistem manajer server Anda yang menjalankan perintah SDPtool <ipv4> <username> <password> debuglog <filename> .