Megacli Erreur critique

 

Petite alerte de Nagios en cet après midi d'automne froid et ensoleillé :

CRITICAL: 0:0:RAID-1:2 drives:1.817TB:Degraded Drives:2 1 Bad Drives

Ok mais c'est quoi cette erreur ?

Revenons un peu en arrière.

J'ai plusieurs serveurs chez OVH avec des disques en Raid matériel, ce qui permet d'assurer un taux de disponibilité plus important pour mes hébergements.

Ces serveurs disposent d'un contrôleur Raid LSI Logic / Symbios Logic MegaRAID SAS 2108 et les disques sont en Raid 1.

Comme tout bon infogérant, je supervise pas mal de choses sur les machines dont l'état des disques du Raid. J'utilises donc une sonde check_megaraid_sas qui permet via le binaire megacli d'avoir les remontées d'information de la carte Raid.

Et donc aujourd'hui voici que j'ai une belle alerte rouge sur une machine. Avant de contacter le support de l'hébergeur je vais donc aller à la pêche aux infos.

Première méthode

A la première lecture de l'alerte j'en déduit donc qu'il y a un problème sur un des disques, j'utilises donc la commande megacli pour avoir plus d'infos.

La commande pour obtenir les infos sur l'état des disques est la suivante :

# megacli -LDPDInfo -aAll

Bon c'est bien joli mais vu la sortie de cette commande faut faire un peu de tri.

Premier bloc d'informations :


Adapter #0
Number of Virtual Disks: 1
Virtual Drive: 0 (Target Id: 0)
Name                :
RAID Level          : Primary-1, Secondary-0, RAID Level Qualifier-0
Size                : 1.817 TB
Sector Size         : 512
Is VD emulated      : Yes
Mirror Data         : 1.817 TB
State               : Degraded
Strip Size          : 64 KB
Number Of Drives    : 2
Span Depth          : 1
Default Cache Policy: WriteBack, ReadAdaptive, Cached, Write Cache OK if Bad BBU
Current Cache Policy: WriteBack, ReadAdaptive, Cached, Write Cache OK if Bad BBU
Default Access Policy: Read/Write
Current Access Policy: Read/Write
Disk Cache Policy   : Disk's Default
Encryption Type     : None
Bad Blocks Exist: No
Is VD Cached: No
Number of Spans: 1
Span: 0 - Number of PDs: 2

On a ici les informations du "disque virtuel" créé par le paramétrage Raid. Et on y retrouve bien l'information comme quoi il y a un problème : State : Degraded

Continuons l'analyse :


PD: 0 Information
Enclosure Device ID: 252
Slot Number: 0
Drive's position: DiskGroup: 0, Span: 0, Arm: 0
Enclosure position: N/A
Device Id: 4
WWN: 5000039ff3c93a2a
Sequence Number: 3
Media Error Count: 0
Other Error Count: 0
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
PD Type: SATA
Raw Size: 1.819 TB [0xe8e088b0 Sectors]
Non Coerced Size: 1.818 TB [0xe8d088b0 Sectors]
Coerced Size: 1.817 TB [0xe8b6d000 Sectors]
Sector Size: 0
Logical Sector Size: 0
Physical Sector Size: 0
Firmware state: Failed
Commissioned Spare : No
Emergency Spare : No
Device Firmware Level: ABB0
Shield Counter: 0
Successful diagnostics completion on : N/A
SAS Address(0): 0x4433221100000000
Connected Port Number: 0(path0)
Inquiry Data: 23RN97XGSTOSHIBA DT01ACA200 MX4OABB0
FDE Capable: Not Capable
FDE Enable: Disable
Secured: Unsecured
Locked: Unlocked
Needs EKM Attention: No
Foreign State: None
Device Speed: 6.0Gb/s
Link Speed: 6.0Gb/s
Media Type: Hard Disk Device
Drive: Not Certified
Drive Temperature :23C (73.40 F)
PI Eligibility: No
Drive is formatted for PI information: No
PI: No PI
Drive's NCQ setting : N/A
Port-0 :
Port status: Active
Port's Linkspeed: 6.0Gb/s
Drive has flagged a S.M.A.R.T alert : No

On a ici toutes les infos sur le premier disque physique : PD: 0 Information et l'information comme quoi c'est lui le coupable du problème : Firmware state: Failed, le second disque n'a pas de soucis : Firmware state: Online, Spun Up.

On peut donc renvoyer les infos à l'hébergeur avec précisions car on a l'emplacement du disque, et son numéro de série.

 

Seconde méthode

On peut aussi aller à la péche aux infos dans les logs de la carte :

# megacli -AdpAlILog -aALL | more

NB : ne surtout pas oublier le "|more" car la sortie est très longue.

Voici l'extrait qui nous intéressent :


                              Device Information
                              ==================

Device Name:       ATA                      Product Id:          TOSHIBA DT01ACA2
Rev:               ABB0                     Vendor Specific:                23RN97XGS
Device Type:       DISK                     Device ID:           4 
SAS Address 0:     0x4433221100000000       SAS Address 1:       0x0
Media Error:       0                        Other Error:         0
PredictiveFail:    0                        Firmware State:      Failed
Speed:             6.0Gb/s                  DDF State:           SATA
Primary Defect:    ---                      Grown Defect:        ---
Raw size:          1907729 MB               Non-coerced size:    1907217 MB
Coerced size:      1906394 MB               Enclosure index:     1 
Path Count:        1                        Slot Number          0 


Device Name:       ATA                      Product Id:          TOSHIBA DT01ACA2
Rev:               ABB0                     Vendor Specific:                23RN980GS
Device Type:       DISK                     Device ID:           7 
SAS Address 0:     0x4433221101000000       SAS Address 1:       0x0
Media Error:       0                        Other Error:         0
PredictiveFail:    0                        Firmware State:      Online
Speed:             6.0Gb/s                  DDF State:           SATA
Primary Defect:    ---                      Grown Defect:        ---
Raw size:          1907729 MB               Non-coerced size:    1907217 MB
Coerced size:      1906394 MB               Enclosure index:     1 
Path Count:        1                        Slot Number          1 

Il est possible de lancer un diagnostique pour affiner les informations :

# megacli -AdpDiag -a0

Ce qui donne des infos qui peuvent être utile pour le support :


12/06/14 15:40:45: DiagSelfCheck: Starting self check diagnostics test duration = 20 secs
12/06/14 15:40:45: diag start addr=8a09c758 total diag size=346 Mb
12/06/14 15:40:45:  EVT#20525-12/06/14 15:41:05: 215=DMA test completed 376 passes successfully
12/06/14 15:41:05: EVT#20526-12/06/14 15:41:05: 215=XOR test completed 189 passes successfully
12/06/14 15:41:05: EVT#20527-12/06/14 15:41:05: 216= test FAILED on 0 pass. Fail data: errorOffset=0 goodData=0 badData=0
12/06/14 15:41:05: EVT#20528-12/06/14 15:41:05: 215=Memory test completed 4 passes successfully
12/06/14 15:41:05: EVT#20529-12/06/14 15:41:05: 215=NVRAM test completed 753 passes successfully
12/06/14 15:41:05: Self check diagnostics completed
12/06/14 15:41:05: EVT#20530-12/06/14 15:41:05: 217=Self check diagnostics completed
12/06/14 15:41:05: init_cache: recoverCache = 0 pinned_cache_present = 0
12/06/14 15:41:05: Memory End 9ffffff0
12/06/14 15:41:05: Total memory available for disk cache: 15f63478
12/06/14 15:41:05: Total Number of Cache Lines 5549
12/06/14 15:41:05: SS 128: ss=7 mrs=2  lc=5549 ldc=1  ps=4 cm=ff ba=0 LDs: 0
12/06/14 15:41:05: Cache initialization complete...Config info
12/06/14 15:41:05: ARs configured: 1
12/06/14 15:41:05: Ar 0: size=e8b6d000, activeLd=1, numPd=2, seq=0, powerSave=0 powerSaveInProgress=0 PDs: 04(fc/0) 07(fc/1)
12/06/14 15:41:05: LD  0: L=1  SS=128  Size=e8b6d000  NL=5549  Status=2  DT=2441  BT=3868, Encr=0, prop=[ID=00,dcp=7d,ccp=7d,ap=0,dc=0,dbgi=0,S=0|0,dps=fe,cps=fe]
12/06/14 15:41:05:        span 0: sBlk=00000000, nBlk=e8b6d000, ar=0
12/06/14 15:41:05: max-flush (Ar 0): 0x30
12/06/14 15:41:05: setup_cache_headers: ***** totalDirtyLines: 0  recoverCache: 0
12/06/14 15:42:27: DiagSelfCheck: Starting self check diagnostics test duration = 20 secs
12/06/14 15:42:27: diag start addr=8a09c758 total diag size=346 Mb
12/06/14 15:42:27:  EVT#20531-12/06/14 15:42:47: 215=DMA test completed 374 passes successfully
12/06/14 15:42:47: EVT#20532-12/06/14 15:42:47: 215=XOR test completed 188 passes successfully
12/06/14 15:42:47: EVT#20533-12/06/14 15:42:47: 216= test FAILED on 0 pass. Fail data: errorOffset=0 goodData=0 badData=0
12/06/14 15:42:47: EVT#20534-12/06/14 15:42:47: 215=Memory test completed 4 passes successfully
12/06/14 15:42:47: EVT#20535-12/06/14 15:42:47: 215=NVRAM test completed 748 passes successfully
12/06/14 15:42:47: Self check diagnostics completed
12/06/14 15:42:47: EVT#20536-12/06/14 15:42:47: 217=Self check diagnostics completed
12/06/14 15:42:47: init_cache: recoverCache = 0 pinned_cache_present = 0
12/06/14 15:42:47: Memory End 9ffffff0
12/06/14 15:42:47: Total memory available for disk cache: 15f63478
12/06/14 15:42:47: Total Number of Cache Lines 5549
12/06/14 15:42:47: SS 128: ss=7 mrs=2  lc=5549 ldc=1  ps=4 cm=ff ba=0 LDs: 0
12/06/14 15:42:47: Cache initialization complete...Config info
12/06/14 15:42:47: ARs configured: 1
12/06/14 15:42:47: Ar 0: size=e8b6d000, activeLd=1, numPd=2, seq=0, powerSave=0 powerSaveInProgress=0 PDs: 04(fc/0) 07(fc/1)
12/06/14 15:42:47: LD  0: L=1  SS=128  Size=e8b6d000  NL=5549  Status=2  DT=2441  BT=3868, Encr=0, prop=[ID=00,dcp=7d,ccp=7d,ap=0,dc=0,dbgi=0,S=0|0,dps=fe,cps=fe]
12/06/14 15:42:47:        span 0: sBlk=00000000, nBlk=e8b6d000, ar=0
12/06/14 15:42:47: max-flush (Ar 0): 0x30
12/06/14 15:42:47: setup_cache_headers: ***** totalDirtyLines: 0  recoverCache: 0

Sources

Pour ceux qui voudraient plus d'informations :
http://www.admin-linux.fr/?p=8535
http://www.mostlychris.com/blog/2009/07/29/check-raid-status-with-megacli/