Welcome, Guest. Please login or register.
Did you miss your activation email?

Author Topic: [DE] Brauche Hilfe zur Interpretation von smart-Test  (Read 3478 times)

Offline ayla

  • User
  • Posts: 1.744
[DE] Brauche Hilfe zur Interpretation von smart-Test
« on: 2011/08/28, 09:32:54 »
Hallo,

ich habe zwei gleiche Festplatten, die auch einige Zeit zusammen als Software-Raid (mdraid) gelaufen waren, seit einiger Zeit aber getrennt, wobei sda ständig in Gebrauch war, sdb meistens nicht.

Gestern ist mir aufgefallen daß Operationen die mit verschieben von Daten auf der Festplatte zu tun haben extrem lange dauern.
Deshalb habe ich mal die smartmontools installiert und den Test laufen lassen. Bei sdb den offline-Test, bei sda nur den Kurztest.

Die Ergebnisse hab ich hier gepastet.

Was mich stutzig macht ist daß die Werte der Tests die "pre-fail" liefern bei beiden Platten exakt identisch sind, bei der Temperatur nur geringfügig abweichen. Wobei mir >150°C als aktueller Wert(value) und 112° als "worst" doch spanisch vorkommen.

Daß sda auch eine Fehlerliste liefert, sdb aber (noch) nicht ließe ja darauf schließen daß die pre-fail Warnung korrekt ist und sda durch den häufigeren Gebrauch da einfach nur schon einen Schritt weiter...
Trotzdem sollten doch nicht zwei Platten, die gerade mal knapp 3 Jahre auf'm Buckel haben, relativ gleichzeitig den Geist aufgeben -mit den gleichen Fehlern.

Soweit ich weiß ist dieser smart-test ein interner Test der Platten, und der Controller hat mit dem Test an sich nichts zu tun, so daß dieser als Fehlerquelle auszuschließen wäre.

Könnte sich bitte mal jemand der mehr davon versteht als ich -was nicht besonders schwierig sein dürfte :) - die Liste ansehen und mir sagen wie zuverlässig diese Tests sind und ob meine Interpretation soweit richtig ist?

Offline dieres

  • User
  • Posts: 786
Brauche Hilfe zur Interpretation von smart-Test
« Reply #1 on: 2011/08/28, 12:56:15 »
Wenn Du was einfaches und verständliches zu den SMART Ausgaben findest, poste das bitte hier. Ich suche auch gerade danach.

Was ich bisher gelesen habe ist es wohl leider so, das die Hersteller ihr eigenes Süppchen kochen in den Werten. So das die
Standard Bewertung meist nicht richtig ist.

Bei Dir wenn ich das richtig lese 0% Restlaufzeit für beide Platten, wobei sdb nicht einen error gemeldet hat, im Gegensatz zu sda, so das ich glaube das sdb wohl noch tut. Gibt es ein Hersteller Util, das Du ausführen kannst um das gegenzuprüfen?

Die Daten auf sda würde ich umgehend sichern.

Den Link von der_bud auf mein Thread "festplatte gibt den Löffel ab?" hast  Du gelesen?

Offline ayla

  • User
  • Posts: 1.744
Brauche Hilfe zur Interpretation von smart-Test
« Reply #2 on: 2011/08/28, 13:55:38 »
Hallo dieres,

Danke erstmal.
Und nein, den Thread hatte ich nicht gefunden. Der wikipedia-Beitrag erklärt ja ein bischen was. ähem, was nicht heißt daß ich jetzt viel schlauer wäre...  :( .
Immerhin ist mir jetzt mal klar daß ich mal schauen muß ob ich irgendwo Werte für meine Samsung-Platten finde und daß das was ich für Celsiuswerte gehalten habe was ganz anderes ist.
Daß die Raw-Value für Raw_Read_Error_Rate und Reallocated_Sector_Ct jeweils 0 sind würde nach der dortigen Tafel und Erklärung wohl eher nicht auf einen Plattenfehler hindeuten.
Jetzt muß ich mal rausfinden was Read_Soft_Error_Rate und UDMA_CRC_Error_Count für eine Bedeutung haben bzw ob meine Vermutung zutrifft daß diese Werte eher doch auf ein Controller- oder Kabel-Problem hindeuten...

Aber wie auch immer, die Daten sind jedenfalls mal auf eine externe Platte gesichert und da ich der Sache jetzt wahrscheinlich eh nicht mehr traue, egal welche Informationen ich dazu noch finde, bin ich bereits auf der Suche nach neuen Platten.
Die beiden können dann, wenn sie nicht zu langsam werden, für Tests herhalten.

Ich suche auch noch weiter nach besseren Erklärungen zu den Ausgaben und poste hier wenn ich was finde, aber bisher war der link von der_bud das beste dazu.

Gruß
ayla


update1:
Hab folgendes gefunden:
http://pcwelt-wiki.de/wiki/Smart

Demnach sind Read_Soft_Error_Rate vom Betriebsystem verworfene Daten, die (hab ich woanders gelesen, irgendeins von 20+ Foren) korrigiert werden konnten (Hardware_ECC_Recovered).

Zu UDMA_CRC_Error_Count sagt die Seite:
Quote
Kritisch. Anzahl der Prüfsummenfehler bei der Datenübertragung. Kann auch auf defekte Kabel, Treiberkonflikte oder auf Übertaktungsprobleme hinweisen


Zusammen mit den Erklärungen für die Werte bei denen Smart "pre-fail" anzeigt -obwohl die Werte selbst das garnicht hergeben- heißt das wohl daß meine SATA-Kabel einfach Mist sind und statt der Festplatten ausgetauscht werden sollten.

Was ich mal als erstes probiere, wenn ich irgendwo gute finde.

Jemand einen Tipp?

Offline der_bud

  • User
  • Posts: 1.072
  • member
Brauche Hilfe zur Interpretation von smart-Test
« Reply #3 on: 2011/08/28, 16:13:15 »
Ich denke auch dass das bei genauer Betrachtung garnicht so schlimm aussieht. Die Werte in den Spalten VALUE/WORST THRESH sind nomalisierte Werte, meist wird auf sowas wie 100, 150, 255 o.ä. normalisiert, das liegt ganz beim Hersteller. Für Deine Temperaturen ist daher der normalerweise für User nicht aussagekräftige RAW_VALUE interessanter, dort liegt die sdb bei 27°C oder (falls die Angabe HEX wäre) 40°C. Samsung sollte hier aber Dezimalwerte geben. Kann mit dem Kommandozeilentool hddtemp (im Repo) genauer überprüft werden. Bei mir:
Code: [Select]
root@T60# smartctl -d sat -a /dev/sda | grep Temperature
194 Temperature_Celsius     0x0002   064   061   000    Old_age   Always       -       33 (Min/Max 13/40)
root@T60# hddtemp /dev/sda
/dev/sda: SAMSUNG HM321HI: 33°C

Auch sollte man nicht den Fehler machen, die Spalte TYPE für einen Zustand oder eine Beurteilung zu halten, das ist nur eine Information um was für eine Art Test es sich handelt (also Alterung oder Ausfallvorhersage, hier irrt Wikipedia). Ausschlaggebend ist also einzig die Differenz zwischen VALUE und THRESH, und da siehts gut aus.

Interessanter sind die letzten gesammelten Fehler unter der sda. Die Spalte Command/Feature_Name zeigt dort fast immer READ DMA, das könnte zu Deinen Symptomen passen. Vielleicht bricht die DMA- oder UDMA-Geschwindigkeit bei einigen Operationen ein, oder es werden zu strenge Herstellervorgaben durch normale Schwankungen verletzt, da kann wer weiß was auf dem Board der Grund dafür sein. Wie Du selbst schon vermutest, hilft möglicherweise  schon ein neues SATA-Kabel oder ein anderer Port falls vorhanden.

Teste die Platte doch mal zusätzlich mit ein paar hdparm-Kommandos, z.B.

hdparm -iAabcWM /dev/sda  (Wo ist das Sternchen in der Spalte UDMA-Modes)
hdparm -tT /dev/sda  (Kurzer Speedtest)


Quellen u.a.
http://sourceforge.net/apps/trac/smartmontools/wiki/FAQ#Whyismydisktemperaturesreportedbysmartdas150Celsius
http://www.linuxjournal.com/magazine/monitoring-hard-disks-smart?page=0,1
http://www.ureader.de/msg/12564845.aspx
Du lachst? Wieso lachst du? Das ist doch oft so, Leute lachen erst und dann sind sie tot.

Offline ayla

  • User
  • Posts: 1.744
Brauche Hilfe zur Interpretation von smart-Test
« Reply #4 on: 2011/08/28, 17:47:37 »
Hallo,

@der_bud:

endlich mal so erklärt daß auch ich es verstehe.
 :)

Vielen Dank.

Das mit dem Type, wenn da pre-fail steht, das dann demnächst die Disk die Grätsche macht, liest man ja wirklich beinahe überall. Aber ja, da steht ja nicht Warnung oder sonst irgendwas drüber sondern tatsächlich einfach nur Typ (der Werte in der Zeile bzw des Tests). Dann besteht ja bei den angezeigten Werten überhaupt kein Anlass sich um die Platten selbst zu sorgen.

Ausgaben der von dir vorgeschlagenen Tests:
Code: [Select]
hddtemp /dev/sda
/dev/sda: SAMSUNG HD321KJ: 29°C

hdparm -iAabcWM /dev/sda

/dev/sda:
 IO_support    =  1 (32-bit)
 readahead     = 256 (on)

 Model=SAMSUNG HD321KJ, FwRev=CP100-12, SerialNo=S0MQJDWQ125905
 Config={ Fixed }
 RawCHS=16383/16/63, TrkSize=34902, SectSize=554, ECCbytes=4
 BuffType=DualPortCache, BuffSize=16384kB, MaxMultSect=16, MultSect=16
 CurCHS=16383/16/63, CurSects=16514064, LBA=yes, LBAsects=625142448
 IORDY=on/off, tPIO={min:120,w/IORDY:120}, tDMA={min:120,rec:120}                                       PIO modes:  pio0 pio1 pio2 pio3 pio4                    
 DMA modes:  mdma0 mdma1 mdma2                        
 UDMA modes: udma0 udma1 udma2 udma3 udma4 udma5 *udma6 AdvancedPM=no WriteCache=enabled                                          Drive conforms to: unknown:  ATA/ATAPI 3,4,5,6,7          
 * signifies the current active mode                  
 look-ahead    =  1 (on)                            
 write-caching =  1 (on)                          
 acoustic      =  0 (128=quiet ... 254=fast)    
 HDIO_GET_BUSSTATE failed: Inappropriate ioctl for device


hdparm -tT /dev/sda

/dev/sda:
 Timing cached reads:   1684 MB in  2.00 seconds = 842.12 MB/sec
 Timing buffered disk reads: 252 MB in  3.00 seconds =  83.88 MB/sec


hdparm -tT /dev/sda

/dev/sda:
 Timing cached reads:   1720 MB in  2.00 seconds = 859.38 MB/sec
 Timing buffered disk reads: 254 MB in  3.00 seconds =  84.61 MB/sec


Scheint mir doch eine annehmbare Geschwindigkeit für SATA2 zu sein -Vergleich mit einigen ergoogelten Ergebnissen, da selbst k.A.
UDMA 6 eingeschaltet, Temperatur ok. Sieht für mich so aus als wär die Disk i.O. , oder?

Kabel und Kontroller werd ich mal checken wenn ich gescheite Kabel hab.

Gruß
ayla