Aké hodnoty v SMART predchádzajú zlyhaniu?

Sekcia: Hardware a Drivery 27.01.2016 | 16:59
Avatar Miroslav Bendík Gentoo  Administrátor

Ahojte, mám starší 8-ročný disk hitachi. Nedávno som si všimol dosť vysokú hodnotu Reallocated_Event_Count. Pár krát som spustil plný test disku a pri chybe som vždy sektor, na ktorom test zlyhal prečítal a znovu zapísal. Počet realokovaných sektorov zostal na 0. Tu sú ďalšie dáta zo smartctl:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   097   097   062    Pre-fail  Always       -       65541
  2 Throughput_Performance  0x0005   108   108   040    Pre-fail  Offline      -       4430
  3 Spin_Up_Time            0x0007   253   253   033    Pre-fail  Always       -       1
  4 Start_Stop_Count        0x0012   095   095   000    Old_age   Always       -       8803
  5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000b   100   100   067    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0005   134   134   040    Pre-fail  Offline      -       33
  9 Power_On_Hours          0x0012   041   041   000    Old_age   Always       -       26233
 10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   096   096   000    Old_age   Always       -       7401
191 G-Sense_Error_Rate      0x000a   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       2568487012
193 Load_Cycle_Count        0x0012   091   091   000    Old_age   Always       -       99955
194 Temperature_Celsius     0x0002   183   183   000    Old_age   Always       -       30 (Min/Max 12/44)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       201
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       1
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   253   000    Old_age   Always       -       0
223 Load_Retry_Count        0x000a   100   100   000    Old_age   Always       -       0

...

Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Selective offline   Completed without error       00%     26222         -
# 2  Selective offline   Completed: read failure       70%     26222         156992527
# 3  Selective offline   Completed: read failure       70%     26221         124437758
# 4  Selective offline   Aborted by host               90%     26220         -
# 5  Extended offline    Completed: read failure       10%     26220         81762969
...

Dá sa tomu disku ešte veriť, alebo je už poškodený povrch disku / elektronika / mechanické časti?

    • RE: Aké hodnoty v SMART predchádzajú zlyhaniu? 27.01.2016 | 17:42
      Avatar bedňa LegacyIce-antiX  Administrátor

      Ľudia sa delia na tých čo zálohujú a tých čo o dáta prišli. Keď hlavičky často preletia sektor tiež to môže poukazovať na chybu, no mám takýto disk už pár rokov a funguje. Zaujímavé že efekt pociťujem len pri update-grub (trvá dlho) inak fachčí.

      Keď sa tá hodnota nebude meniť, podľa môjho názoru bude všetko OK. Pokiaľ sa nejaký parameter pravideľne zvyšuje, tak by som to riešil až potom.

      Táto správa neobsahuje vírus, pretože nepoužívam MS Windows. http://kernelultras.org
    • RE: Aké hodnoty v SMART predchádzajú zlyhaniu? 27.01.2016 | 18:40
      Avatar bedňa LegacyIce-antiX  Administrátor

      Inak tie hodnoty sú nejaké ideálne čisla, neznamenajú poškodenie disku, môžu znamenať to, že disk už nespĺňa výrocom dané rýchlosti, ale funguje a nič mu nebrániť fungovať ďalších Xrokov.

      Čo by som riešil to sú teploty, to je istota že skape, hoci sa mi podobná závada nikdy neprejavila, ale teplo je zabiják elektroniky.

      Táto správa neobsahuje vírus, pretože nepoužívam MS Windows. http://kernelultras.org
    • RE: Aké hodnoty v SMART predchádzajú zlyhaniu? 27.01.2016 | 18:55
      Avatar WlaSaTy   Návštevník

      Ak dobre vidím (ATA-7), tak ten osemročný disk je SATA-1. Pri ňom sa nemáš čo obávať. Je malý, hlučný a má vysokú spotrebu. Vzhľadom na jeho vek na ňom určite nemáš dôležité dáta. Ak zlyhá, tak ho vymeníš. Skôr by som sa obával ulomenia pántov, zdroja a podobných vecí. Teda, vzhľadom na to že ten NB bude asi rovnako starý, tak by som sa asi obával aj výkonu internetového prehliadača. JS je smrť starým technológiám.

      PS tá hodnota spin up time sa mi nevidí. Zvyšné hodnoty z toho výpisu budú podobné hausnumerá.

      • RE: Aké hodnoty v SMART predchádzajú zlyhaniu? 27.01.2016 | 19:05
        Avatar Miroslav Bendík Gentoo  Administrátor

        Ten stroj som vymenil pred 2 dňami (síce 8-ročný thinkpad za 5-ročný), momentálne bežím už na SSD, dáta mám vždy zálohované na druhom disku + ďalšia záloha vzdialena. Pýtam sa skôr preto, že som nikde nevidel poriadne vystvetlenie od akých hodnôt sa mám začať obávať, alebo aké hodnoty sú úplne normálne.

        • RE: Aké hodnoty v SMART predchádzajú zlyhaniu? 27.01.2016 | 19:24
          Avatar WlaSaTy   Návštevník

          Takže pôvodnú otázku si vieš zodpovedať zamyslením sa nad názvami stĺpcov Threshold a Type. Mimochodom, jedna hodnota je tam dosť divná. Podľa nej už teraz strácaš dáta a celé sa to chová divne. Máš 201 realokovaných sektorov, pričom disky sa zásadne robia len s poľom 200 rezervných sektorov. Preto sa relokovanie zastavilo. Niektoré disky bolo možné oživiť ak si ich viacnásobne prepísal nulami, odpojil z elektriky a potom skontroloval o koľko klesla kapacita. FW si pri takom prepise odkusol na ďalšie rezervované miesto na relokáciu. Alebo si dal upgrade FW disku a on sa nanovo kompletne nainicialoizoval. Ale veľa krát to nepomohlo. Zlé sektory boli veľa krát buď kôli poškodenému povrchu platne, alebo oškretej hlave. A vtedy relokácia nemala zmysel. Celé to zletelo do kytek.

          PS Výrobca si splietol 5 a 196, to sa stáva.

          • RE: Aké hodnoty v SMART predchádzajú zlyhaniu? 27.01.2016 | 19:31
            Avatar Miroslav Bendík Gentoo  Administrátor

            Počet realokovaných sektorov je Reallocated_Sector_Ct (čo je 0). Hodnota Reallocated_Event_Count znamená, že došlo k chybe pri čítaní a disk označil sektor za nečitateľný (teda zvýšil hodnotu Current_Pending_Sector). Čítanie sektoru niekedy skončilo IO errorom, ale väčšinou išiel prečítať. Po zápise na sektor disk automaticky kontroluje, či sa zapísal správne a ak nie až vtedy sa realokuje. U mňa sa nerealokoval ani raz, takže premýšľam či
            a) už blbla mechanika (tj hlavička nebola úplne presne na správnej dráhe a 201x sa pokašlal zpis), alebo
            b) starý magnetický záznam alebo
            c) je to notebook, často s nim pohybujem, hlavička mohla byť počas zápisu na chvíľu vychýlená.

      • RE: Aké hodnoty v SMART predchádzajú zlyhaniu? 27.01.2016 | 19:10
        Avatar Miroslav Bendík Gentoo  Administrátor

        A ehm k tým divným číslam:

        Raw_Read_Error_Rate - to je určite zle, pri každom prečítaní sa to menilo ale strane šialene, raz to bolo blízko nuly, raz skoro 65535, Power-Off_Retract_Count je blbé ale ten zvyšok ako počet zaparkovaní (áno skoro 100 000, životnosť býva okolo 100 000, mal som zle nastavený hdparm a kým som si to všimol mal som nalietaných 80 000), počet hodnín, počet zapnutí a vypnutí a podobné blbosti sú zrejme OK, celkom mi to tak odhadom vychádza.

    • RE: Aké hodnoty v SMART predchádzajú zlyhaniu? 27.01.2016 | 19:12
      Avatar mark   Návštevník

      Mal som podobnú dilemu. Rozhodol som sa, že disk nechám dožiť a aktívne ho využívam, lebo aj tak dáta treba zálohovať. O SSD diskoch nemám veľkú mienku, čo sa týka spoľahlivosti, takže nejaký vadný sektor na mojom disku ma len tak nezabije :)

      9 Power_On_Hours 0x0012 041 041 000 Old_age Always - 26233

      197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always - 1

      Vzhľadom na nalietané hodiny (9) cez 26000 hodín by som zázraky nečakal. Myslím, že tvoje pochybnosti spôsobuje prechodný sektor (197). Tiež mám taký na NTFS partícii. Skúšal som na ten konkrétny sektor niečo zapísať alebo čítať s dd. Nepodarilo sa. Nakoniec vo Windows som spustil preskenovanie disku a scandisk si ho označil, že ho nebude používať. Ak to súborový systém nemá ošetrené, môže na tom zhavarovať zápis do súboru alebo čítanie zo súboru. Predpokladám, že niečo podobné dokáže aj e2fsck s voľbou -c. Tuším, že realokácia so SMARTom funguje, len ak disk dokáže nejako ešte prečítať sektor a presunúť dáta na iné miesto. Opravte ma, ak je to inak.

      • RE: Aké hodnoty v SMART predchádzajú zlyhaniu? 27.01.2016 | 19:20
        Avatar Miroslav Bendík Gentoo  Administrátor

        O hodnotu Current_Pending_Sector som sa až tak nebál, vždy keď som prečítal pending sector a zapísal ho na rovnaké miesto cez dd klesla hodnota na 0 a počet relokačných eventov sa zvýšil o 1 (teda disk prečítal sektor, pomocou checksumov opravil chybu, pokúsil sa zapísať ho znovu, zápis bol úspešný a nebolo nutné ho realokovať). Počet realokovaných sektorov je 0.

        O SSD som počul všeličo škaredé, ale je to tak neskutone rýchle a aj tak zálohujem (schoedingerova záloha).

        • RE: Aké hodnoty v SMART predchádzajú zlyhaniu? 27.01.2016 | 19:27
          Avatar WlaSaTy   Návštevník

          Tie checksumy na disku ale neopravujú chybu. Tie checksumy len overujú integritu dát. Ak sa ten sektor prečítal do Xtého pokusu a sedelo mu CRC, tak si mal šťastie. Silent data corruption je zlo.

        • RE: Aké hodnoty v SMART predchádzajú zlyhaniu? 27.01.2016 | 19:34
          Avatar mark   Návštevník

          v mojom prípade to dd nedokázalo a ani disk nepremiestnil sektor. Disky sú rôzne ;)

        • RE: Aké hodnoty v SMART predchádzajú zlyhaniu? 27.01.2016 | 20:59
          Avatar bedňa LegacyIce-antiX  Administrátor

          Zopakujem, SMART len poukzuje na potencionálne chyby, ktoré naznačujú nejaký problém, čo neznamená že by operácia na Xtý pokus neprebehla a nemusí to naznačovať nič.

          Osobne u mňa všetky disky prežili svoje funkťné obdobie a miningujem z nich len Neodymové magnety.

          Táto správa neobsahuje vírus, pretože nepoužívam MS Windows. http://kernelultras.org
          • RE: Aké hodnoty v SMART predchádzajú zlyhaniu? 27.01.2016 | 21:15
            Avatar WlaSaTy   Návštevník

            Zabúdaš na elegantné podšálky z platní a hliníkový obal. Niekedy sa zadarí aj krokový motorček.

            • RE: Aké hodnoty v SMART predchádzajú zlyhaniu? 27.01.2016 | 21:44
              Avatar bedňa LegacyIce-antiX  Administrátor

              Na tých podšálkach ale ostávali až moc výrazné odtlačky prstov a krokové motorčeky majú mizerný výkon. Nehovorím že by to niekto nevedel využiť, ale keby so hackoval HW, tak CD dosky mali lepšiu dokumentáciu.

              Táto správa neobsahuje vírus, pretože nepoužívam MS Windows. http://kernelultras.org
              • RE: Aké hodnoty v SMART predchádzajú zlyhaniu? 27.01.2016 | 21:54
                Avatar WlaSaTy   Návštevník

                Pardón. Neviem ako je to u teba, ale u mňa v pracovni nemusím mať všetko vyleštené. Mne ide o primárnu funkciu podšálku, aby mi na stole nezasychali krúžky.

                A mimochodom. Tá farba má zaujímavý odtieň.

                • RE: Aké hodnoty v SMART predchádzajú zlyhaniu? 28.01.2016 | 09:23
                  Avatar Andrej Lacho Debian, CentOS ...  Administrátor

                  Ja mam pod salku Windows Server 2003 :)

                • RE: Aké hodnoty v SMART predchádzajú zlyhaniu? 28.01.2016 | 11:33
                  Avatar bedňa LegacyIce-antiX  Administrátor

                  Tá farba je pekná, ale moc sa to leskne a tie otlačky na tom vyzerajú ako z FKU pátra.

                  Táto správa neobsahuje vírus, pretože nepoužívam MS Windows. http://kernelultras.org