RAID10 rozpadava sa

Sekcia: Konfigurácia 26.11.2010 | 02:23
trolo_vk   Návštevník
Ahoj,

mam RAID10 zo 4 diskov a jeden spare, do styroch dni sa vzdy rozpadne a netusim preco v logu o tom neni ani zmienka, takze po restarte nabehne len iniframs kde musim disky popripdavat naspat do md1 a po resync, to opat bezi... rozpadne sa mi vzdy md1 a md3, md2 je swap ten je v pohode ale na to sa ani nic nezapisuje, pamate je dost... a md0 je RAID1 ten je tiez v pohode...
ked som skusil pozret md1 s prikazom fsck a prepinacom -n len aby som videl co sa deje vypise mi to toto
fsck -n /dev/md1
fsck from util-linux-ng 2.17.2
e2fsck 1.41.12 (17-May-2010)
Varování! /dev/md1 je připojen.
Varování: přeskakuji obnovu žurnálu, protože provádím kontrolu systému
souborů jen pro čtení.
/dev/md1 obsahuje systém souborů s chybami, kontrola vynucena.
Průchod 1: Kontroluji iuzly, bloky a velikosti
Průchod 2: Kontroluji strukturu adresářů
Průchod 3: Kontroluji dosažitelnost adresářů
Průchod 4: Kontroluji počty odkazů
Průchod 5: Kontroluji souhrnné informace skupin
Počet volných bloků špatně (578842, spočteno=578197).
Opravit? ne

Počet volných iuzlů špatně (571345, spočteno=571278).
Opravit? ne


/dev/md1: ********** VAROVÁNÍ: Systém souborů má stále chyby **********

/dev/md1: 39455/610800 souborů (1,6 % nesouvislých), 1862982/2441824 bloků


1. Myslite ze mozem ten fsck /dev/md1 pustit natvrdo a nerzdrbem si pole?

2. v logu mam este taketo hlasky
Nov 25 22:31:19 XEN mdadm[1715]: SpareActive event detected on md device /dev/md3, component device /dev/sdb4
Nov 25 22:31:19 XEN mdadm[1715]: SpareActive event detected on md device /dev/md3, component device /dev/sdd4
    • Re: RAID10 rozpadava sa 26.11.2010 | 02:28
      trolo-vk   Návštevník
      tiez som nasiel a myslim ze je to tesne pred rozbitim takuto hlasku, ale to si niesom isty:
      Nov 21 16:00:26 XEN kernel: [    6.617167] EXT3-fs warning (device md1): ext3_clear_journal_err: Filesystem error recorded from previous mount: IO failure
      
      • Re: RAID10 rozpadava sa 26.11.2010 | 13:48
        WlaSaTy   Návštevník
        To je co za RAID ked sa pri vypadnuti jedneho disku poskodi suborovy system? Dufam ze to nebol strip (raid 0)

        Inak, ked budes spustat kontrolu len na citani a nie aj na opravu, tak to nikdy neopravis. Otazkou je ako dolezite data tam boli.
        • Re: RAID10 rozpadava sa 26.11.2010 | 15:08
          Avatar trolo_vk   Používateľ
          no praveze sa nic neposkodilo, ako pisem je to RAID10, takze zrkadlo + strip, pole sa tak zdrbalo ze v md1 som mal len jednu U, teda jeden disk v poli co je divne pri RAID10 by to malo znamenat smrt, ale ako vravim po restarte, som nabehol do toho initframs kde su len zakladne operacie, tak som popridaval disky naspat do pola, to sa resync, potom som znova zrestartoval a vsetko sa zase tvari normalne, nabootoval som akoby sa nic nedialo a server bezi normalne dalej... mam tam este jeden spare tak mozno sa chytil ten ale preco som tam mal potom len jedno U? ale navyse sa mi to stalo takto uz 2x po sebe v rozmedzi jedneho tyzdna, ale nikde neviem najst ani zmienku o tom preco sa to vzdy rozpadne? moze to byt tym ze pouzivam debian squeeze a je na tom XEN?
          Linux IN-XEN2 2.6.32-5-xen-amd64 #1 SMP Wed Oct 20 02:22:18 UTC 2010 x86_64 GNU/Linux
          moze tam byt nejaky bug s RAID10 ?
          • Re: RAID10 rozpadava sa 26.11.2010 | 15:10
            Avatar trolo_vk   Používateľ
            a to fsck nechcem zatial pustit naostro, som sa chcel najskor spytat ci sa tym nemoze nejak poskodit nastavenie toho RAIDu alebo co? nevies mi poradit? a mal by som to asi spravit tak ze nabootujem z liveCD a ztade na to sputsim fsck /dev/md0 alebo to mam pustit priamo?
            • Re: RAID10 rozpadava sa 26.11.2010 | 16:51
              WlaSaTy   Návštevník
              Ono, uz to mas poskodene. Preto som sa ja oytal ze jak su tie data cenne. Ak maju cenu, tak zalohovat. A ked budes mat image level backup, tak sa mozes pokusit ten suborovy system zrekonstruovat.

              Inak, jak si to prosim Ta vytvaral, ako seriu 2x raid1 a nad tym stripe alebo rovno raid10?
              • Re: RAID10 rozpadava sa 26.11.2010 | 16:54
                Avatar trolo_vk   Používateľ
                vytvaral som to rovno pri instalacii debianu ako raid10, akurat /boot som musel hodit na raid1
              • Re: RAID10 rozpadava sa 26.11.2010 | 16:57
                Avatar trolo_vk   Používateľ
                inak na tom md1 je len system(xen), DATA mam na md3, ale ten mi tiez padne ked aj md1... ako myslis ze su poskodene? normlane viem na tom citat pisat, nestretol som sa s nicim ze by som to nevedel precitat
        • Re: RAID10 rozpadava sa 26.11.2010 | 16:53
          Avatar trolo_vk   Používateľ
          nenasiel som ziadnu zmienku preco sa RAID10 rozpadol ale nasiel som tuto vec
          v logu cat /var/log/xen/xend-debug.log
          Xend started at Sun Nov 21 16:16:41 2010.
          cat: /sys/bus/scsi/devices/host0/vendor: No such file or directory
          cat: /sys/bus/scsi/devices/host0/model: No such file or directory
          cat: /sys/bus/scsi/devices/host0/type: No such file or directory
          cat: /sys/bus/scsi/devices/host0/rev: No such file or directory
          cat: /sys/bus/scsi/devices/host0/scsi_level: No such file or directory
          cat: /sys/bus/scsi/devices/host1/vendor: No such file or directory
          cat: /sys/bus/scsi/devices/host1/model: No such file or directory
          cat: /sys/bus/scsi/devices/host1/type: No such file or directory
          cat: /sys/bus/scsi/devices/host1/rev: No such file or directory
          cat: /sys/bus/scsi/devices/host1/scsi_level: No such file or directory
          cat: /sys/bus/scsi/devices/host2/vendor: No such file or directory
          cat: /sys/bus/scsi/devices/host2/model: No such file or directory
          cat: /sys/bus/scsi/devices/host2/type: No such file or directory
          cat: /sys/bus/scsi/devices/host2/rev: No such file or directory
          cat: /sys/bus/scsi/devices/host2/scsi_level: No such file or directory
          cat: /sys/bus/scsi/devices/host3/vendor: No such file or directory
          cat: /sys/bus/scsi/devices/host3/model: No such file or directory
          cat: /sys/bus/scsi/devices/host3/type: No such file or directory
          cat: /sys/bus/scsi/devices/host3/rev: No such file or directory
          cat: /sys/bus/scsi/devices/host3/scsi_level: No such file or directory
          cat: /sys/bus/scsi/devices/target0:0:0/vendor: No such file or directory
          cat: /sys/bus/scsi/devices/target0:0:0/model: No such file or directory
          cat: /sys/bus/scsi/devices/target0:0:0/type: No such file or directory
          cat: /sys/bus/scsi/devices/target0:0:0/rev: No such file or directory
          cat: /sys/bus/scsi/devices/target0:0:0/scsi_level: No such file or directory
          cat: /sys/bus/scsi/devices/target0:0:1/vendor: No such file or directory
          cat: /sys/bus/scsi/devices/target0:0:1/model: No such file or directory
          cat: /sys/bus/scsi/devices/target0:0:1/type: No such file or directory
          cat: /sys/bus/scsi/devices/target0:0:1/rev: No such file or directory
          cat: /sys/bus/scsi/devices/target0:0:1/scsi_level: No such file or directory
          cat: /sys/bus/scsi/devices/target1:0:0/vendor: No such file or directory
          cat: /sys/bus/scsi/devices/target1:0:0/model: No such file or directory
          cat: /sys/bus/scsi/devices/target1:0:0/type: No such file or directory
          cat: /sys/bus/scsi/devices/target1:0:0/rev: No such file or directory
          cat: /sys/bus/scsi/devices/target1:0:0/scsi_level: No such file or directory
          cat: /sys/bus/scsi/devices/target1:0:1/vendor: No such file or directory
          cat: /sys/bus/scsi/devices/target1:0:1/model: No such file or directory
          cat: /sys/bus/scsi/devices/target1:0:1/type: No such file or directory
          cat: /sys/bus/scsi/devices/target1:0:1/rev: No such file or directory
          cat: /sys/bus/scsi/devices/target1:0:1/scsi_level: No such file or directory
          cat: /sys/bus/scsi/devices/target2:0:0/vendor: No such file or directory
          cat: /sys/bus/scsi/devices/target2:0:0/model: No such file or directory
          cat: /sys/bus/scsi/devices/target2:0:0/type: No such file or directory
          cat: /sys/bus/scsi/devices/target2:0:0/rev: No such file or directory
          cat: /sys/bus/scsi/devices/target2:0:0/scsi_level: No such file or directory
          Exception in thread Thread-1:
          Traceback (most recent call last):
            File "/usr/lib/python2.5/threading.py", line 486, in __bootstrap_inner
              self.run()
            File "/usr/lib/xen-4.0/lib/python/xen/xend/XendMonitor.py", line 230, in run
              for domid, cputimes in self._get_cpu_stats().items():
            File "/usr/lib/xen-4.0/lib/python/xen/xend/XendMonitor.py", line 213, in _get_cpu_stats
              vcpu_info = self.xc.vcpu_getinfo(domid, i)
          Error: (3, 'No such process')
          
          potom som skontroloval virtualne masiny a zisitil som ze som priradil virtualnym masinam dokopy 18 threadov, lenze ja ich mam len 16... nemoze to mat suvis?
          • Re: RAID10 rozpadava sa 26.11.2010 | 17:05
            Avatar trolo_vk   Používateľ
            je normalne ze ked dam:

            fdisk -l /dev/md1
            tak mi to hlasi toto:
            Disk /dev/md1: 10.0 GB, 10001711104 bytes
            2 heads, 4 sectors/track, 2441824 cylinders
            Units = cylinders of 8 * 512 = 4096 bytes
            Sector size (logical/physical): 512 bytes / 512 bytes
            I/O size (minimum/optimal): 65536 bytes / 131072 bytes
            Disk identifier: 0x00000000
            
            Disk /dev/md1 doesn't contain a valid partition table
            
            • Re: RAID10 rozpadava sa 26.11.2010 | 19:44
              WlaSaTy   Návštevník
              Myslim ze by si si mal nieco nastudovat o hierarchii suborovych systemov. Menovite o virtualnych suborovych systemoch.

              Predpokladam ze si ides teraz skontrolovat zivotnosti diskov cez SMART a urobis ten RAID znova aj s instalaciou. Uzivatelske data by nemali byt dotknute pokial su na inych fyzickych diskoch.

              PS.: s tym fdisk-om si myslel co? To som nepochopil.
              • Re: RAID10 rozpadava sa 26.11.2010 | 20:28
                trolo_vk   Návštevník
                tak teraz ti vobec nerozumiem :)
                akoze myslis ze mam ten RAID zle nastaveny?

                ved som ho vytvaral priamo v instalacnom procese, co sa tyka smartu to mam pozrete, disky su okej... inak su to vsetko nove disky maju tak mesiac co som ich doniesol z obchodu...

                s tym fdiskom to je ok, zistil som ze tam ma vypisovat tu vetu
                Disk /dev/md1 doesn't contain a valid partition table

                a tie data su na tych istych diskoch len na inej partici md3...
                RAID1 md0 /boot
                RAID10 md1 /
                RAID10 swap
                RAID10 md3 - na tom mi bez lvm2 a az tu som povytvaral particie pre XEN masiny


                • Re: RAID10 rozpadava sa 26.11.2010 | 22:05
                  WlaSaTy   Návštevník
                  To, ze urobis nieco v instalacnom procese este neznamena ze to urobis spravne.

                  A podla toho ze Ti vypadol len jeden disk a cele to lahlo do kytek, tak podla toho je cast zrkadla zle nastavena. Velmi zle.

                  Teda, pokial to nebolo v niecom inom. Aky je stav tych RAIDov?
                  • Re: RAID10 rozpadava sa 26.11.2010 | 22:20
                    trolo_vk   Návštevník
                    takyto:

                    md3 : active raid10 sda4[0] sde4[4](S) sdd4[3] sdb4[2] sdc4[1]
                    1237534976 blocks 64K chunks 2 near-copies [4/4] [UUUU]

                    md2 : active (auto-read-only) raid10 sda3[0] sde3[4](S) sdd3[3] sdb3[2] sdc3[1]
                    995840 blocks 64K chunks 2 near-copies [4/4] [UUUU]

                    md1 : active raid10 sdc2[0] sda2[4](S) sdd2[3] sdb2[2] sde2[1]
                    9767296 blocks 64K chunks 2 near-copies [4/4] [UUUU]

                    md0 : active raid1 sdd1[0] sde1[2](S) sdc1[3](S) sda1[4](S) sdb1[1]
                    979840 blocks [2/2] [UU]

                    a ono ked to vypadne tak v md1 je stav napriklad takyto [_U__] a v md3 napriklad takyto [__U_] a disky su oznacene ako F, md1 aj md2 je tympadom nefunkcne, takze to zrestartujem a nahodim disky naspat do pola, tie sa zosynchronizuju vsetko funguje tak ako ma...
                    • Re: RAID10 rozpadava sa 26.11.2010 | 22:55
                      trolo_vk   Návštevník
                      oprava:
                      ... md1 aj md3 je tympadom nefunkcne ...
                    • Re: RAID10 rozpadava sa 26.11.2010 | 22:56
                      WlaSaTy   Návštevník
                      Tak to pole je urobene dobre.

                      Ale jedno mi nie je jasne. Ak to funguje ako ma, tak kde je problem?

                      • Re: RAID10 rozpadava sa 26.11.2010 | 23:45
                        trolo_vk   Návštevník
                        no problem je v tom, ze v piatok(minuly) som to nainstaloval a do dnesneho dna sa to pole 2x rozbilo z nicho nic a v logoch neni ziadna zmienka o tom ze by sa nieco dialo...
                        tak ma napadlo, ci to to rozbijanie pola nemoze mat suvis s tym, ze celkovy pocet jadier CPU mam 16, ja som vsak virtualnym strojom omylom nadelil 18(neviem pocitat)...

                        teraz som nadelil virtualnym strojom 14 CPU jadier a ak mi to zase padne tak tam dam vsade RAID1 a basta, mozno zato jebe tomu RAIDu ze tam mam DEBIAN SQUEZE 2.6.32-5-xen-amd64 #1 SMP Sat Oct 30 17:04:10 UTC 2010 x86_64 GNU/Linux a mozno je v nom este daky bug alebo co
                        • Re: RAID10 rozpadava sa 27.11.2010 | 00:00
                          WlaSaTy   Návštevník
                          Zdroj si si tam kupoval sam alebo bol dodany ako komplet od nejakej normalnej firmy ktora k nemu pribalila carrepack?
                          • Re: RAID10 rozpadava sa 27.11.2010 | 01:18
                            trolo_vk   Návštevník
                            zdroj som si kupil sam:
                            SEASONIC 750 X-750(SS-750KM) 80 Plus Gold

                            dufam ze som nevybral cocotinu
                            • Re: RAID10 rozpadava sa 27.11.2010 | 01:55
                              trolo_vk   Návštevník
                              tak pozeram a zase to pole spadlo, vyzera teraz takto:
                              Personalities : [raid1] [raid10]
                              md3 : active raid10 sda4[4](F) sde4[5](F) sdd4[6](F) sdb4[2] sdc4[7](F)
                                    1237534976 blocks 64K chunks 2 near-copies [4/1] [__U_]
                              
                              md2 : active (auto-read-only) raid10 sda3[0] sde3[4](S) sdd3[3] sdb3[2] sdc3[1]
                                    995840 blocks 64K chunks 2 near-copies [4/4] [UUUU]
                              
                              md1 : active raid10 sdc2[4](F) sda2[5](F) sdd2[3] sdb2[6](F) sde2[7](F)
                                    9767296 blocks 64K chunks 2 near-copies [4/1] [___U]
                              
                              md0 : active raid1 sdd1[0] sde1[2](S) sdc1[3](S) sda1[4](S) sdb1[1]
                                    979840 blocks [2/2] [UU]
                              
                              unused devices: <none>
                              
                              • Re: RAID10 rozpadava sa 27.11.2010 | 15:34
                                WlaSaTy   Návštevník
                                Zaujimave. Dva poskodene Raidy 10 a v kazdom ostal jeden disk. Nahodou si nepozeral vystup z dmesg ci tam nie je ieco o co sa da opriet? Asi nie, a na stress testy sa nechystas.
                                • Re: RAID10 rozpadava sa 27.11.2010 | 16:17
                                  Avatar trolo_vk   Používateľ
                                  nasiel som kopec takychto hlasok:
                                  [52247.938473] EXT3-fs: write access uavailable, cannot procced.

                                  alebo
                                  end_request: I/O error on device sda, sector 11727442
                                  Buffer I/O error on device sda2, logical block 1220939

                                  kazdopadne data mam uz zazalohovane a idem to cele drbnut iba na RAID1
                                  • Re: RAID10 rozpadava sa 27.11.2010 | 17:44
                                    WlaSaTy   Návštevník
                                    Hlavne si nehaj aj sparse (rezervne) disky kedze to vyzera na chybu HW. Z mojeho pohladu su tam bud blbe kable alebo RAMka ci chladenie alebo slaby zdroj. Skus sa pozriet po distribucii co sa vola nejako ze stress linux, alebo tak. A nehaj tomu cez noc pusteny memtest ze co najde.
                                    • Re: RAID10 rozpadava sa 27.11.2010 | 19:10
                                      Avatar trolo_vk   Používateľ
                                      ok dam aj sparse povodne som nekcel ale dam, dik
                                      inak ked sa nad tym tak zamyslim tak tam kde to je umiestnene je dost teplo... ale teplota diskov mi ukazovala cca 38-40 stupnov coz je normal, sem tam to pokolisalo o stupen, dva hore dole... zase na pamataiach tam mohlo byt celkom teplo, kolko stupnov znesu pamate?
                                      • Re: RAID10 rozpadava sa 27.11.2010 | 20:03
                                        WlaSaTy   Návštevník
                                        Pracovný rozsah teplôt je uvedený v produktovej špecifikácii. A je pre každý model iný.

                                        Inak, skôr sa natíska otázka, ako rýchlo sa prehreje napríklad CPU a akú má celkovú spotrebu ten stroj. Ale, neviem že by tá otázka ešte niekoho zaujímala.
                                        • Re: RAID10 rozpadava sa 28.11.2010 | 14:11
                                          Avatar trolo_vk   Používateľ
                                          heh tak to je haluz, rozpaduva sa to aj na RAID1 :) ale vyzera to ze to vzdy spadne pri vacsej zatazi, idem to teda vyskusat na StressLinuxe co na to povie... napada ma ze to bude bude asi radic na doske :( preco som ja len siel do toho ASUSA, ja nestastny zemepan...
                                          este ma napada ze zdroj ale ta 750ka musi v pohode utiahnut dva XEONy a 5 diskov ine tam neni nic co by mohlo zrat...