neprihlásený Streda, 15. januára 2025, dnes má meniny Dobroslav
RAID 5 začína byť pri súčasných kapacitách diskov nespoľahlivý

DSL.sk, 23.10.2008


Na zaujímavú skutočnosť v súvislosti s RAID 5, kapacitou diskov a ich udávanou chybovosťou výrobcami upozornil na blogu Zdnet Robin Harris.

Podľa jednoduchého prepočtu je totiž u veľkých diskových RAID 5 polí používaných v súčasnosti alebo dosiahnuteľných v blízkej budúcnosti veľmi vysoká pravdepodobnosť objavenia sa chyby pri rekonštrukcii poľa po zlyhaní niektorého z diskov.

RAID 5 je RAID režim, u ktorého je N diskov podelených na bloky o veľkosti napríklad 64 KB a pre každý blok sa na N - 1 diskoch nachádzajú dáta a na zvyšnom paritná kontrolná suma. Paritná kontrolná suma sa nachádza pre rovnomerné rozloženie diskových operácií postupne pre jednotlivé bloky striedavo na všetkých diskoch.

RAID 5 je obľúbený RAID režim pri veľkokapacitných diskových poliach, keď dostupnú využiteľnú kapacitu N diskov znižuje len o jeden disk, jednu N-tinu, a zároveň poskytuje ochranu proti výpadku jedného disku a N - 1 krát zvyšuje rýchlosť čítania aj zápisov väčších súvislejších blokov.

Kritickým miestom RAID 5 je čas obnovy poľa po zlyhaní jedného z diskov, keď počas obnovenia sa musia prečítať kompletne všetky zostávajúce disky a zrekonštruovať sa z nich obsah nového disku nahrádzajúceho zlyhaný disk.

Harris upozornil na skutočnosť, že u SATA diskov s ich zvyšujúcou sa kapacitou a ich chybovosťou sa v blízkej budúcnosti s veľmi vysokou pravdepodobnosťou vyskytne neopraviteľná chyba čítania u každej obnovy veľkého RAID 5 poľa. Neopraviteľná chyba čítania pri rekonštrukcii RAID 5 poľa znamená, že užívateľ príde o dáta v sektore s chybou čítania. Pri bežnej činnosti RAID 5 poľa sa pri výskyte neopraviteľnej chyby čítania neprečítateľné dáta zrekonštruujú z ostatných diskov, disk sektor premapuje a k žiadnej strate dát nepríde.

Chybovosť klasických diskov udávajú výrobcovia v počte prečítaných bitov, na ktorý sa vyskytne jedna neopraviteľná chyba čítania, tzv. URE. U väčšiny bežných SATA diskov vrátane 1 TB a 1.5 TB Seagate Barracuda 7200.11 je to 10 ^ 14 bitov, respektíve 12.5 TB. Priemerne pri prečítaní 12.5 TB dát z jedného disku sa tak vyskytne jedna neopraviteľná chyba čítania.

Ako modelový príklad si Harris zobral RAID 5 konfiguráciu siedmich diskov s URE 10 ^ 14 s kapacitou 2 TB, ktoré sa objavia na trhu budúci rok. Pri pokazení a výmene jedného disku je pre zrekonštruovanie potrebné prečítať šesť 2 TB diskov, spolu 12 TB dát. Keďže to je takmer 12.5 TB, Harris považoval za takmer 100% objavenie sa neopraviteľnej chyby čítania pri rekoštrukcii takéhoto poľa.

Takýto výpočet je síce nesprávny, pravdepodobnosť je ale podľa našich prepočtov aj tak vysoká. URE hodnota je udávaná pre individuálny disk, pravdepodobnosť nevyskytnutia sa žiadnej chyby počas prečítania šiestich 2 TB diskov počas rekonštrukcie je tak (1 - 2 TB / 12.5 TB) ^ 6, čiže približne 35%. S pravdepodobnosťou 65% sa tak pri rekonštrukcii RAID 5 poľa v takejto konfigurácii vyskytne minimálne jedna neopraviteľná chyba čítania a užívateľ príde o jeden sektor dát.

U súčasnej bežnej konfigurácie RAID 5 poľa napríklad so štyrmi 1 TB diskami s UER 10 ^ 14 je ale riziko tiež vysoké, keď pri obnove hrozí neopraviteľná chyba čítania s pravdepodobnosťou približne 22%.

Riešením je používanie diskov z kategórie enterprise, napríklad SATA a SAS Seagate Barracuda ES majú chybovosť jedna chyba na 10 ^ 15 čítaných bitov a Seagate Savio 10 ^ 16 bitov. Chybovosť jedna chyba na 10 ^ 15 bitov udáva u väčšiny svojich diskov vrátane viacerých desktopových s kapacitou 1 TB aj Western Digital.

Ďalším riešením je používanie RAID 6 chrániaceho proti výpadku respektíve chybám dvoch diskov, počas rekonštrukcie po výmene jedného disku sú k dispozícii stále paritné dáta pre dopočítanie neprečítateľných dát.


      Zdieľaj na Twitteri



Najnovšie články:

Kataster má poslednú zálohu z 3. januára, útočníci žiadali za odšifrovanie 12 miliónov dolárov
Vydané OpenZFS 2.3 s podporou pridania ďalších diskov do RAID-Z
Otvorených ďalších 6 katastrálnych úradov, nie je jasné v akom režime
Najpredávanejšou značkou smartfónov bol v minulom roku iPhone
Spustené katastrálne úrady v skutočnosti elektronicky nefungujú, iba prijímajú písomné podania
Štart rakety New Glenn konkurujúcej SpaceX zrušený pre technický problém
Kataster začína fungovať lokálne na tretine úradov. Presný stav dát stále neznámy
Nokia smartfóny skončili
Prvý štart rakety New Glenn konkurujúcej SpaceX sa má uskutočniť v pondelok
Nvidia a MediaTek spolu vyvinuli CPU pre PC, Nvidia ho chce masovo presadiť


Diskusia:
                               
 

dobra novinka, a to uz dlhe roky ficime vo firme na RAID 5-ke. a zatial sme nemali ziaden problem, aj ked odisiel disk. vymenil sa, urobil sa rebuild a vsetko fachalo ako ma. no asi sa to fakt tyka vyssich kapacit. no ako vidno, uz aj RAID 5 zostarieva. neva zatial kym nam to staci, nie je dvovod menit to.
Odpovedať Hodnotiť:
 

My uz na firme nasadzame v poslednej dobe vyhradne RAID-6 do novych serverov, ale RAID-5 nebudeme taktiez menit.
Odpovedať Hodnotiť:
 

a ake mate skusenosti so 6-kou??? da sa v pohode?
Odpovedať Hodnotiť:
 

Ja mam na roznych serveroch rozne radice... Od LSI logic po 3ware... Ale ziaden z nich nema podporu raid 6.

Zaujimalo by ma ci to robite sw cez kernel, alebo o aky radic sa jedna. Asi bude na case robit u mna zmeny :)
Odpovedať Hodnotiť:
 

nie robime to hardwerovo, na urovni biosu scsi karty. vytvori sa raid 5 a system sa uz na to instaluje. cize nie je to ziaden softwerovy. slapeme na hp rada proliant serveroch, takze tam ta podpora je uz na hw urovni.
Odpovedať Hodnotiť:
 

pritom je to stale o jednom vadnom sektore. Moze byt sice velmi dolezity, ale moze to byt zaroven sektor uplne nedolezity.
Jeden sektor vs. strata komplet udajov pokial sa nepouzije RAID-5 ale napr. len jeden samostatny disk. To nie je az tak zlee, prist pri domacom pocitaci o kusocek mp3, ci videa namiesto komplet vsetkych udajov :)
Odpovedať Hodnotiť:
 

MP3jky na RAID5?? :-)
Odpovedať Známka: 6.0 Hodnotiť:
 

no mozno nahrava vesmirny zvuk :)
Odpovedať Hodnotiť:
 

to robi SETI v Portoriku :-)
Odpovedať Hodnotiť:
 

preco nie ? ma mat doma jedno redundantne pole na dolezite data a jedno na mp3 ? to asi velmi neusetri ze.
Odpovedať Hodnotiť:
 

Jeden nedolezity sektor (512Byte) je prilis vela. Uz jeden bajt je prilis vela! Predstav si ze ti to sekne v databaze v poli kde mas ulozenu sumu vlozenu do banky. Bud sa z teba stane bohatsi alebo chudobnejsi muz...
Odpovedať Hodnotiť:
 

viem dolezitost. Preto sa vsetko vyznamne zalohuje ci je to v RAID alebo nie.

Ale RAID polia su i v domacich PC. Nepouziva to kazdy, ale niektore chipsety to umoznuju.

Nie je problem mat 3x 1TB disk. Niekto sa smeje ked som uviedol mp3. Neuvedomuje si vsak to co som napisal. Mam pocitac, mam RAID5 mam tam dolezite veci, ale aj nedolezite - mp3, video. Vdaka RAID5 nezalohujem vsetko, ale len skutocne dolezite veci. Preto poznamka o jednom sektore. Vzdy lepsie ako ked ma clovek len jeden disk, 2, 3 samostatne, jeden zlyha a pride o vsetko.
Odpovedať Hodnotiť:
 

Viem, zalohovanie, lenze v pripade napr. databaz je zalohovanie z RAID pola raz za den relativne zbytocne. Pomaha len zalohovanie v realnom case (replikacia). Ked vystavujes v uctovnictve faktury a prave vtedy sa ti zrube RAID a nepodari sa ti ho opravit kvoli takej chybe, tak ti ani zalohovanie nepomoze. RAID je tu nato, aby chranil data voci chybam hardwaru, preto treba volit taku konfiguraciu, ktora to splna (aj ked niekedy na ukor rychlosti ci ceny).
Odpovedať Hodnotiť:
 

stale plati to co som napisal.

bud sa ti zrube RAID5 pole a budes mat mozno poskodeny 1sektor alebo sa ti zrube jeden samostatny disk a nemas ani brk.

inak napisane - clanok je podnetny, ale tyka sa najma firemnych RAID5. Domaci uzivatelia, pracovne stanice mozu byt v pohode.

Aj tak vacsina nepouziva RAID a ani nezalohuje - kupis mim 25ks DVD, nastavis backup soft, povies im aby aspon raz tyzdenne to napalili a o polroka ti volaju - neide mi komp, urob nieco..

kto pouziva domace RAID pole, vacsinou pouziva i externy disk - ak si vazi svoje data. Data sa mozu poskodit aj inak ako len chybou RAID pola :)
Odpovedať Hodnotiť:
 

chybu jedneho sektora pri rebuilde si nemusis vsimnut, pretoze RAID5 po vymene disku spolieha na to, ze data na ostatnych diskoch su v poriadku a teda ak od niektoreho disku dostane nespravne data, vytvori data na novom disku tak, aby to sedelo s paritou ;) ... a to je prave kamen urazu, ze uspesnost obnovy sa v takom pripade neda zistit (iba ak nahodou dojde k poskodeniu doleziteho suboru a ten potom nejde otvorit ;o) ...) ...
Odpovedať Hodnotiť:
 

RAID 5 nezostarieva, akurat nepredpokladal tak velku chybovost (v pomere k velkosti disku)
Odpovedať Hodnotiť:
 

Neviete niekto, ako sú na tom s chybovosťou čítania SSD disky? Pri súčasnom tempe by mohli za pár rokov kapacitou dohnať klasické disky.
Odpovedať Hodnotiť:
 

hehe, mozno raz tak lepsie ako s chybovostou zapisu, ale ked je nieco na H zapisane, tak aj precitat je to vascinou problem ... SLCcka mavaju cca 50-100 tisic cyklov prepisov, MLCcka len cca 10 tisic ...
Odpovedať Hodnotiť:
 

No ved to sa vie uz davno, ze so stupajucou kapacitou diskov a poctom diskov v poli stupa pravdepodobnost viac-nasobneho zlyhania. Akurat tuto to teraz pre jeden typ zlyhania vyratali na percenta.
Preto sa v enterprise systemomch a diskovych poliach robia jednotlive RAID5 polia z malo diskov (4, max. 6). Clovek sice vidi pole s 200 diskami v RAID5, ale interne to funguje tak, ze disky su rozdelene po styroch na jednotlive RAID5 polia.
Ako bolo spominane, enterprise disky maju mensiu chybovost a zaroven podstatne nizsiu kapacitu (pri SAS/FC je beznych 200-300 GB, novinkou su 500 GB SAS disky).
Odpovedať Hodnotiť:
 

Máte pravdu, samozrejme sa jednotlivé riziká poznajú už od začiatkov používania RAID 5.

Len kým voľakedy boli percentuálne nezaujímavé, momentálne a v blízkej budúcnosti sa dostávame do stavu, kedy sa riziko výskytu takéhoto problému podľa dostupných údajov mení z malého na veľmi pravdepodobné.
Odpovedať Hodnotiť:
 

ta dajme taketo modelove vysvetlenie: volekady sa hadzalo kockou 2-3x a pravdepodobnost ze padla napr. 6tka bola trocha mensia, ako ked sa hadze 8-10x :-) ... teda niezeby by pri 10tich hodoch ta 6tka musela padnut, ale sance su ovela vyssie ako pri 2-3 hodoch :-) pravdepodobnost ze pri 10tich hodoch ANI RAZ nepadne 6tka (analogia velkokapacitnych HDD a ze sa nepride k poruche) si mozno vypocitat vyuzitim doplnkovej pravdepodobnosti ...
Odpovedať Známka: -6.7 Hodnotiť:
 

si ty len kus klobasy pjetro ... nikoho tu nezaujimaju tvoje narcisticke poznamky o kadejakych vypoctoch cohokolvek ... unavuje ma to preskakovat.
Odpovedať Známka: 1.4 Hodnotiť:
 

asi bude staticticky overene a percentualne vycislene, ze vypocty sa vacsine ludom nepacia
Odpovedať Známka: 5.0 Hodnotiť:
 

Lebo nikto tu nevie pocitat tak dobre ako ty
Odpovedať Hodnotiť:
 

Samozrejme riesenia su, nepouzivat RAID 5 ale 10 a hned sa pravdepodobnost znizi na velkost jedneho disku. A vseobecne je zname, ze RAID 10 je rychlostne (bohuzial aj financne) inde ako RAID 5. Pokial mate ten budget, tak RAID 10 z dostatocneho mnozstva diskov je pre databazovy server niekolkonasobnym zrychlenim oproti RAID 5.
Odpovedať Hodnotiť:
 

Mam cely system na RAID10. Miesto na disku je polovicne, ale to zrychlenie systemu s nakladmi asi 5000 SK je znacne.

/dev/md8:
Timing cached reads: 11332 MB in 2.00 seconds = 5671.33 MB/sec
Timing buffered disk reads: 968 MB in 3.00 seconds = 322.46 MB/sec


Odpovedať Hodnotiť:
 

Gratulujem!
Bohuzial pri serverovych diskoch (SATA ale hlavne SAS) zacina cenovy rozdiel medzi RAID5 a RAID10 vacsinou v nasobkoch 10 000 SK... :(

Skus prosim ta este hdparm -Tt --direct /dev/md8 a posli vysledky.

Vdaka!
Odpovedať Hodnotiť:
 

s pouzitim --direct
/dev/sda: - RAID6 (sas, 128MB cache)
Timing O_DIRECT cached reads: 1378 MB in 2.00 seconds = 688.54 MB/sec
Timing O_DIRECT disk reads: 1074 MB in 3.00 seconds = 357.58 MB/sec

Odpovedať Hodnotiť:
 

direct to znacne spomaluje :(

/dev/md8:
Timing O_DIRECT cached reads: 484 MB in 2.01 seconds = 241.15 MB/sec
Timing O_DIRECT disk reads: 244 MB in 3.00 seconds = 81.21 MB/sec

Odpovedať Hodnotiť:
 

Priblizne rovnake hodnoty mam aj pri jednom disku

/dev/sdb:
Timing O_DIRECT cached reads: 476 MB in 2.00 seconds = 237.63 MB/sec
Timing O_DIRECT disk reads: 260 MB in 3.02 seconds = 86.05 MB/sec

Odpovedať Hodnotiť:
 

direct vypina cache, co nie je dobry napad s pohladu vykonu.
Moj SW RAID s pomalymi diskami je vtedy znevyhodneny oproti HW RAIDu.
Odpovedať Hodnotiť:
 

Samozrejme ze --direct vypina cache. Zaujimave je to prave vtedy, ked sa systemova alebo hardwarova (napr. BBC - Baterry BackedUp Cache na radici) vycerpa alebo pokazi. BBC je vzdy limitovana, ak zacnes kopirovat 4GB subor tak nemozes cakat, ze sa cely zmesti do cache a kopirovanie bude trvat minutu. Zaujimavy je v tomto pripade hruby vykon samotneho RAIDu. Pri linuxovom kernel RAIDe (md) sa cast vykonu straca v obsluhe procesorom. Samozrejme zalezi aj na pouzitom suborovom systeme, velkosti stripe-u, velkosti bloku, atd. Stravil som optimalizaciou RAID poli pre databazy nejaky ten piatok...
Odpovedať Hodnotiť:
 

/dev/cciss/c0d0: - RAID5 (sata, 128MB cache)
Timing cached reads: 6552 MB in 2.00 seconds = 3278.06 MB/sec
Timing buffered disk reads: 668 MB in 3.01 seconds = 222.22 MB/sec

/dev/sda: - RAID1 (scsi320, 64MB cache)
Timing cached reads: 282 MB in 2.00 seconds = 140.73 MB/sec
Timing buffered disk reads: 100 MB in 3.00 seconds = 33.32 MB/sec

/dev/sda: - RAID6 (sas, 128MB cache)
Timing cached reads: 11702 MB in 2.00 seconds = 5861.06 MB/sec
Timing buffered disk reads: 936 MB in 3.01 seconds = 311.46 MB/sec

myslim, ze ozaj hodne zalezi na pouzitom zeleze :))
Vsetko su to hardwarove RAID, akurat ten 64MB je doslova smejd, pri pouziti RAID5 ani po 24 hodinach nemal zrekonstruovany disk, preto ide iba ako mirror ...
Odpovedať Hodnotiť:
 

ale v pomere medzi pravdepodobnostou vyskytu neopravitelnej chyby a velkostou disku. Ak sa v premiere na 12,5 TB vyskytne jedna neopravitelna chyba citania, znamena to, ze ak si kupim 1 TB disk a uplne ho zaplnim, s pravdepodobnostou cca 8% zapisane data neprecitam bez chyby. A to je holt uz problem.

Inak disky vnutorne urcite pouzivaju nejake samoopravne kody. V takom pripade jeden chybný bit na 10^14 bitov znamená ukrutne malú pravdepodobnosť, že v jednom bloku dôjde ku chybe dvoch alebo viacerých bitov do tej miery, že samoopravný kód sa s tým nebude vedieť vysporiadať. Takže si dovolím dosť pochybovať o tvrdeniach v článku, ktoré vedú k dôsledku v 1. odstavci.

Odpovedať Hodnotiť:
 

1, Tá pravdepodobnosť udávaná výrobcami sú neopraviteľné chyby, ani ECC ani opakovaným čítaním. Opraviteľné chyby čítania sa napríklad na Seagate desktopových diskoch vyskytujú pomerne často, na veľkých Barracuda 7200.x v miliónoch za životnosť disku.

2, Samozrejme už 8% je problém, ale pri bežnom desktopovom používaní sa toľko dát prečíta za pomerne dlhé obdobie.

3, Problém s RAID 5 je ten, že jednou jeho úlohou je ochrániť dáta. Kto ho nasadzuje, nasadzuje ho aj preto, inak by zvolil RAID 0. A je veľká pravdepodobnosť, že RAID 5 túto úlohu už nedokáže plniť. Robiť sa s tým nedá prakticky nič na rozdiel od RAID 1, kde ak Vám to riziko problému pri obnovení nevyhovuje, pridáte si spare disk.
Odpovedať Hodnotiť:
 

Dakujem redakcii za upresnenie. Vidim, ze som zle cital. Neopravitelny mam teda chapat "tak poskodeny, ze ani opravny kod to nezachrani". Priznam sa, ze takato vysoka chybovost ma dost zaraza.
Odpovedať Hodnotiť:
 

konecne som si tu precital aj normalnu diskusiu bez 12rocnych deti. takze dakujem zucastnenym. :)
Odpovedať Známka: 10.0 Hodnotiť:
 

pravdu mas az oci otvaram...
Odpovedať Hodnotiť:
 

desatrocne deti clanok preskocili, kedze o Raide poculi len v reklame na prostriedok proti hmyzu :D
Odpovedať Hodnotiť:
 

RAID 5 začína byť pri súčasných kapacitách diskov nespoľahlivý

somarina jak mraky, chlapik sa trochu logicky pohraj s matematikou a ide do sveta vyrukovat s bohovskymi cislami a sirit paniku - asi sa potreboval zviditelnit aleno naopak media potrebovali zarobit na citanosti.

kazdy lepsi firmaware v diskovych policiach, radicoch, diskoch si robi vlastnu statistiku, meriania, sleduje stavove parametre a healt. uz pri najmensom podozreni na vadny disk alebo problem v samotnom poli ulohu prebera hotspare zariadenie /polica, radic alebo samotny HDD/. tazke je pravdepodobne /ak neuvazujeme o meteorite a pod./ ze dojde k disastery z ktoreho nie je mozne rebuildnut pole.

a to uz nehovorim ze pokial sa robi kvalitna zaloha dat a backup managent je nastaveny spravne, moze padnut aj meteorit...

tak nechapem o co tomu chlapikovi v tejto kvazi analyze ide
Odpovedať Hodnotiť:
 

Ide mu o to, ze pokial pouzivas obycajny RAID 5 tak ked ti odide jeden disk z pola, tak az do doby kym sa zrecoveruje cely RAID ti nesmie odist ziadny iny disk (ani jeho cast) inak prides o data. To ze tam je hotspare, este neznamena ze sa prave na nom nevyskytne chybny blok. Potom sa nebude kam mat ulozit dopocitany vysledok pri rebuilde. To vsak je ten najlepsi scenar. Samozrejme RAID radice v dnesnej dobe uz robia scan sektorov diskov na pozadi, ale to nevylucuje ze (podla Murphyho zakonov) sa neobjavi chybny sektor prave pri rebuilde podla pravdepodobnosti, ktoru tento panko vypocital. Aj ked je podla mojho nazoru dost nadsadena...
Odpovedať Hodnotiť:
 

Samozrejme existuju este dalsie techniky RAID radicov a dsikov, ktore tomuto predchadzaju, ako je realokovanie chybnych sektorov na zalozne casti disku. Kazdy (serverovy) disk ma totizto rezervovane casti pre pripad, ze dojde k neopravitelnej chybe na nejakom sektore. V tom pripade presmeruje citanie a zapis na zalozny sektor. Preto sa tato pravdepodobnost znizuje na pomerne zanedbatelnu a chlapik to skratka nafukol :)
Odpovedať Hodnotiť:
 

precitaj si to este raz, pomali a skus pri tom rozmyslat.
Odpovedať Hodnotiť:

Pridať komentár