neprihlásený Streda, 24. júna 2026, dnes má meniny Ján
Skrytá chyba v dátach v PC priemerne raz na 36 TB

DSL.sk, 17.9.2007


Zaujímavý test frekvencie skrytých chýb v dátach prenášaných a uchovávaných počítačmi uskutočnil Peter Kelemen z CERN-u.

V PC vznikajú chyby v dátach na rozličných HW aj SW úrovniach, nie vždy bývajú opravené opravnými kódmi. Napríklad chyby pamätí, ktoré nie sú typu ECC, zostanú nespozorované, ak ich neodhalí kontrolný mechanizmus na úrovni aplikácie.

Kelemen testoval celkovo 4 000 PC, ktoré postupne veľmi nízkou rýchlosťou ukladali dáta na disk a pre overenie ich opäť prečítali. Zapisovaný bol známy dátový vzor, 2 GB súbor bol zapísaný za 1 hodinu a 8 minút.

Test prebiehal na počítačoch s rozličnými hardvérovými konfiguráciami a často aj RAID-om a len s operačným systémom Linux v podobe rozličných distribúcií. Väčšina chýb je zrejme spôsobená priamo alebo nepriamo hardvérom a podobný počet by sa mal vyskytovať aj u Windows, test na Windows ale Kelemen neuskutočnil.

Test trval šesť mesiacov, všetky PC spolu preniesli 50 petabajtov, teda 5 * 10 ^ 16 bajtov dát. Celkovo sa vyskytlo 1 400 skrytých chýb, ktoré test odhalil spolu na 230 rozličných PC.

Jedna chyba sa tak vyskytla v priemere po prenesení 35.7 TB.

Približne u pätiny chýb bol zmenený v jednotlivom bajte jeden alebo dva bity, tieto chyby boli spôsobené pravdepodobne najmä pamäťami. K chybe troch bitov v bajte prišlo iba raz, najčastejšie sú chyby dvoch bitov súčasne. Častejšie sú zmeny 1 na 0 ako opačne.

Ďalšia približne šestina bola chýb so zmenenými blokmi o veľkosti 128 až 512 bajtov, pravdepodobná príčina týchto chýb nebola zistená.

Výrazne viac ako polovicu chýb tvorili zmenené väčšie bloky dát do veľkosti 64 KB, ktoré boli často dátami z iných oblastí diskov alebo staršími prenášanými dátami. Tieto chyby autor pripísal skrytým chybám diskového subsystému respektíve chybám v komunikácii diskového subsystému a procesora, softvéru.

Zvyšnú malú časť tvorili chyby s blokmi nulových dát, príčina týchto chýb tiež nie je známa.

Výrazne najviac chýb sa vyskytovalo o štvrtej a piatej hodine ráno a o deviatej večer. Priemerný počet chýb sa začal znižovať v druhej polovici februára a najmä od konca marca. Kelemen upozornil na začiatok upgradu firmvéru u WD diskov od 20. februára, ako pravdepodobnú príčinu nižšieho počtu chýb tento dôvod ale jednoznačne neoznačil.

Správu Kelemena je možné stiahnuť tu (PDF).



Najnovšie články:

Orange chybne informoval zákazníkov o inštalácii optiky
Google investoval 75 miliónov do filmového štúdia, budú vyvíjať technológie pre AI filmy
Flash pamäť dosiahne viac ako 1000 vrstiev v roku 2030
Na Slovensku je nové batériové úložisko s kapacitou 20 MWh
Nový najvýkonnejší superpočítač je v Číne, slovenský superpočítač je na 145. mieste


Diskusia:
                               
 

No ak je to pravda okamžite vyhadzujem svoj disk aj s počítačom lebo takú strašnú chybovosť nehodlám tolerovať.
No ale vážne na konci článku týpek spomína že WD mali upgrade FW takže ak mám SEAGATE nemám sa čoho báť ?

Odpovedať Hodnotiť:
 

mohol si radsej napisat ze "jeees, som prvy".. hodnota prispevku by sa nebola zmenila..
Odpovedať Hodnotiť:
 

:)
Odpovedať Hodnotiť:
 

Priemerný počet chýb sa začal znižovať v druhej polovici februára a najmä od konca marca.

V akej faze bol Mesiac ?
Alebo to bolo sposobene vplyvom konjunkcie Jupitera s Merkurom ?

Treba to analyzovat hlbsie, taketo povrchne vysledky su nanic!
Odpovedať Hodnotiť:
 

By si sa divil, ale napr. urcite chyby v cache procesora obcas sposobuje aj kozmicke ziarenie.
Odpovedať Hodnotiť:
 

ja mam osobnu skusenost so ziarenim po slnecnych erupciach ... inac odporucam kuknut ten link, dobra a ftipna prezentacia (vyskum by si zasluzil navrhnutie na darwinovu cenu)
Odpovedať Hodnotiť:
 

Niekto sa tam zabil? Vies o com Darwin award je?
Odpovedať Hodnotiť:
 

myslel som tie sialene nobelovky
Odpovedať Hodnotiť:
 

Pán Kelemen neberie vôbec do úvahy el. prúd.
Moja skúsenosť je, že ozaj online (nie spínaná) UPSka odstráni asi 90% prúserov.

Odpovedať Hodnotiť:
 

Nemavas rano mokro v slipoch?
Odpovedať Hodnotiť:
 

Nie , Opera má nové , flexibilné krídelká , ktoré teraz sajú zápach a tekutiny rýchlejšie ako iné vložky!
Odpovedať Hodnotiť:
 

osobne skusenosti?
Odpovedať Hodnotiť:
 

ako funguju ECC DDRII?
viem co je to ecc, co robi, ale neviem co sa stane, ak modul zisti chybu. Co sa stane?
SATA disky mam dojem, ze maju standartne ecc korekcie, ci nie?
thx, za kvalitnu a zrozumitelnu odpoved=)
Odpovedať Hodnotiť:
 

"stvrtej a priatej" ??? :-D
Odpovedať Hodnotiť:
 

tiez ma to zarazilo, mohol pouzit radsej internetovy cas...
Odpovedať Hodnotiť:
 

pan Klementen sa bal konfrontacie s WIN, preto ho netestoval. Je vseobecne zname, ze lunex sposobuje viac chyb ako WIN, preto ho drviva vacsina ludi nepouziva.
Odpovedať Hodnotiť:
 

Iste, skor sa mu nechcelo cvakat 4000xN, kde N je cena jednej licencie na windows.
Odpovedať Hodnotiť:
 

Zase predviedol svoj odborny nazor.

Samozrejme, ked sa natiahne jadro Linuxu, tak pamate a disk sa prepnu do specialneho Linux-error modu a ked nabehne Windows, tak ochranna ruka stryka Billa chrani vsetky komponenty pred chybami...


Nie som zastanca Linuxu, pouzivam Windows, ale ty by si chalan obcas mohol zapnut mozog. Tu sa hovori o HW chybach nie softwarovych...
Odpovedať Hodnotiť:
 

Podla teba nema software vplyv na hardware na ktorom bezi?
Odpovedať Hodnotiť:
 

nie, ak nie su sposobene sw
Odpovedať Hodnotiť:
 

Ale tie chyby boli hardwarove ty chmuľo.
Odpovedať Hodnotiť:
 

Danko, uz sa nehnevaj. A povies co ti ten lunex urobil? Pojdeme ho spolu zbit, hm?
Odpovedať Hodnotiť:
 

Testy tohto typu urcite nie su robene len z dlhej chvile. Su prevadzkovane aplikacie (napr. CERN ma LHC http://lcg.web.cern.ch/lcg/), ktory vyzaduju spracovanie TB dat, a tisicky uloh sucasne. To sa robi v Gride, ktory je cely postaveny na Linuxe - hlavne Scientific Linux (SL) alebo na SL CERN (SLC). Pri tisickach uzlov, HW chyby predstavuju problem. Obdobna infrastruktura nad WIN neexistuje. MS sa snazi ale len o datovy Grid. Pre informaciu "The EGEE Grid consists of over 36,000 CPU available to users 24 hours a day, 7 days a week, in addition to about 5 PB disk (5 million Gigabytes) + tape MSS of storage, and maintains 30,000 concurrent jobs on average."
Odpovedať Hodnotiť:
 

Drviva vacsina ludi nepouziva Linux pretoze si ho bud nevedia nastavit alebo cakaju pokym na linuxe pojdu vsetky aplikacie a samozrejme hry /takych je velmi vela/.. a ako spravne podotkol kolega nizsie testuje sa HW..
Odpovedať Hodnotiť:
 

moze mat vplyv/mozno niesom si tym isty/ ale myslim ze na Winoch by to bolo trosku nakladne kupovat na N pocitacov miltilicenciu.. to by skrachoval.. a aj tak si myslim ze Windows by ten disk doj*bal este viac
Odpovedať Hodnotiť:
 

Je vidiet, ze mate bohate skusenosti s licenciami pri originalnom softe (nie, to nie je ten od kamarata s potlacou z otcovej laserovky). 1 licencia win moze byt sucasne pouzivana len na 1 stroji, takze nainstalujem, otestujem, idem na dalsi.
Odpovedať Hodnotiť:
 

*odinstalujem, idem na dalsi :)
Odpovedať Hodnotiť:
 

neviem preco ale stale mam pocit ze mas 10 rokov asi to bude tvojimi hodnotnymi prispevkami
Odpovedať Hodnotiť:
 

taky test by trval x-krat dlhsie...
Odpovedať Hodnotiť:
 

X môže mať hodnotu aj 0,5 ; daj si facku
Odpovedať Hodnotiť:
 

tak povedzme, ze definicny obor X je v Z vacsich ako 1 ;o) ...
Odpovedať Hodnotiť:
 

omg na winoch by sa toho ten vedec nedozil "všetky PC spolu preniesli 50 petabajtov, teda 5 * 10 ^ 16 bajtov dát." tak neviem neviem win by ti na 89% zamrzol :D a pokym nainstalujes windows vista alebo XP..
Odpovedať Hodnotiť:
 

"Test trval šesť mesiacov..."
To si myslite, ze na to bol pan Kelementen sam? :)

Odpovedať Hodnotiť:
 

btw. je to prenos necelych 13GB na 1 stroj, takze poznamky o tom, ze by to WIN nevydrzal su nepripustne.
13GB by preniesol za 6 mesiacov aj cez dial-up pri pripojeni len v noci, aby usetril;
Odpovedať Hodnotiť:
 

jasné a tým prenosom známych dát myslel sťahovanie známeho porna z internetu, zamysli sa nad sebou xD
Odpovedať Hodnotiť:
 

Nauc sa aspon pocitat, tvoje prispevky su plne nezmyslov.

50 PB = 50 * 10^16 B
50 * 10^16 / 4000 PC = 12.5 * 10^13 B = 125 TB.

Cize 125 TB ziadnych 13 GB na 1 stroj, taketo pocty sa ucia uz na zakladnej skole.
Odpovedať Hodnotiť:
 

čistá špekulácia - nepoužil linux náhodou práve preto lebo pod win nemohol/nemal dostupný nástroj na podobný test HW?
Odpovedať Hodnotiť:

Pridať komentár