neprihlásený Pondelok, 9. marca 2026, dnes má meniny Františka
Dosiahnutý nový rekord v rýchlosti triedenia, Hadoop porazil Microsoft

DSL.sk, 27.2.2013


Spoločnosť MapR vyvíjajúca vlastnú upravenú implementáciu frameworku Apache Hadoop v utorok oznámila vytvorenie nového rekordu v rýchlosti triedenia dát v kategórii najväčšieho množstva utriedených dát za jednu minútu.

MapR za 59 sekúnd utriedila presne 1500 GB dát.

Doterajším rekordom bolo 1401 GB dosiahnutých Microsoftom v minulom roku.

Triedenie čo najväčšieho množstva dát za jednu minútu je jedným z dvoch odbornou komunitou používaných rýchlostných benchmarkov triedenia veľkého množstva dát, druhým je rýchlosť triedenia pri triedení minimálne 100 TB dát.

V benchmarku sa triedia 100-bajtové záznamy s 10-bajtovým kľúčom a súťaží sa v dvoch kategóriách, v kategórii Indy môže byť algoritmus optimalizovaný na dĺžku záznamov a kľúčov, v kategórii Daytona musí vedieť pracovať s ľubovoľnými dĺžkami.

MapR rekord dosiahla spustením triedenia pomocou svojej upravenej a optimalizovanej verzie Hadoop na 2103 virtuálnych strojoch od Google použitím štandardnej infraštruktúry Google Compute Engine. Jeden stroj mal štyri virtuálne jadrá zodpovedajúce dvom fyzickým jadrám, 15 GB pamäti a 1.7 TB diskového priestoru.

Hadoop je framework pre paralelné aplikácie spracúvajúce veľké množstvo dát, ktorý funguje na princípe MapReduce.

V prvej tzv. map fáze každý z 2099 použitých mapperov utriedil cca 714 MB dát, použitý algoritmus MapR neuvádza. V druhej tzv. reduce fáze boli výsledky jednotlivých triedení spojené. Triedenie 1500 GB najskôr trvalo 70 sekúnd, po uskutočnení niekoľkých optimalizácií a najmä prepísaní reducera na efektívne využívanie všetkých jadier namiesto jedného sa MapR dostala pod jednu minútu.



Najnovšie články:

Test odklonenia asteroidu nárazom sondy NASA bol ešte úspešnejší
LibreOffice kritizoval Európsku komisiu za vyžadovanie XLSX, pridala ODS ale chybne
Výrobca skiel Gorilla má nové keramické sklo, smartfóny majú prežiť opakované pády na asfalt
PC podľa analytikov zdražia tento rok o 17%
Pozor, dnes začína opäť dvojdňové vypnutie Slovensko.sk


Diskusia:
                               
 

http://dopice.sk/5cB
Odpovedať Známka: 5.7 Hodnotiť:
 

A popoluska je bez prace...
Odpovedať Známka: 8.4 Hodnotiť:
 

Co jej, ale aj mne uz jebe z prace
Odpovedať Známka: 7.1 Hodnotiť:
 

V robote ho pouzivame na spracovanie statistik z logov o velkosti niekolkych GB denne :)
Odpovedať Známka: 1.4 Hodnotiť:
 

A to spracovanie je vlastne zotriedenie riadkov logov podla prveho znaku v riadku..... :D
Odpovedať Známka: 6.7 Hodnotiť:

Pridať komentár