neprihlásený Piatok, 22. novembra 2024, dnes má meniny Cecília
Vytvorený nový rekord v rýchlosti triedenia 100 TB

Značky: algoritmycloud

DSL.sk, 14.10.2014


Spoločnosť Databricks na konci uplynulého týždňa oznámila vytvorenie nového svetového rekordu v rýchlosti triedenia 100 terabajtov dát, ktoré sa jej podarilo utriediť za 23 minút.

Databricks dodržiavala akceptované pravidlá benchmarku sortbenchmark.org, v ktorom sa triedia záznamy o veľkosti sto bajtov s kľúčom veľkosti desať bajtov.

Doterajším rekordom bolo utriedenie minimálne 100 TB dát za hodinu a dvanásť minút spoločnosťou Yahoo na 2100 serveroch s využitím frameworku Hadoop.

Databricks rekord dosiahla pomocou frameworku pre klusterové počítanie Apache Spark, za ktorým stoja zamestnanci tejto spoločnosti. Realizácia rekordu prebiehala na iba 206 serveroch cloudovej služby Amazon EC2, pričom použitými boli servery v konfigurácii i2.8xlarge. Servery i2.8xlarge majú k dispozícii 32 jadier Intel Xeon E5-2670 v2, 244 GB pamäte a osem 800 GB SSD diskov.

Použitým triediacim algoritmom bol Timsort.

Spoločnosť za účelom rekordu Spark vylepšila s cieľom dosiahnuť vyšší výkon a vytvorením rekordu chcela demonštrovať vhodnosť Spark aj na manipuláciu s dátami, ktoré sa nezmestia do operačnej pamäte. Jeden server vo výpočtovej fáze po vylepšení spracúval dáta na diskoch rýchlosťou 3 GB/s a v spájacej fáze prenášal dáta rýchlosťou 1.1 GB/s, naplno tak vyťažujúc desaťgigabitovú konektivitu uzlov.

Databricks tiež demonštrovala utriedenie 1 PB dát, ktoré nie je štandardnou kategóriou sortbenchmark.org. Na 190 serveroch i2.8xlarge dokázala toto množstvo dát utriediť za 3 hodiny a 54 minút.


      Zdieľaj na Twitteri



Najnovšie články:

Apple má prvýkrát použiť vlastný 5G modem v iPhone v marci
Linux dostáva podporu veľkokapacitných pamäťových SDUC kariet
USA požadujú, aby Google predal Chrome a potenciálne aj Android
ISS zvýšila orbitu, aby sa vyhla troskám zo satelitu
Vzniknú fyzické zábavné tematické Minecraft parky
Qualcomm chystá Snapdragon CPU pre lacnejšie PC, majú začínať na 600 dolárov
SpaceX nezachytávala prvý stupeň Starship kvôli problému na štartovacej veži
Sprístupnená prvá testovacia verzia už Androidu 16
Starship má dnes uskutočniť ďalší let, video
Google chce údajne na notebooky nasadiť Android namiesto ChromeOS


Diskusia:
                               
 

NACO je komu treba triedit taketo mnozstvo dat takouto rychlostou, ani parom volov by som toto netriedil.
Odpovedať Známka: -8.8 Hodnotiť:
 

triedenie je iba vseobecna nahrada za agregacne a vyhladavacie funckie a si predstav kolko take it/telco giganty maju denne dat.
Odpovedať Známka: 9.3 Hodnotiť:
 

a kolko dat ma denne NSA... podla mna ti sa nad tymto rekordom len pousmeju.
Odpovedať Známka: 6.2 Hodnotiť:
 

15.10.2014: Google odkupila Databricks za xy milionov
Odpovedať Známka: 8.9 Hodnotiť:
 

aby si vedel nieco najst vo velkej DB v rozumnom case, tak to musis mat nevyhnutne utriedene.
Odpovedať Známka: 8.2 Hodnotiť:
 

vyborne, teraz mozu prist triedit do garaze mojho dedka.
ak to stihnu za 3 tyzdne, mozu si vsetko aj odniest
Odpovedať Známka: 6.0 Hodnotiť:
 

tebe by sem mali zakazat pristup ty dement a nie len sem ale cely internet ti odpoit a zobrat pocitac
Odpovedať Známka: 5.8 Hodnotiť:
 

dúfaj, že neodpoia všetkých menej vzdelaných
Odpovedať Známka: -3.3 Hodnotiť:
 

Pri mydlení toho barana sa mu iba šmýkali prsty....
Odpovedať Známka: 6.4 Hodnotiť:
 

ty si sa nepomýlil... jasná známka skúseného dávača dnuka.
Odpovedať Známka: -2.0 Hodnotiť:
 

No jasne... Ja teraz už dávam dnuka inú ligu - naposledy to bol morský ježko a pred tým juhoamerická lama za behu...
Odpovedať Známka: 8.2 Hodnotiť:
 

Este si tam dopis "Z toho sa nenajem!" a "Za toto si chleba nekupim!" a uz to tu moze byt ako na aktualne.sk
Odpovedať Známka: 8.9 Hodnotiť:
 

ale ved ma pravdu, naco je komu co triedit. Rozky lacnejsie nebudu. a jedine co treba triedit je otpad.
Odpovedať Známka: -2.5 Hodnotiť:
 

na odpad kaslat, aj tak to technicke sluzby potom zhashuju dohromady
Odpovedať Hodnotiť:
 

By si sa cudoval, ake mnozstvo algoritmov potrebuje najskvor data zotriedit.
Ked ideme od takych tych jednoduchych/naivnych, tak napriklad vymazanie duplicit sa efektivne robi so zotriedenim.
Dalej vyhladavanie v datach nad zotriedenymi datami je asymptoticky rychlejsie (log N), ako "linear seach" - t.z. nehladam informaciu 10 sekund, ale mam ju prakticky okamzite...
K takym tym zlozitejsim pripadom patria greedy search na vsetky prichute alebo rozne statisticke analyzi dat.

A samozrejme, cim viac tych dat je, tak tym efektivnejsie s nimi musim vediet narabat, aby som ich vedel aspon nejak pouzit... Takze ked videme do konkretnych prikladov, tak napriklad na to, aby facebook mohol mat o 2% menej serverov...
Odpovedať Známka: 7.5 Hodnotiť:
 

Presne na tuto odpoved som cakal. Nie ako ostany pred tebou co len nadavaju do dementov a nic k veci nepovedia.

Prave vdaka tebe podobnym diskutujucim sem chodim.

VDAKA
Odpovedať Známka: 5.6 Hodnotiť:
 

posli mu kvety
Odpovedať Známka: 0.0 Hodnotiť:
 

co
Odpovedať Známka: -6.7 Hodnotiť:
 

Posielam kvety kolegovi Borisovi
Odpovedať Známka: 4.0 Hodnotiť:
 

Ze dakujem :)
Odpovedať Známka: 3.3 Hodnotiť:
 

co by za to dala taka Popelka :P
Odpovedať Známka: 8.3 Hodnotiť:
 

Určite by za to dala...
Odpovedať Známka: 10.0 Hodnotiť:
 

tomu dal tomu dala, len mne nedala
Odpovedať Známka: 6.0 Hodnotiť:
 

No je to pekne ale pri takom objeme a rychlosti tie SSD disky nebudu mat velku zivotnost, kedze ako pisu, data sa nezmestia do pamete tak sa presuvaju hore dolu.
Odpovedať Známka: 10.0 Hodnotiť:
 

chleba lacnejsi nebude
Odpovedať Známka: 2.0 Hodnotiť:
 

Usporiadat, nie triedit.
Odpovedať Hodnotiť:
 

V roku 1991 som 3000 položiek a 3 MB dát triedil vo Fox-ke 12 hodín...
Potom som zmenil spôsob triedenia a čas som znížil na 10 minút.
Odpovedať Hodnotiť:
 

Ved po utriedeni dat opatovne triedenie je rychlejsie, kedze sa vykonava uz takmer len porovanie miesto presuvania dat. :)
Odpovedať Hodnotiť:
 

"ROZžKY LACNEJSšIE NEBUDú !!! či hej ? :p
Odpovedať Známka: -3.3 Hodnotiť:
 

ak si ich utriedis podla ceny, budu
Odpovedať Známka: 10.0 Hodnotiť:

Pridať komentár