neprihlásený Streda, 22. apríla 2026, dnes má meniny Slavomír
Unicode používa už takmer polovica webových stránok

DSL.sk, 29.1.2010


Používanosť kódovania znakov Unicode UTF-8 na webových stránkach prudko rastie a v súčasnosti ho používa už takmer polovica webových stránok.

Informovala o tom spoločnosť Google na základe štatistík používania jednotlivých kódovaní na stránkach, ktoré spoločnosť svojimi crawlermi prechádza a zaraďuje do svojho vyhľadávacieho indexu.

Unicode sa pritom stal najpoužívanejším kódovaním len v máji 2008, kedy mal podiel na úrovni 25% a predstihol takmer súčasne ASCII a západoeurópske ISO 8859-1 spolu s Windows-1252.

Kódovanie UTF-8 bolo vyvinuté v roku 2003, kedy ho začali už používať aj prvé webové stránky. V roku 2006 bolo používané na menej ako 10% stránkach.


Vývoj podielu jednotlivých kódovaní na webových stránkach v čase (graf: Google)



Kódovania ASCII a západoeurópske ISO 8859-1 a Windows-1252 sú naďalej druhým a tretím najpoužívanejším s podielom tesne pod úrovňou 20%, podiel ďalších sa pohybuje pod úrovňou 5%.



Najnovšie články:

Nvidia uvedie CPU pre PC možno 1. júna, objavila sa doska s týmto CPU
Postapokalyptický seriál od Apple bude pokračovať od júla, ukážka
Najväčší výrobcovia predstavili lepšie LiFePO4 články, veľmi rýchlo sa nabíjajú
NASA inštaluje na ISS nové notebooky a servery
Microsoft znovu avizuje podporu FAT32 väčšieho ako 32 GB, pridal ju už pred dvomi rokmi
TP-Link chce výnimku zo zákazu predávať zahraničné routery v USA, zatiaľ ju nedostal
Instagram pre chybu ukazoval fotky v odtieňoch šedej
Apple vymení svojho CEO, od septembra
Americké úrady po nepodarenom štarte dočasne zakázali New Glenn lietať
Pošta konečne overuje občiansky v mobile bezpečne, po absurdnom ročnom "vizuálnom overovaní"


Diskusia:
                               
 

Nevidim zmysel v pouzivani windows kodovania, ked je tu utf8.
Odpovedať Známka: 8.7 Hodnotiť:
 

nevidim zmysel v pouzivanie AKEHO-KOLVEK ineho kodovania , ked je tu UTF8 (azda az na par drobnych). A jednoznacne - UTF-8 + MYSQL(v utf-8) = vyhladavanie cross-diakritikoveho textu bez dalsich scriptov - u mna VELKE PLUS!!!! UTF-8 rulezz
Odpovedať Známka: 9.4 Hodnotiť:
 

Skus si nastavit latin1 kodovanie pre MEMORY tabulky (mysql), kde si mal predtym UTF8. Velkost celej tabulky sa rapidne znizi. Nevravim, ze je to pouzitelne vzdy, ale na ukladanie hashov a podobnych zalezitosti, kde nie je predpoklad roznych specialnych znakov nie je UTF8 velkou vyhrou. Na strankach samozrejme pouzivam UTF-8, kedze mam stranku s uzivatelmi roznych narodnosti.
Odpovedať Známka: 10.0 Hodnotiť:
 

Tak tuto zalezitost by si mohol objasnit, nakolko utf-8 je variable-length kodovanie a teda pre normalne znaky z ascii je to stale 1 byte na 1 znak. S pouzitim ne-ascii znakov zacina rast velkost obsadeneho miesta na 2-4 byty na znak.
Odpovedať Známka: 10.0 Hodnotiť:
 

I ked nad tym tak rozmyslam, tak mem tabulky v mysql zaberaju miesto v pamati podla modelu worst-case. Teda v tomto pripade asi 4 byty na 1 znak bez ohladu na to, co za znak to je.
Takto si to myslel?
Odpovedať Známka: 10.0 Hodnotiť:
 

Myslim ze je to tak ako vravis. Nie som velky odbornik na mysql, akurat som si to nedavno vsimol, ked som optimalizoval DB. Pri myisam tabulkach zmena kodovania rozdiel nerobila, iba pri memory.
Odpovedať Známka: 10.0 Hodnotiť:
 

suhlas, po precitani titulky treba uz povedat len: konecne, ale furt je to malo
Odpovedať Hodnotiť:
 

,,Nevidim zmysel v pouzivani windows kodovania, ked je tu utf8."

No ked ides robit novy projekt, tak mas pravdu. Urcite vyse 95% novych projektov sa hned robi v utf-8.

Ked mas stary projekt vo win-1250, tak co narobis, nic... uz len v tom pokracovat. Cele to konvertovat do unicode je kopa prace.

Ked sa opytas preco DSL.sk nie je v utf-8 ale windows-1250, tak Ti urcite odpovedia, ze by trebalo XY hodin na prerobenie + testovanie, kontrola, ci vsetko vsade OK. A kto to bude dnes robit v krize? Vsetko na weboch chatra. Za vsetkym je zopar ludi (ak nie jeden admin), ktory(i) musi(a) robit len nevyhnutne a dolezite veci.
Odpovedať Hodnotiť:
 

utf-8 je pre univerzalnost naozaj super, pouzivam ho uz vsade. Inak kedy prejde dsl.sk na UTF-8 ?
Odpovedať Známka: 9.3 Hodnotiť:
 

jj presne, taktiez ho uz pouzivame vsade, je to dobra vec.
Odpovedať Známka: 10.0 Hodnotiť:
 

dsl.sk pouziva kodovanie 80-roky
Odpovedať Známka: 10.0 Hodnotiť:
 

Keby tak Microsoft chcel prejst na utf-8 :D
Odpovedať Známka: 5.3 Hodnotiť:
 

neviem co tym myslis ... ved aj taky notepad (poznamkovy blok) podporuje UTF-8 odkedy toto kodovanie existuje ...
Odpovedať Známka: 1.7 Hodnotiť:
 

Ano, jeho podporu ma, ale ani bohovy je nemaju nastavenu ako default. Napr. slovenske windows, resp. windowsi nastavene na SK prostredia maju v Notepade prednastavene cp-1250. Potom je potesenie ked pouzivas napr. platformu Linux, ktora ma vsade nastavene standardne utf-8, ked musis pouzivat textaky z sk Notepadu. Rozsypana diakritika, bud treba nastavit kodovanie pred otvorenim takeho suboru, alebo prekodovat dany subor, uplne zbytocna nekompatibilita. A ked si stiahnes titulky k nejakemu filmu detto, nemozu SK a CZ prekladatelia na titulky.com a pod. strankach konecne pouzivat nieco ine ako Notepad, prip. Wordpad :-) Asponze MS Office pouziva utf-8 lebo to by este bola katastrofa prenasat doc, xls, a pod na inu platformu.
Odpovedať Známka: 10.0 Hodnotiť:
 

co vlastne utf? use the fucking 8?
jaaj uz to mam, universal text format 8 o-]
Odpovedať Známka: -2.7 Hodnotiť:
 

a co tak unicode transformation format?
Odpovedať Známka: 7.5 Hodnotiť:
 

Najlepší je UTF-9 :)
http://tools.ietf.org/html/rfc4042
Odpovedať Hodnotiť:
 

mam taky problem s BOM. napr ked v php pouzivam funkciu header, ale takisto prazdny riadok na zaciatku stranky... riesim to cez notepad++, convert to utf8 without BOM. existuje lepsie riesenie ?
Odpovedať Hodnotiť:
 

PSPad
Odpovedať Známka: 4.3 Hodnotiť:
 

vyskusam, thx
Odpovedať Hodnotiť:
 

PHP a XML súbory by vo všeobecnosti nemali obsahovať tie úvodne bajty, ktoré určujú kódovanie. V jednom prípade musí byť prvý znak "<" a v druhom ak to nie je prvý znak, tak je normálne vyslaný užívateľovi ako keby bol zadaný v HTML čo môže narobiť chyby hlavne pre header.
Ja používam Notepad2 a samozrejme tu "značku kódovania" pre dokumenty na web stránku vypínam.
Odpovedať Hodnotiť:
 

XML môže obsahovať BOM (podľa neho sa potom určuje použitá znaková sada). PHP by si tiež malo poradiť s BOM. Ak je len jeden, ale často sa stáva, že je vo viacerých súboroch, ktoré sa potom vkladajú pomocou include/require a teda nakoniec ich tam je viac a spôsobuje to problémy (preto je asi jednoduchšie pri PHP BOM nepoužívať).
Odpovedať Hodnotiť:
 

Na UTF-8 by konecne mohli prejst vsetci ti co robia titulky. Kazdy jeden subor na titulky.com ma trapne CP1250 kodvanie. V Linuxe v mplayeri je oprava zalezitostou 3 kliknuti, ale aj tak je to otrava. A pouzivat CP1250 je zpiatocnictvo.
Odpovedať Známka: 7.1 Hodnotiť:
 

Ja davam prednost www.opensubtitles.org je to o kus lepsi projekt ako titulky.com. Titulky.com otravuju aby zarobili prachy. OpenSubtitles ma open API, ktory vyuziva program SubDownloader. Staci len otvorit film, vypocita sa hash a program automaticky stiahne titulky presne pre verziu filmu, ktoru mas :)
Odpovedať Hodnotiť:
 

Problemom je asi to ze vacsina divx prehravacov ma pre cestinu/slovencinu nastavene kodovanie prave cp1250, cize by to ludia museli pred palenim konvertovat z UTF-8. Keby bolo vsetko v UTF-8 tak prehravac nemusi mat menu na prepinanie jazyka a je to cele jednoduchsie a elegantnejsie.. ale mam pocit ze sa to tak rychlo nezmeni.
Odpovedať Hodnotiť:
 

ja už používam UTF8 už cca 8 rokov ani si nepamatám kedy som používal iné kódovanie. A používam ho samozrejme bez BOM. Každý editor v dnešnej dobe vie automaticky detekovať UTF8 bez bom. Inak unicode neni len UTF-8 ale napr. aj UTF-16.
Odpovedať Hodnotiť:
 

alebo napr. aj UTF-7
XSS <3 ^_^
Odpovedať Hodnotiť:
 

Ja používam stredoeurópske W 1252. Ten mi zobrazí aj diakritiku ! Takže ja som na opačnej strane užívataľov, zam kde nie sú Američania a Anglosasi !
Odpovedať Hodnotiť:
 

Pozrite si našu stránku o utf-8
Odpovedať Hodnotiť:

Pridať komentár