Používanosť kódovania znakov Unicode UTF-8 na webových stránkach prudko rastie a v súčasnosti ho používa už takmer polovica webových stránok.
Informovala o tom spoločnosť Google na základe štatistík používania jednotlivých kódovaní na stránkach, ktoré spoločnosť svojimi crawlermi prechádza a zaraďuje do svojho vyhľadávacieho indexu.
Unicode sa pritom stal najpoužívanejším kódovaním len v máji 2008, kedy mal podiel na úrovni 25% a predstihol takmer súčasne ASCII a západoeurópske ISO 8859-1 spolu s Windows-1252.
Kódovanie UTF-8 bolo vyvinuté v roku 2003, kedy ho začali už používať aj prvé webové stránky. V roku 2006 bolo používané na menej ako 10% stránkach.
Vývoj podielu jednotlivých kódovaní na webových stránkach v čase (graf: Google)
Kódovania ASCII a západoeurópske ISO 8859-1 a Windows-1252 sú naďalej druhým a tretím najpoužívanejším s podielom tesne pod úrovňou 20%, podiel ďalších sa pohybuje pod úrovňou 5%.
| |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| |
Len tak dalej
Od: janozdediny
|
Pridané:
29.1.2010 9:47
Nevidim zmysel v pouzivani windows kodovania, ked je tu utf8.
|
| |
Re: Len tak dalej
Od: mr.ch
|
Pridané:
29.1.2010 10:31
nevidim zmysel v pouzivanie AKEHO-KOLVEK ineho kodovania , ked je tu UTF8 (azda az na par drobnych). A jednoznacne - UTF-8 + MYSQL(v utf-8) = vyhladavanie cross-diakritikoveho textu bez dalsich scriptov - u mna VELKE PLUS!!!! UTF-8 rulezz
|
| |
Re: Len tak dalej
Od: supiiik
|
Pridané:
29.1.2010 10:40
Skus si nastavit latin1 kodovanie pre MEMORY tabulky (mysql), kde si mal predtym UTF8. Velkost celej tabulky sa rapidne znizi. Nevravim, ze je to pouzitelne vzdy, ale na ukladanie hashov a podobnych zalezitosti, kde nie je predpoklad roznych specialnych znakov nie je UTF8 velkou vyhrou. Na strankach samozrejme pouzivam UTF-8, kedze mam stranku s uzivatelmi roznych narodnosti.
|
| |
Re: Len tak dalej
Od: risototh
|
Pridané:
29.1.2010 10:48
Tak tuto zalezitost by si mohol objasnit, nakolko utf-8 je variable-length kodovanie a teda pre normalne znaky z ascii je to stale 1 byte na 1 znak. S pouzitim ne-ascii znakov zacina rast velkost obsadeneho miesta na 2-4 byty na znak.
|
| |
Re: Len tak dalej
Od: risototh
|
Pridané:
29.1.2010 10:55
I ked nad tym tak rozmyslam, tak mem tabulky v mysql zaberaju miesto v pamati podla modelu worst-case. Teda v tomto pripade asi 4 byty na 1 znak bez ohladu na to, co za znak to je.
Takto si to myslel?
|
| |
Re: Len tak dalej
Od: mysql
|
Pridané:
29.1.2010 11:03
Myslim ze je to tak ako vravis. Nie som velky odbornik na mysql, akurat som si to nedavno vsimol, ked som optimalizoval DB. Pri myisam tabulkach zmena kodovania rozdiel nerobila, iba pri memory.
|
| |
Re: Len tak dalej
Od: Adrique
|
Pridané:
31.1.2010 0:08
suhlas, po precitani titulky treba uz povedat len: konecne, ale furt je to malo
|
| |
Re: Len tak dalej
Od: ferdinando
|
Pridané:
31.1.2010 22:06
,,Nevidim zmysel v pouzivani windows kodovania, ked je tu utf8."
No ked ides robit novy projekt, tak mas pravdu. Urcite vyse 95% novych projektov sa hned robi v utf-8.
Ked mas stary projekt vo win-1250, tak co narobis, nic... uz len v tom pokracovat. Cele to konvertovat do unicode je kopa prace.
Ked sa opytas preco DSL.sk nie je v utf-8 ale windows-1250, tak Ti urcite odpovedia, ze by trebalo XY hodin na prerobenie + testovanie, kontrola, ci vsetko vsade OK. A kto to bude dnes robit v krize? Vsetko na weboch chatra. Za vsetkym je zopar ludi (ak nie jeden admin), ktory(i) musi(a) robit len nevyhnutne a dolezite veci.
|
| |
utfosem
Od: karolzmesta
|
Pridané:
29.1.2010 9:57
utf-8 je pre univerzalnost naozaj super, pouzivam ho uz vsade. Inak kedy prejde dsl.sk na UTF-8 ?
|
| |
Re: utfosem
Od: XMen
|
Pridané:
29.1.2010 10:01
jj presne, taktiez ho uz pouzivame vsade, je to dobra vec.
|
| |
Re: utfosem
Od: rokulda
|
Pridané:
29.1.2010 21:27
dsl.sk pouziva kodovanie 80-roky
|
| |
microsoft
Od: nazor
|
Pridané:
29.1.2010 10:15
Keby tak Microsoft chcel prejst na utf-8 :D
|
| |
Re: microsoft
Od: Uhlik (zmazal sa mi kolacik)
|
Pridané:
29.1.2010 11:14
neviem co tym myslis ... ved aj taky notepad (poznamkovy blok) podporuje UTF-8 odkedy toto kodovanie existuje ...
|
| |
Re: microsoft
Od: lklklklklklklklk
|
Pridané:
29.1.2010 14:32
Ano, jeho podporu ma, ale ani bohovy je nemaju nastavenu ako default. Napr. slovenske windows, resp. windowsi nastavene na SK prostredia maju v Notepade prednastavene cp-1250. Potom je potesenie ked pouzivas napr. platformu Linux, ktora ma vsade nastavene standardne utf-8, ked musis pouzivat textaky z sk Notepadu. Rozsypana diakritika, bud treba nastavit kodovanie pred otvorenim takeho suboru, alebo prekodovat dany subor, uplne zbytocna nekompatibilita. A ked si stiahnes titulky k nejakemu filmu detto, nemozu SK a CZ prekladatelia na titulky.com a pod. strankach konecne pouzivat nieco ine ako Notepad, prip. Wordpad :-) Asponze MS Office pouziva utf-8 lebo to by este bola katastrofa prenasat doc, xls, a pod na inu platformu.
|
| |
utf? wtf? imho, gfto
Od reg.: OmeGa
|
Pridané:
29.1.2010 10:29
co vlastne utf? use the fucking 8?
jaaj uz to mam, universal text format 8 o-]
|
| |
Re: utf? wtf? imho, gfto
Od: risototh
|
Pridané:
29.1.2010 10:49
a co tak unicode transformation format?
|
| |
UTF-9
Od: Rado2
|
Pridané:
29.1.2010 10:59
Najlepší je UTF-9 :)
http://tools.ietf.org/html/rfc4042
|
| |
utf8 bom
Od: ehhrehhr
|
Pridané:
29.1.2010 12:50
mam taky problem s BOM. napr ked v php pouzivam funkciu header, ale takisto prazdny riadok na zaciatku stranky... riesim to cez notepad++, convert to utf8 without BOM. existuje lepsie riesenie ?
|
| |
Re: utf8 bom
Od: lolec
|
Pridané:
29.1.2010 14:05
PSPad
|
| |
Re: utf8 bom
Od: ehhrehhr
|
Pridané:
29.1.2010 15:23
vyskusam, thx
|
| |
Re: utf8 bom
Od reg.: Julo_
|
Pridané:
29.1.2010 21:48
PHP a XML súbory by vo všeobecnosti nemali obsahovať tie úvodne bajty, ktoré určujú kódovanie. V jednom prípade musí byť prvý znak "<" a v druhom ak to nie je prvý znak, tak je normálne vyslaný užívateľovi ako keby bol zadaný v HTML čo môže narobiť chyby hlavne pre header.
Ja používam Notepad2 a samozrejme tu "značku kódovania" pre dokumenty na web stránku vypínam.
|
| |
Re: utf8 bom
Od: intact
|
Pridané:
31.1.2010 16:19
XML môže obsahovať BOM (podľa neho sa potom určuje použitá znaková sada). PHP by si tiež malo poradiť s BOM. Ak je len jeden, ale často sa stáva, že je vo viacerých súboroch, ktoré sa potom vkladajú pomocou include/require a teda nakoniec ich tam je viac a spôsobuje to problémy (preto je asi jednoduchšie pri PHP BOM nepoužívať).
|
| |
kuikuy
Od: Deer
|
Pridané:
29.1.2010 17:37
Na UTF-8 by konecne mohli prejst vsetci ti co robia titulky. Kazdy jeden subor na titulky.com ma trapne CP1250 kodvanie. V Linuxe v mplayeri je oprava zalezitostou 3 kliknuti, ale aj tak je to otrava. A pouzivat CP1250 je zpiatocnictvo.
|
| |
Re: kuikuy
Od: ----
|
Pridané:
30.1.2010 14:46
Ja davam prednost www.opensubtitles.org je to o kus lepsi projekt ako titulky.com. Titulky.com otravuju aby zarobili prachy. OpenSubtitles ma open API, ktory vyuziva program SubDownloader. Staci len otvorit film, vypocita sa hash a program automaticky stiahne titulky presne pre verziu filmu, ktoru mas :)
|
| |
Re: kuikuy
Od: brano2
|
Pridané:
31.1.2010 9:13
Problemom je asi to ze vacsina divx prehravacov ma pre cestinu/slovencinu nastavene kodovanie prave cp1250, cize by to ludia museli pred palenim konvertovat z UTF-8. Keby bolo vsetko v UTF-8 tak prehravac nemusi mat menu na prepinanie jazyka a je to cele jednoduchsie a elegantnejsie.. ale mam pocit ze sa to tak rychlo nezmeni.
|
| |
UTF-8
Od: blizzboz
|
Pridané:
29.1.2010 22:12
ja už používam UTF8 už cca 8 rokov ani si nepamatám kedy som používal iné kódovanie. A používam ho samozrejme bez BOM. Každý editor v dnešnej dobe vie automaticky detekovať UTF8 bez bom. Inak unicode neni len UTF-8 ale napr. aj UTF-16.
|
| |
Re: UTF-8
Od: heker spoza dunaia
|
Pridané:
29.1.2010 22:31
alebo napr. aj UTF-7
XSS <3 ^_^
|
| |
Unicode nepoužívam !
Od reg.: atoris
|
Pridané:
31.1.2010 7:37
Ja používam stredoeurópske W 1252. Ten mi zobrazí aj diakritiku ! Takže ja som na opačnej strane užívataľov, zam kde nie sú Američania a Anglosasi !
|
| |
www.utf-8.sk
Od: CVTSTU
|
Pridané:
31.1.2010 9:07
Pozrite si našu stránku o utf-8
|