Unicode – komputerowy zestaw znaków mający w zamierzeniu obejmować wszystkie pisma używane na świecie. Definiują go dwa standardy – Unicode oraz ISO 10646. Znaki obu standardów są identyczne. Standardy te różnią się w drobnych kwestiach, m.in. Unicode wyznacza sposób składu.
Rozwijany jest przez konsorcjum, w którego skład wchodzą ważne firmy komputerowe, producenci oprogramowania, instytuty naukowe, agencje międzynarodowe oraz grupy zainteresowanych użytkowników. Konsorcjum współpracuje z organizacją ISO.
Kodowanie Unicode
Standard Unicode zawiera w sobie przydział przestrzeni numeracyjnej poszczególnym grupom znaków, nie zawiera w sobie zaś sposobów bajtowego kodowania znaków. Jest parę metod kodowania, oznaczanych skrótowcami UCS (Universal Character Set) oraz UTF (Unicode Transformation Format). Do najważniejszych należą:
Mniej popularnymi kodowaniami Unicode są:
Istnieją także inne kodowania, stanowiące margines albo pozostające na etapie propozycji, na przykład:
Kody pierwszych 256 znaków Unicode pokrywają się z kodami ISO Latin 1 (czyli ISO-8859-1). Należy jednak pamiętać, że jest to zbieżność jedynie numerów przyporządkowanych konkretnym znakom, wartości bajtów użytych do ich zapisania potrafią (i w większości kodowań będą) się różnić od tych, które uzyska się stosując Latin 1.
Historia standardu
Relacje do UCS
- Unicode 1.1 ISO/IEC ≈ 10646-1:1993
- Unicode 3.0 ISO/IEC ≈ 10646-1:2000
- Unicode 3.2 ISO/IEC ≈ 10646-2:2001
- Unicode 4.0 ISO/IEC ≈ 10646:2003
- Unicode 5.0 ISO/IEC ≈ 10646:2003/Amd.2:2006
- Unicode 5.1 ISO/IEC ≈ 10646:2003/Amd.4:2008
- Unicode 5.2 ISO/IEC ≈ 10646:2003/Amd.6:2009
- Unicode 6.0 ISO/IEC ≈ 10646:2011
Wprowadzanie znaków Unicode
Typowe układy klawiatur udostępniają tylko niewielki zbiór znaków, dla przykładu standardowe polskie układy klawiatury zawierają jedynie polskie litery oraz znak euro, nie zawierają natomiast znaków cudzysłowu. Do wprowadzania znaków nieobecnych na klawiaturze da się użyć jednej z poniższych metod:
- W systemie Windows NT, Mac OS X (od wersji 10.2) oraz w licznych dystrybucjach Linuksa (ze środowiskiem graficznym) dostępna jest tablica znaków, w której da się wyszukać potrzebny znak, skopiować go do schowka, a następnie wkleić w program. W Systemach Windows 95, 98 oraz ME tablica znaków nie daje dostępu do wszystkich znaków Unicode.
- Znając numer pozycji znaku (czy to dziesiętny, czy to szesnastkowy), da się przeistoczenie ten znak na parę sposobów (nie wszystkie programy obsługują wszystkie opisane tu sposoby):
- Trzymając naciśnięty (lewy) Alt oraz wpisując z klawiatury numerycznej numer dziesiętny tego znaku, po czym zwolnić klawisz Alt.
- Wpisać numer szesnastkowy tego znaku, a następnie wcisnąć kombinację (lewy) Alt+x. Przed numerem szesnastkowym nie bywa cyfra ani litera z zakresu a–f (gdyż zostaną uznane jako cząstka kodu, ewentualnie trzeba poprzedzić kod np. spacją albo uzupełnić kod wiodącymi zerami, tak by liczył dokładnie sześć pozycji).
- Trzymając naciśnięty (lewy) Alt nacisnąć klawisz plus, wpisać numer szesnastkowy znaku, po czym zwolnić klawisz Alt. Metoda ta działa w systemie Windows XP oraz nowszych.
- Trzymając naciśnięte klawisze Ctrl+Shift wpisać numer szesnastkowy znaku, a następnie puścić klawisze. Metoda ta działa w środowisku GNOME. Od wersji GTK+ 2.10 trzeba nacisnąć Ctrl+Shift+u, przeistoczenie kod szesnastkowy znaku, nacisnąć Enter.
Istnieją też programy do tworzenia własnych układów klawiatur, dzięki nim da się podpiąć dowolny znak Unicode pod dowolną kombinację klawiszy (najczęściej wykorzystywana jest kombinacja AltGr+klawisz, gdzie AltGr to prawy klawisz Alt). Pewne programy dla Windows pozwalają zaledwie na wprowadzanie z klawiatury znaków istniejących zaledwie w stronie kodowej właściwej dla języka klawiatury, np. w przypadku polskiego systemu Windows próba wpisania kombinacją AltGr+klawisz znaku nie istniejącego w stronie kodowej Windows-1250 nie da oczekiwanego efektu. Odmienne ograniczenie systemu Windows dotyka znaków o numerach z zakresu 160–255. Przytrzymanie wciśniętego klawisza Alt oraz wpisanie trzycyfrowego numeru z tego zakresu powoduje wstawienie znaku o tym numerze ze strony kodowej DOS właściwej dla języka klawiatury (w przypadku polskiej klawiatury będzie to znak ze strony kodowej CP852), zaś wpisanie numeru poprzedzonego zerem – znaku ze strony kodowej Windows (w przypadku polskiej klawiatury będzie to znak ze strony kodowej Windows-1250).
Nazewnictwo
Rada Języka Polskiego proponuje nazwę unikod dla każdego systemu unifikacji kodyfikacji liter[3].
Przypisy
Linki zewnętrzne