APAKAH ITU UNICODE ?



Alangkah mudahnya hidup ini jika seseorang menuliskan sesuatu dan semua orang dapat membacanya tanpa kesulitan. Setelah 30 tahun, sejak internet mulai diperkenalkan, tuntutan ini dapat dipengaruhi pada komputer melalui Unicode, huruf universal. 

Setiap orang yang pernah berselancar di Internet mengenalnya: Search Engine kadang-kadang menampilkan huruf-huruf yang tidak jelas. Halaman dari Skandinavia tampak seperti habis ditembaki dengan senapan, dan pada halaman Rusia atau Asia (Jepang/Cina) bahkan kacau-balau secara tipografi:E+#u&c%k?. Penyebabnya adalah penggunaan karakter set yang berbeda pada setiap negara.

Pada tahun 1965 telah ditetapkan kode standar di Amerika untuk pertukaran informasi, yaitu ASCII. Pada saat itu komputer baru mampu mengolah data 8 bit (1 byte) sekaligus. Dalam 1 byte terdapat 256 kombinasi bit yang berbeda, sehingga tersedia tempat untuk 256 karakter. Bahasa Inggris tidak banyak menuntut; dengan bangga orang dapat mengatakan, 128 tempat sudah cukup. Satu bit tidak terpakai?.

Awal tahun 70-an ahli informatika di Jermanmenggunakan kode tanda kurung siku untuk menampikan huruf-huruf Umlaut. Di negara lainnya juga diciptakan karakter set tersendiri. Dengan penggunaan PC, IBM menyediakan bit kedelapan untuk tanda khusus semacam Umlaut. Karakter set IBM memang berisi 128 karakter ASCII pada tempat semula, tetapi dengan banyak karakter yang berbeda.

International Standards Organization (ISO) mencoba mengatasi kekacauan sistem 8-bit-encoding pada tahun 80-an dengan mengeluarkan ISO-Standards. Seri yang banyak dipakai diseluruh dunia adalah ISO 8859-1, yang sering disebut ISO-Latin-1. Disitu terangkum karakter sebagian bahasa di Eropa.

Dalam bahasa Cina, Jepang, dan Korea, bukan huruf yang menjadi unit terkecil sebuah teks, melainkan tanda atau karakter yang jumlahnya sekitar 10.000-an. Ini jauh melebihi kapasitas 8-bit-encoding; karena itu di negara-negara tersebut digunakan 16-bit-encoding dan prosedur pengalihan khusus yang bekerja dengan karakter kontrol yang disediakan. 

Akhit tahun 80-an tuntutan akan sebuah standar internasional baru untuk penampilan karakter semakin nyaring terdengar. Standar tersebut harus berlaku tanpa pengecualian dan sedapat mungkin merangkum semua tanda bahasa-bahasa yang digunakan dibumi ini. Karena itu, terciptalah Unicode.

Pada Unicode setiap tanda memiliki 1 tempat tersendiri; 256 tempat pertama identik dengan ISO Latin-1. Namun kompatibilitas ke standar terdahulu tidak begitu mudah. Bila sistem encoding khusus (UTF-8) tidak digunakan, huruf A dalam Unicode menjadi 0041 (desimal), padahal kode ASCII-nya 41 (heksadesimal).

Di dalam "code space" yang berisi 65.536 nilai, karakter sebuah bahasa disusun dalam script: Setelah huruf Latin menyusul abjad Yunani, Kyril, Israel, Arab, India, dan script lainnya. Berikutnya menyusul tanda baca dan simbol; terakhir Hiragana, Katakana, Bopomofo, dan Hangul.

Sebuah prestasi yang luar biasa telah dicapai para ilmuwan dengan menyusun 31.000 karakter bahasa Cina, Jepang, dan Korea (Teks-CJK). Dalam Unicode hanya ditampilkan kurang lebih 21.000 ideogram, karena yang 10.000 tampak sama dalam ketiga bahasa Asia tersebut.Memang artinya tidak selalu sama, tetapi untungnya Unicode netral terhadap bahasa.

Pada bagian akhir code space masih tersedia sekitar 6000 tempat untuk pemakaian internal, misalnya untuk logo perusahaan. Dalam Unicode veris 2.0 terakhir masih tersedia 26.000 tempat kosong. Abjad yang belum dimasukkan antara lain dari bahasa Mongolia dan Ethiopia. Hieroglif juga masih menunggu giliran.

Dalam Unicode, untuk abjad-abjad "aneh" ini diperlukan 4 buah karakter kontrol, masing-masing satu untuk akhir kalimat dan akhir paragraf, serta 2 untuk arah penulisan. Karakter kontrol untuk arah penulisan dari kanan ke kiri misalnya dibutuhkan pada bahasa Arab, sementara arah sebaliknya hanya diperlukan sebagai tanda pembalik arah pada akhir sebuah bagian teks yang berlawanan arah.

Standar Unicode ini perlahan-lahan memantapkan diri: Windows NT maupun MacOS secara internal bekerja dengan Unicode. Dengan Lucida Sans Serif, NT memiliki font yang mencakup 1300 karakter. MacOS baru dari Apple mengijinkan nama file dalam Unicode. Selain itu WWW-Consortium telah memasukkan Unicode sebagai standar karakter web di masa mendatang.

Untuk lebih jelas anda dapat melihat Forms of Unicode yang diterbitkan oleh IBM.