Jumat, 22 Januari 2016

Pengkodean Karakter Pada HTML

HTML (Hyper text Markup Language) telah digunakan sejak tahun 1991, tapi HTML 4.0 (Desember 1997) adalah versi standar pertama di mana internasional karakter diberi pengobatan cukup lengkap. Ketika sebuah dokumen HTML termasuk karakter khusus di luar jangkauan tujuh bit ASCII dua gol yang layak dipertimbangkan: informasi yang integritas, dan universal peramban layar.



Menentukan Karakter Encoding Dokumen


Ada beberapa cara untuk menentukan karakter encoding digunakan dalam dokumen. Pertama, web server dapat mencakup pengkodean karakter atau charset dalam Hypertext Transfer Protocol (HTTP) Content-Type header, yang biasanya akan terlihat seperti ini:


 Content-Type: text / html;  charset = ISO-8859-4


Metode ini memberikan server HTTP cara mudah untuk mengubah encoding dokumen sesuai dengan negosiasi konten; perangkat lunak server HTTP tertentu dapat melakukannya, misalnya Apache dengan modul mod_charset_lite. Untuk HTML adalah mungkin untuk memasukkan informasi ini dalam head elemen dekat bagian atas dokumen:


 <meta http-equiv = "Content-Type" content = "text / html; charset = utf-8">


HTML5 juga memungkinkan sintaks berikut berarti persis sama:


 <meta charset = "utf-8">

XHTML dokumen memiliki pilihan ketiga: untuk mengekspresikan pengkodean karakter melalui XML deklarasi, sebagai berikut:


 <? xml version = "1.0" encoding = "ISO-8859-1"?>

Perhatikan bahwa sebagai pengkodean karakter tidak dapat diketahui sampai deklarasi ini diurai, bisa ada masalah mengetahui yang encoding digunakan untuk deklarasi itu sendiri. Prinsip utama adalah bahwa deklarasi akan dikodekan dalam ASCII murni, dan karena itu (jika deklarasi di dalam file) encoding perlu menjadi perpanjangan ASCII. Untuk memungkinkan pengkodean tidak kompatibel dengan ASCII, browser harus mampu mengurai deklarasi di pengkodean tersebut. Contoh pengkodean seperti UTF-16BE dan UTF-16LE.

Sebagai HTML5 charset direkomendasikan adalah UTF-8. Sebuah "encoding mengendus algoritma" didefinisikan dalam spesifikasi untuk menentukan pengkodean karakter dari dokumen berdasarkan beberapa sumber masukan, termasuk:
  1. Instruksi pengguna eksplisit
  2. Tag meta eksplisit dalam pertama 1024 byte dokumen
  3. Sebuah tanda rangka Byte dalam tiga byte pertama dari dokumen
  4. HTTP Content-Type atau informasi lapisan transport lainnya
  5. Analisis byte dokumen mencari urutan atau rentang nilai byte tertentu, dan mekanisme deteksi tentatif lainnya.
Untuk pengkodean karakter ASCII-kompatibel konsekuensi dari memilih salah adalah bahwa karakter di luar rentang ASCII printable (32-126) biasanya muncul secara tidak benar. Ini menyajikan beberapa masalah bagi Inggris pengguna -Berbicara, tetapi bahasa lain secara teratur-dalam beberapa kasus, selalu membutuhkan karakter-luar kisaran tersebut. Di CJK lingkungan di mana ada beberapa pengkodean multi-byte yang berbeda digunakan, auto-detection juga sering digunakan. Akhirnya, browser biasanya mengizinkan pengguna untuk mengganti label charset yang salah secara manual juga.


Karakter HTML Referensi

Karakter referensi numerik dalam HTML merujuk pada karakter dengan yang Character Universal Set / Unicode kode titik, dan menggunakan format
&# nnnn ;
atau
&#x hhhh ;
di mana nnnn adalah titik kode dalam desimal bentuk, dan hhhh adalah titik kode heksadesimal bentuk. X harus huruf kecil dalam dokumen XML. The nnnn atau hhhh mungkin sejumlah angka dan mungkin termasuk nol terkemuka. Hhhh dapat mencampur besar dan huruf kecil, meskipun huruf besar adalah gaya yang biasa.
Tidak semua web browser atau klien email yang digunakan oleh penerima dokumen HTML, atau editor teks yang digunakan oleh penulis dokumen HTML, akan mampu membuat semua karakter HTML. Kebanyakan perangkat lunak modern mampu menampilkan sebagian besar atau semua karakter bahasa pengguna, dan akan menggambar kotak atau indikator yang jelas lainnya untuk karakter mereka tidak bisa membuat.

Referensi entitas karakter juga dapat memiliki format & name ; di mana nama adalah string alfanumerik case-sensitive. Misalnya, "λ" juga dapat dikodekan sebagai &lambda; dalam dokumen HTML. Karakter entitas referensi &lt; &gt; &quot; dan &amp; yang telah ditetapkan dalam HTML dan SGML, karena < > " & Sudah digunakan untuk membatasi markup ini terutama tidak termasuk XML &apos; (') entitas. Untuk daftar semua nama HTML entitas referensi karakter (sekitar 250), lihat Daftar XML dan entitas karakter HTML referensi. 

0 komentar:

Posting Komentar