Menentukan Karakter Encoding Dokumen
Ada beberapa cara untuk menentukan karakter encoding digunakan dalam dokumen. Pertama, web server dapat mencakup pengkodean karakter atau
charset
dalam Hypertext Transfer Protocol (HTTP) Content-Type
header, yang biasanya akan terlihat seperti ini:Content-Type: text / html; charset = ISO-8859-4
Metode ini memberikan server HTTP cara mudah untuk mengubah encoding dokumen sesuai dengan negosiasi konten; perangkat lunak server HTTP tertentu dapat melakukannya, misalnya Apache dengan modul mod_charset_lite. Untuk HTML adalah mungkin untuk memasukkan informasi ini dalam
head
elemen dekat bagian atas dokumen: <meta http-equiv = "Content-Type" content = "text / html; charset = utf-8">
HTML5 juga memungkinkan sintaks berikut berarti persis sama:
<meta charset = "utf-8">
XHTML dokumen memiliki pilihan ketiga: untuk mengekspresikan pengkodean karakter melalui XML deklarasi, sebagai berikut:
<? xml version = "1.0" encoding = "ISO-8859-1"?>
Perhatikan bahwa sebagai pengkodean karakter tidak dapat diketahui sampai deklarasi ini diurai, bisa ada masalah mengetahui yang encoding digunakan untuk deklarasi itu sendiri. Prinsip utama adalah bahwa deklarasi akan dikodekan dalam ASCII murni, dan karena itu (jika deklarasi di dalam file) encoding perlu menjadi perpanjangan ASCII. Untuk memungkinkan pengkodean tidak kompatibel dengan ASCII, browser harus mampu mengurai deklarasi di pengkodean tersebut. Contoh pengkodean seperti UTF-16BE dan UTF-16LE.
Sebagai HTML5 charset direkomendasikan adalah UTF-8. Sebuah "encoding mengendus algoritma" didefinisikan dalam spesifikasi untuk menentukan pengkodean karakter dari dokumen berdasarkan beberapa sumber masukan, termasuk:
- Instruksi pengguna eksplisit
- Tag meta eksplisit dalam pertama 1024 byte dokumen
- Sebuah tanda rangka Byte dalam tiga byte pertama dari dokumen
- HTTP Content-Type atau informasi lapisan transport lainnya
- Analisis byte dokumen mencari urutan atau rentang nilai byte tertentu, dan mekanisme deteksi tentatif lainnya.
Karakter HTML Referensi
Karakter referensi numerik dalam HTML merujuk pada karakter dengan yang Character Universal Set / Unicode kode titik, dan menggunakan format
&# nnnn ;
&#x hhhh ;
Tidak semua web browser atau klien email yang digunakan oleh penerima dokumen HTML, atau editor teks yang digunakan oleh penulis dokumen HTML, akan mampu membuat semua karakter HTML. Kebanyakan perangkat lunak modern mampu menampilkan sebagian besar atau semua karakter bahasa pengguna, dan akan menggambar kotak atau indikator yang jelas lainnya untuk karakter mereka tidak bisa membuat.
Referensi entitas karakter juga dapat memiliki format
& name ;
di mana nama adalah string alfanumerik case-sensitive. Misalnya, "λ" juga dapat dikodekan sebagai λ
dalam dokumen HTML. Karakter entitas referensi <
>
"
dan &
yang telah ditetapkan dalam HTML dan SGML, karena <
>
"
&
Sudah digunakan untuk membatasi markup ini terutama tidak termasuk XML '
(') entitas. Untuk daftar semua nama HTML entitas referensi karakter (sekitar 250), lihat Daftar XML dan entitas karakter HTML referensi.
0 komentar:
Posting Komentar