Làm cách nào để hiển thị các ký tự UTF 8 trong HTML?

UTF-8 là một hệ thống mã hóa ký tự. Nó cho phép bạn thể hiện các ký tự dưới dạng văn bản ASCII, trong khi vẫn cho phép các ký tự quốc tế, chẳng hạn như ký tự tiếng Trung

Tính đến giữa những năm 2020, UTF-8 là một trong những hệ thống mã hóa phổ biến nhất

Để bắt đầu sử dụng UTF-8, trước tiên bạn cần làm quen với bộ ký tự ASCII cơ bản

Bộ ký tự ASCII là gì?

ASCII sử dụng các điểm mã 7 bit để biểu thị 128 ký tự khác nhau. Các điểm mã này được chia thành 95 ký tự có thể in được, bao gồm 26 chữ cái trong bảng chữ cái tiếng Anh [A đến Z, cả chữ hoa và chữ thường], 10 chữ số [0 đến 9] và nhiều dấu chấm câu cũng như các ký hiệu khác

Ngoài ra còn có 33 ký tự không in được, bao gồm các ký tự điều khiển như xuống dòng và xuống dòng, cũng như nhiều ký tự khác được sử dụng cho những thứ như định dạng văn bản

UTF-8 VS ASCII – Đâu là sự khác biệt?

UTF-8 mở rộng bộ ký tự ASCII để sử dụng các điểm mã 8 bit, cho phép tối đa 256 ký tự khác nhau

Điều này có nghĩa là UTF-8 có thể đại diện cho tất cả các ký tự ASCII có thể in được, cũng như các ký tự không in được

UTF-8 cũng bao gồm nhiều ký tự quốc tế bổ sung, chẳng hạn như ký tự tiếng Trung và ký tự Ả Rập

Cách sử dụng UTF-8 trong trang web của bạn – Ví dụ HTML UTF-8

Và bây giờ là phần dễ dàng. Bạn thực sự không cần biết nó hoạt động như thế nào [mặc dù tôi sẽ nói với bạn sau. ] Bạn có thể định cấu hình Mã hóa ký tự UTF-8 trong mã HTML của mình bằng một dòng HTML nằm trong phần trong mã của bạn




    


Ngoài ra, hãy để tôi giải thích cách thức hoạt động của UTF-8 và tại sao nó lại là một sơ đồ mã hóa tuyệt vời như vậy

Cách hoạt động của mã hóa UTF-8 và dung lượng lưu trữ mà mỗi ký tự sử dụng

Khi biểu thị các ký tự trong UTF-8, mỗi điểm mã được biểu thị bằng một chuỗi gồm một hoặc nhiều byte. Số lượng byte được sử dụng phụ thuộc vào điểm mã được biểu thị bằng ký tự. Dưới đây là bảng phân tích về phạm vi sử dụng

  • các điểm mã trong phạm vi ASCII [0-127] được biểu thị bằng một byte đơn
  • điểm mã trong phạm vi [128-2047] được biểu thị bằng hai byte
  • điểm mã trong phạm vi [2048-65535] được biểu thị bằng ba byte
  • và các điểm mã trong phạm vi [65536-1114111] được biểu thị bằng bốn byte. [Điều này có vẻ giống như rất nhiều ký tự có thể xảy ra, nhưng hãy nhớ rằng chỉ riêng tiếng Trung Quốc đã có tới 100.000 ký tự. ]

Byte đầu tiên của chuỗi UTF-8 được gọi là "byte đầu". Byte dẫn đầu cung cấp thông tin về số lượng byte trong chuỗi và giá trị điểm mã của ký tự là gì

Byte dẫn đầu cho chuỗi một byte luôn nằm trong phạm vi [0-127]. Byte dẫn đầu cho chuỗi hai byte nằm trong phạm vi [194-223]. Byte dẫn đầu cho chuỗi ba byte nằm trong phạm vi [224-239]. Và byte dẫn đầu cho chuỗi bốn byte nằm trong phạm vi [240-247]

Các byte còn lại trong chuỗi được gọi là "các byte theo sau. " Các byte ở cuối cho chuỗi hai byte nằm trong phạm vi [128-191]. Các byte theo sau cho chuỗi ba byte nằm trong phạm vi [128-191]. Và các byte theo sau cho chuỗi bốn byte nằm trong phạm vi [128-191]

Bạn có thể tính toán giá trị điểm mã của một ký tự bằng cách xem byte đầu và byte cuối. Đối với chuỗi một byte, giá trị điểm mã bằng với giá trị của byte đầu

Đối với chuỗi hai byte, giá trị điểm mã bằng [[byte đầu - 194] * 64] + [byte cuối - 128]

Đối với chuỗi ba byte, giá trị điểm mã bằng [[byte đầu - 224] * 4096] + [[byte 1 - 128] * 64] + [byte 2 - 128]

Đối với chuỗi bốn byte, giá trị điểm mã bằng [[byte đầu - 240] * 262144] + [[byte1 - 128] * 4096] + [[byte2 - 128] * 64] + [byte3

UTF-8 là một lựa chọn hợp lý để mã hóa

Một lần nữa, UTF-8 là một hệ thống mã hóa siêu hiệu quả. Nó có thể đại diện cho nhiều loại ký tự trong khi vẫn tương thích với ASCII. Điều này làm cho nó trở thành một lựa chọn hợp lý để sử dụng trong phần mềm quốc tế hóa

Tôi hy vọng bạn đã tìm thấy điều này hữu ích. Nếu bạn muốn tìm hiểu thêm về lập trình và công nghệ, hãy thử chương trình viết mã cốt lõi của freeCodeCamp. Nó miễn phí

QUẢNG CÁO

QUẢNG CÁO

QUẢNG CÁO

Quincy Larson

Người thầy sáng lập freeCodeCamp. tổ chức

Nếu bạn đọc đến đây, hãy tweet cho tác giả để cho họ thấy bạn quan tâm. Tweet một lời cảm ơn

Học cách viết mã miễn phí. Chương trình giảng dạy mã nguồn mở của freeCodeCamp đã giúp hơn 40.000 người có được việc làm với tư cách là nhà phát triển. Bắt đầu

UTF là gì

UTF-8 [Định dạng chuyển đổi UCS 8] là mã hóa ký tự phổ biến nhất của World Wide Web . Mỗi ký tự được đại diện bởi một đến bốn byte. UTF-8 tương thích ngược với ASCII và có thể đại diện cho bất kỳ ký tự Unicode tiêu chuẩn nào.

Làm cách nào để hiển thị enye trong HTML?

U+00F1

Chủ Đề