Bảng mã unicode mã hóa được bao nhiêu ký tự

Đối với người dùng máy tính thì từ Unicode đã không còn xa lạ gì nữa, vì xuất hiện quá thường xuyên trên bảng công cụ xử lý ngôn ngữ. Tuy nhiên không phải ai cũng biết Unicode là gì và có vai trò như thế nào đối với người dùng máy tính.

1. Unicode là gì?

Trước khi tìm hiểu về Unicode, chúng ta cần tìm hiểu về encoding. Encoding hay còn được gọi là mã hóa, là một quá trình chuyển đổi thông tin hoặc dữ liệu từ định dạng này sang định dạng khác, hoặc từ hệ thống ký tự này sang hệ thống ký tự khác.

Unicode

Mục tiêu của quá trình encoding là biến đổi dữ liệu thành dạng có thể truyền tải, lưu trữ hoặc xử lý được sao cho chính xác nhất. Mã hóa ký tự [character encoding] là một ví dụ điển hình nhất của quá trình encoding. Quá trình này chuyển đổi văn bản từ mã ASCII sang UTF-8 để hỗ trợ ký tự và đa ngôn ngữ. Ngoài ra còn có mã hóa âm thanh, video, hình ảnh, ...

Unicode còn được gọi là Universal Coded Character Set, thường được dịch là Bộ ký tự được mã hoá chung hoặc ISO/IEC 10646. Bộ ký tự này được hiểu là một tiêu chuẩn mã hóa ký tự phổ biến, còn được gọi là mã thống nhất, hoặc mã đơn nhất. Đây là bộ mã chuẩn quốc tế được xây dựng để làm bộ mã duy nhất cho hầu hết ngôn ngữ trên toàn thế giới.

2. Đặc điểm của Unicode

Unicode được phát triển để khắc phục những hạn chế của các tiêu chuẩn mã hoá trước đó, giải quyết những vấn đề về mã hóa đa ngôn ngữ mà những tiêu chuẩn trước không đáp ứng được, điển hình như Bảng mã ASCII.

Unicode cải thiện hạn chế của ASCII

Unicode được thiết kế để hỗ trợ gần như toàn bộ những ký tự tới từ hầu hết các ngôn ngữ trên toàn cầu. Nếu như bảng mã ASCII tiêu chuẩn chỉ hỗ trợ 128 ký tự thì bảng mã Unicode có thể hỗ trợ tới hơn 1 triệu ký tự. Và nếu bảng mã ASCII chỉ sử dụng một byte để đại diện cho mỗi ký tự thì Unicode có thể hỗ trợ tối đa 4 byte cho mỗi ký tự.

3. Cách thức hoạt động của chuẩn mã hóa Unicode

Chuẩn Unicode hoạt động bằng cách sử dụng các mã code điểm mã độc đáo cho mỗi ký tự. Điểm mã này là một số nguyên duy nhất gán cho mỗi ký tự trong chuẩn Unicode. Các điểm mã này được tổ chức một cách có hệ thống, đại diện cho các ký tự từ nhiều ngôn ngữ và hệ thống chữ viết khác nhau trên toàn thế giới.

Cách Unicode sử dụng mã code điểm mã

Mã điểm mã trong chuẩn Unicode là các số nguyên không âm. Đối với các ký tự thuộc bảng mã ASCII, từ U+0000 đến U+007F, mã điểm mã của chúng tương đương với mã ASCII của chúng. Chẳng hạn, mã điểm mã cho ký tự 'A' là U+0041. Còn với ký tự từ các bảng mã khác, mỗi ký tự được biểu diễn bằng một mã điểm mã duy nhất trong bảng mã Unicode.

Cơ chế mã điểm mã trong UTF-8, UTF-6 và UTF-32

  • UTF-8 [Unicode Transformation Format – 8 bit] là một hệ thống mã hóa đa byte sử dụng từ 1 đến 4 byte để biểu diễn mỗi mã điểm mã. Các ký tự ASCII [U+0000 đến U+007F] vẫn được mã hóa bằng 1 byte, duy trì sự tương thích với bảng mã ASCII. Ký tự từ U+0080 đến U+07FF sử dụng 2 byte, từ U+0800 đến U+FFFF sử dụng 3 byte, và từ U+10000 đến U+10FFFF sử dụng 4 byte.
  • UTF-16 [Unicode Transformation Format – 16 bit] là hệ thống mã hóa 16 bit, sử dụng 2 byte cho mỗi mã điểm mã. Ký tự từ U+0000 đến U+FFFF được mã hóa bằng 2 byte, và từ U+10000 đến U+10FFFF thông qua cặp surrogate pairs, với mỗi cặp sử dụng 2 byte.
  • UTF-32 [Unicode Transformation Format – 32 bit] là hệ thống mã hóa 32 bit, sử dụng 4 byte cho mỗi mã điểm mã, cho phép biểu diễn tất cả các mã điểm mã mà không cần surrogate pairs như UTF-16.

Cả ba hệ thống mã hóa UTF-8, UTF-16 và UTF-32 đều hỗ trợ Unicode trong việc biểu diễn một lượng lớn ký tự từ đa dạng ngôn ngữ và hệ thống chữ viết trên toàn cầu, làm nền tảng mạnh mẽ cho việc biểu diễn và xử lý thông tin đa ngôn ngữ trong các ứng dụng và hệ thống kỹ thuật số hiện đại.

4. Font chữ nào thuộc bảng mã Unicode

Font chữ thuộc bảng mã Unicode

Hiện nay bảng mã Unicode có đến 172 font chữ khác nhau. Và trong quá trình sử dụng máy tính, rất có khả năng bạn có thể sẽ không có cơ hội sử dụng hết toàn bộ số font chữ của bảng mã Unicode. Dưới đây là danh sách 172 font chữ của bảng mã Unicode:

  • Arial
  • Comic Sans
  • Courier New
  • Palatino
  • Tahoma
  • Times New Roman
  • Trebuchet
  • Aachen
  • AGOldFace A
  • lgerian Allegie
  • Amazon
  • AmericanUnc
  • Amherst
  • Arabia
  • Architecture
  • Arial-Rounded
  • Ariston
  • Arrus
  • Arrus-Black
  • AvantGarde
  • AvantGarde-Demi
  • Aztek
  • Bandit
  • BankGothic
  • Barmeno-ExtraBold
  • Bauhaus-Heavy
  • Bauhaus-Light
  • Bauhaus-Medium
  • Bedrock
  • Bellevue
  • Benguiat
  • BertholdScript I
  • Bodoni
  • Bodoni BC
  • Bodoni EB
  • Bodoni-PosterCompressed
  • Bookman
  • Bookman-Demi
  • Boton
  • Boulevard
  • Braggadocio
  • Broad
  • Brush Script
  • Casablanca
  • Casper Open Face
  • Centurion Old
  • Chaucer
  • Chelthm
  • Clarendon
  • Clearface Gothic
  • Colonna
  • Commerce Cond
  • Commerce C
  • Commercial Script
  • Compacta
  • Cooper
  • Corporate
  • Copperplate Gothic
  • Corsiva
  • Courier
  • Countdown
  • Dauphin Desdemona
  • Digital
  • Domcasual
  • Dur
  • Elephant
  • ErasContour
  • Erie-Black
  • Exotic
  • FetteFraktur
  • Fillmore
  • Frankfurter
  • Frankfurt Gothic
  • Freeform
  • Freehand
  • FreeStyle
  • Frutiger
  • Frutiger-Light
  • Fujiyama
  • Fujiyama-LightCondensed
  • Futura
  • Futura-Black
  • Galleria
  • Garamond
  • Gatineau
  • GeoSlab703 C
  • GeoSlab703 E
  • GillSans
  • GillSans-Condensed
  • Goudy Old
  • GoudyText
  • Harpoon
  • Harrington
  • Helvetica C
  • Helvetica N
  • Hobo
  • Imago-ExtraBold
  • Impact Isadora
  • Jamai
  • Joanna
  • Jupiter
  • Kaufmann
  • Kids
  • Korinna
  • Kun Medium
  • Latin Wide
  • LinoScript
  • Linotext
  • Lithograph
  • Lucida HandWriting
  • Lydian
  • Memorandum
  • Murray
  • Mystical Nebraska
  • New Century
  • New Century-Narrow
  • News Gothic
  • Nueva
  • Nueva-Bold Extended
  • NuptialScript
  • Officina Sans
  • Officina Serif
  • Onyx
  • Optima
  • Oranda
  • Palatino
  • Park Avenue
  • Pepita
  • Perpetua
  • Post Antiqua
  • President
  • Revue
  • Rockwell-Extra Bold
  • Russell
  • Square
  • Salina Display
  • Sans Serif
  • Scribble
  • Script
  • Serpentine
  • Serpentine Sans
  • SerpentineSans L
  • Shelley Allegro
  • Signature Light
  • Slogan
  • Snell
  • Souvenir
  • Staccato
  • Standout
  • Stencil
  • Stop
  • Switzerland
  • SwitzerlandCondensed
  • Tekton
  • Tiffany
  • Tiffany Heavy
  • Times Times-Narrow
  • Tubes
  • Umbra
  • University
  • Utopia
  • Viva Viva B
  • Verdana
  • Vivienne
  • Vogue-ExtraBold
  • Walbaum
  • Windsor
  • WoodType Demi
  • ZapfChancery

Trên đây là những thông tin về bảng mã Unicode, đặc điểm và những font chữ phổ biến nhất. Xin mời các bạn cùng tham khảo bài viết để hiểu thêm về bộ bảng mã ấn tượng này.

Bộ mã Unicode có thể mã hóa bao nhiêu ký tự?

Unicode chiếm trước 1.114.112 [= 220+216] mã chữ, và hiện nay đã gán ký hiệu cho hơn 96000 mã chữ. 256 mã đầu tiên phù hợp với ISO 8859-1, là cách mã hóa ký tự phổ biến nhất trong "thế giới phương Tây"; do đó, 128 ký tự đầu tiên còn được định danh theo ASCII.

Bảng mã Unicode có đặc điểm gì?

Unicode là một bảng mã mới [có thể gọi là dạng mở rộng [rất rộng] của bảng mã ASCII], sử dụng 2 byte cho mỗi ký tự và có khả năng thể hiện 65.536 ký tự khác nhau, cho phép biểu đạt mọi ký tự của tất cả các ngôn ngữ trên thế giới.

Bố mà ANSI có thể mã hóa được bao nhiêu ký tự?

ASCII có nhiều biến thể khác nhau, tuy nhiên phiên bản được sử dụng phổ biến nhất là ANSI X3. 4-1986. Hiện nay, bảng mã ASCII có tổng cộng 256 ký tự, trong đó 128 ký tự của bảng mã ASCII chuẩn [thập phân từ 0 đến 137] và 128 ký tự của bảng mã ASCII mở rộng [hệ thập phân từ 128 đến 255].

Trong bảng mã Unicode mỗi ký tự tiếng Việt mới kí tự được biểu diễn bởi bao nhiêu byte?

UTF-8 mã hóa mỗi ký tự [điểm mã] thành 1 đến 8 octet [tức là byte gồm 8-bit]. 128 ký tự đầu tiên của bộ ký tự Unicode [tương ứng một-một với bộ ASCII] chỉ dùng một octet có cùng giá trị nhị phân như bộ ASCII.

Chủ Đề