Báo cáo học liệu
Mua học liệu
Mua học liệu:
-
Số dư ví của bạn: 0 coin - 0 Xu
-
Nếu mua học liệu này bạn sẽ bị trừ: 2 coin\Xu
Để nhận Coin\Xu, bạn có thể:
Lý thuyết SVIP
1. Bảng mã ASCII
Mỗi kí tự được biểu diễn bằng một dãy bit (còn gọi là mã nhị phân).
ASCII (American Standard Code for Information Interchange) là bộ mã chuẩn của Mỹ để trao đổi thông tin chứa mã nhị phân của bộ chữ tiếng Anh và một số kí hiệu khác.
Một kí tự được biểu diễn bằng dãy 7 bit, có 128 kí tự khác nhau.
Có những kí tự không in ra màn hình mà là một tín hiệu để điều khiển máy tính, được gọi là kí tự điều khiển.
Sau này, bảng mã ASCII được mở rộng bằng cách sử dụng mã nhị phân dài 8 bit, biểu diễn thêm được 128 kí tự nữa.
128 kí tự ban đầu được thêm bit 0 vào trước để đủ độ dài 8 bit, 128 kí tự mới được bắt đầu với bit 1.
2. Bảng mã Unicode
Bảng mã Unicode được thiết kế nhằm thống nhất chung việc mã hóa các kí tự cho tất cả các ngôn ngữ khác nhau trên thế giới. Vì vậy, bảng mã Unicode được sử dụng ngày càng phổ biến.
3. Mã kí tự, bộ kí tự và mã nhị phân
Con đường đi từ kí tự đến mã nhị phân của nó gồm:
- Bước thứ nhất: Cho mỗi kí tự ứng với một mã kí tự (là mộ dãy kí số) duy nhất. Ý tưởng của Unicode là gán một điểm mã duy nhất (Unique code point) cho mỗi kí tự, mỗi điểm mã có một tên gọi.
Ví dụ: Các điểm mã Unicode của từ "Việt Nam" như sau:
Điểm mã | U+0056 | U+0069 | U+1EC7 | U+0074 | U+0020 | U+004E | U+0061 | U+006D |
Kí tự tương ứng | V | i | ệ | t | N | a | m |
- Bước thứ hai: Chuyển từ mã kí tự thành dãy bit, gọi là mã hóa (encoding). Kết quả bước này là dãy bit, đây là mã nhị phân của kí tự. Bảng mã Unicode chỉ thực hiện bước thứ nhất, sang bước thứ hai có nhiều cách triển khai khác nhau.
UTF-8, UTF-16, UTF-32 là các thực thi khác nhau chuyển mã kí tự Unicode thành mã nhị phân.
Ví dụ: Các thực thi khác nhau chuyển chữ A thành mã nhị phân như sau:
UTF là viết tắt của Unicode Transformation Format, số đi theo sau UTF để chỉ số bit biểu diễn một kí tự.
UTF-8 được sử dụng trong hầu hết các ngôn ngữ lập trình.
4. Dữ liệu văn bản và số hóa văn bản
Dữ liệu văn bản được hiểu văn bản chữ, không chứa hình ảnh hay âm thanh.
Văn bản thuần chữ
Văn bản thuần chữ (plain text) chỉ gồm các kí tự gõ nhập từ bàn phím khi soạn thảo văn bản.
Đây là một dãy các kí tự sắp xếp liên tiếp từ trái sang phải, từ trên xuống dưới, mỗi kí tự là một dãy bit.
Dữ liệu văn bản
Dữ liệu văn bản trong máy tính là một dãy bit biểu diễn các kí tự có kiểu dáng, màu sắc và các thông tin định dạng khác.
5. Kí tự tiếng Việt trong dữ liệu văn bản
Hiện nay tiêu chuẩn Việt Nam đã thống nhất dùng bảng mã kí tự Unicode.
TCVN3 là bảng mã tiêu chuẩn cũ của Việt Nam.
Bộ gõ tiếng Việt UniKey khá phổ biến hiện nay có công cụ dễ dàng chuyển đổi các văn bản sang mã Unicode phù hợp với tiêu chuẩn mới.
Bạn có thể đánh giá bài học này ở đây