2018年2月15日 星期四

計概A-03文字資料表示法

A-3.1英文文字資料

n位元表示,最多能表示2n種符號,包含英文字母、數字字元與特殊符號。

ASCII

美國資訊交換標準碼(American Standard Code for Information Interchange)

1.78bits表示一個字元,適用於微電腦、通訊碼。

 "0" = (48)10 = (30)16

 "A" = (65)10 = (41)16

 "a" = (97)10 = (61)16

2.大小順序:空白字元<數字字元<大寫英文字母<小寫英文字母

EBCDIC

8bits表示,可表示256個字元,適用於大型電腦。

 

A-3.2中文文字資料

外碼(輸入碼)

輸入中文字的編碼,如:注音碼、倉頡碼。

內碼(儲存碼)

1.儲存中文字的編碼,以2Bytes表示。

2.BIG-5碼:適用於正體字,目前最常用的中文內碼。

3.GB(國標碼):適用於簡體字。

輸出碼

各種中英文字型。Windows字型為TrueType Font向量字,副檔名為.ttf

交換碼

中文系統如果使用不同編碼,需透過交換碼來轉換,如:通用漢字標準交換碼(Chinese Industrial Standard Code for Information Interchange, CISCII)

 

A-3.3Unicode(萬國碼、通用碼)

1.由國際標準化組織(ISO)制定。

2.2Bytes編碼,可表示65536個字元,解決衝碼問題。

3.VB的字串內碼以Unicode表示。

 

A-3.4UTF-8(Unicode Transformation Format 8-bit)編碼標準

1.UTF-8是針對Unicode的可變長度字元編碼,也是字首碼。現在已經標準化為RFC 3629

2.UTF-8使用16個位元組編碼Unicode字元。

3.UTF-8編碼標準支援ASCII編碼。

4.UTF-8編碼標準保留未來延伸之空間。

5.用在網頁上可以同一頁面顯示中文繁體簡體及其它語言(如英文,日文,韓文)

 

A-3.5漢明碼(Hamming code)

1.1950年,Richard Wesley Hamming提出。

2.具有自動偵測多位元傳輸錯誤,及更正一個位元錯誤的能力。

3.漢明距離是兩個等長字串對應位置的不同字符的個數,也是將一個字串換成另一個字串需要替換的字符個數。用XOR運算。

 

A-3.6霍夫曼編碼法(Huffman Coding)

1.1952年,由David Albert Huffman提出。

2.使用變長編碼表對源符號進行編碼,其中變長編碼表是由來源符號出現機率而得到,出現頻率高的字元,使用較短的編碼;出現頻率低的字元,使用較長的編碼,以達到無失真壓縮的目的。

沒有留言:

張貼留言

注意:只有此網誌的成員可以留言。