2018年2月15日 星期四

計概A-03文字資料表示法-公職試題

【選擇題】

A01.一般個人電腦(IBM大型或工作站電腦)鍵盤按鍵是對映於下列那一種文字編碼? (A)ASCII(American Standard Code for Information Interchange) (B)EBCDIC(Extended Binary Coded Decimal Interchange Code) (C)ISO(International Organization for Standardization) (D)Hash function code[109身心五等]

美國資訊交換標準碼(ASCII),以78bits表示一個字元,適用於微電腦、通訊碼。

 

D02.康熙字典收錄了4萬多個漢字,若一個字一個碼,那麼需要幾個位元(bits)才能產生足夠的編碼量以包含這所有的漢字? (A)13個位元 (B)14個位元 (C)15個位元 (D)16個位元。[109身心五]

21547,035216 32,76847,03565,536

 

B03.使用LZW壓縮法來壓縮一個由字母集{A, B, C}所組成的字串ABABBABCAB,第三個被新填入字串編碼表的字串為何? (A)BCA (B)ABB (C)BAB (D)BA[109普考資處]

AB 1個字串

BA 2個字串

AB 與第1個字串重複,保留

ABB 3個字串

 

C04.數字18510BCD(Binary-Coded Decimal)碼表示共需幾個位元 (A)7 (B)8 (C)12 (D)16[109關務]

1 = 00018 = 10005 = 010118510 = 000110000101 BCD碼,共12位元

 

B05.ASCII碼中,(A, z)的二進位分別為(0100 0001, 0111 1010),試問(N, s, B)的十進位= (A)(77, 114, 65) (B)(78, 115, 66) (C)(79, 116, 67) (D)(80, 117, 68)[110國安五等]

(0100 0001, 0111 1010) (65, 122)

(N, s, B) (78, 115, 66)

 

A06.在數據通訊的通道中,可能會有錯誤位元的發生,因此需要有具錯誤修正能力(correction)的編碼,下列何者有此能力? (A)漢明碼 (B)ASCII (C)EBCDIC (D)Unicode碼。[110國安五等]

漢明碼:具有自動偵測多位元傳輸錯誤,及更正一個位元錯誤的能力。

 

B07.下列資料處理方法,何者無法減少冗餘資料,使得傳輸更有效率? (A)Huffman編碼法 (B)通道編碼法 (C)Lempel Ziv編碼法 (D)MPEG編碼標準。[110國安五等]

通道編碼:又稱差錯控制編碼,就是在傳送端對原資料新增冗餘資訊(糾錯碼),冗餘資訊是和原資料相關的,再在接收端根據相關性來檢測和糾正傳輸過程產生的差錯,即用來對抗傳輸過程的干擾。

 

C08.兩個等長字串010101111011的漢明距離(Hamming distance) (A)2 (B)3 (C)4 (D)5[110普考資處]

010101111011的漢明距離是4


C09.假設一個數字序列包含0, 1, 2, 3四個數字,若以兩個位元表達每一個數字,需要2乘上序列長度(數字的個數)的位元數來儲存這個數字序列。若已知0, 1, 2, 3出現的比例分別是10%, 20%, 30%, 40%,則使用霍夫曼編碼法(Huffman Coding)重新編碼後,所需的位元數為原本的 (A)85% (B)90% (C)95% (D)100%[110普考資處]


B10.關於UTF-8(Unicode Transformation Format 8-bit)編碼標準,下列敘述何者錯誤? (A)UTF-8編碼標準可以表現簡體中文 (B)UTF-8編碼標準使用8位元空間儲存所有編碼 (C)UTF-8編碼標準支援ASCII編碼 (D)UTF-8編碼標準保留未來延伸之空間。[111地方四等資處]

UTF-8是針對Unicode的可變長度字元編碼,也是字首碼。現在已經標準化為RFC 3629UTF-8使用16個位元組編碼Unicode字元。用在網頁上可以同一頁面顯示中文繁體簡體及其它語言(如英文,日文,韓文)

 

B11.電腦以位元(bits)的數值組合代表不同意涵,假設現在有65,500個常用的中文字,至少需要幾個位元來表示常用的中文字數目? (A)8 (B)16 (C)24 (D)32[111普考資處]

21565500216 327686550065536

 

A12.下列那一個是最普及的編碼系統且僅需要七個位元(bits)即可儲存一個符號? (A)ASCII (B)EBCDIC (C)Big5 (D)Unicode[111普考資處]

美國資訊交換標準碼(American Standard Code for Information InterchangeASCII),以7bits表示一個字元,適用於微電腦、通訊碼。

 

B13.一個字母表A={a0,a1,a2,a3},其中a0的出現機率0.5a1的出現機率0.25a2的出現機率0.125a3的出現機率0.125,若以霍夫曼編碼(Huffman Coding)得到A字母表的碼簿(codebook),下列何者可為正確答案? (A)a0=00a1=01a2=10a3=11 (B)a0=0a1=10a2=110a3=111 (C)a0=0a1=01a2=011a3=0111 (D)a0=0a1=1a2=00a3=11[111普考資處]


D14.有關資料編碼的說明下列何者正確? (A)ASCII原始編碼一開始就是用8個位元來編碼 (B)BCDIC編碼是由ASCII編碼擴充而來 (C)EBCDIC編碼利用6個位元來編碼,且前2個位元為區域位元 (D)BCD編碼以4個位元為一組,僅能用於表達數字。[112初考資處]

(A)ASCII原始編碼一開始是用7個位元來編碼

(B)EBCDIC編碼是由ASCII編碼擴充而來

(C)EBCDIC編碼利用8個位元來編碼,可以表示256個字元

 

C15.大五碼(Big 5)是繁體中文常見的編碼標準,如果利用大五碼儲存「資訊安全」四個字,則需要使用多少個位元組? (A)4 (B)6 (C)8 (D)10[112國安五等]

每個中文字需要2個位元組,「資訊安全」四個字需要使用8個位元組。

 

A16.兩組BCD碼數值001001011000000101100011相加,其結果為10進制的 (A)421 (B)376 (C)955 (D)748[112普考資處]

0010 0101 1000 + 0001 0110 0011 = 258 + 163 = 421

 

C17.有關UTF-8UTF-16UTF-32的比較,下列何者錯誤? (A)最長編碼長度均為32位元 (B)三者中只有UTF-32採取固定寬度編碼 (C)JAVA的原生字元編碼採用UTF-8 (D)三者中僅UTF-8反向相容於ASCII編碼。[112普考資處]

JAVA的原生字元編碼採用UTF-16

 

D18.若有一個語言文字體系,需要區分2,000個基本字詞(words),至少用幾個位元(binary bits)表現一個字詞? (A)8bits (B)16bits (C)10bits (D)11bits[112關務四等]

2^1020002^11

102420002048

 

D19.ASCII-8可以表示多少個不同的字元(characters) (A)32 (B)64 (C)128 (D)256[112關務四等]

2 ^ 8 = 256

 

D20.假設六個字母的出現比例分別為A=10%B=10%C=15%D=20%E=30%F=15%,若採用霍夫曼編碼(Huffman coding),下列那一個字母的編碼位元數最少? (A)字母A (B)字母B (C)字母C (D)字母D[113初考資處]

 

C21.下列那個碼與(100011)2之漢明距離(Hamming distance)5 (A)(000001)2 (B)(011111)2 (C)(001100)2 (D)(001101)2[109普考資處]

漢明距離是兩個等長字串對應位置的不同字符的個數,也是將一個字串換成另一個字串需要替換的字符個數。XOR運算。

100011 XOR 001100 = 101111

 

D22.最小漢明距離(minimum Hamming distance)1110的一組編碼最多能校正幾個位元(bit)的錯誤 (A)2 (B)3 (C)4 (D)5[110關務四等]

當碼組用於檢測錯誤時,可檢測e個位的錯誤,則de + 1

1110 = 11012 4 + 1 = 5

 

D23.假設我們用霍夫曼編碼法(Huffman Coding)壓縮一個只包含四個符號的序列,下列何種符號分布(每個符號占的比例)之壓縮比最差? (A)0.1, 0.2, 0.3, 0.4 (B)0.1, 0.25, 0.25, 0.4 (C)0.001, 0.001, 0.001, 0.997 (D)0.25, 0.25, 0.25, 0.25

霍夫曼編碼法:出現頻率較高的字元,使用較短的編碼;出現頻率較低的字元,使用較長的編碼。以達到資料壓縮的目的。[109地方四等資處]

 

B24.使用霍夫曼編碼法壓縮資料,若已知只有100種可能出現的符號,意即字典(alphabet)大小為100,最長的碼(codeword)長度為何? (A)10 (B)99 (C)100 (D)101[109關務四等]

霍夫曼編碼法:無失真的壓縮演算法,使用符號出現頻率進行編碼壓縮,若出現頻率都相同,最長的編碼為n - 1100 - 1 = 99

 

A25.假設各字母出現的機率a0.2b0.4c0.1d0.3,使用霍夫曼對abcd編碼後b的編碼結果,可能為下列何者? (A)1 (B)01 (C)001 (D)0001[110地方四等資處]

 


C26.假設某筆資料只包含ABCD四種符號,且ABCD在資料中出現的頻率為712306,若對此筆資料做霍夫曼編碼(Huffman coding),那一個符號的編碼(code)長度最短? (A)A (B)B (C)C (D)D[110地方四等電子]

出現頻率高的字元,使用較短的編碼。

 

B27.下列關於霍夫曼編碼(Huffman Coding)的敘述,何者錯誤? (A)是種用於無失真資料壓縮的編碼方式 (B)會評估符號出現的機率,將出現機率高的符號使用較長的編碼 (C)利用霍夫曼編碼所編出的碼不具有唯一性 (D)由於每個字元(data word)編碼後的碼字(code word)長度不一致,因此每個碼字不可為另外一個碼字的首碼(prefix)[110身心四等]

(B)出現頻率高的字元,使用較短的編碼。

 

A28.以霍夫曼(Huffman)演算法,假設有4個外部節點(external nodes)的加權值分別是1368,則其加權外部路徑長度(External Path Length, EPL)為何? (A)32 (B)31 (C)30 (D)29[110初考資處]

  18

 /   \

8    10

    /   \

   4    6

  /  \

 1   3

EPL = Σ根節點到每個葉節點的路徑長度×權重

18-13 × 1 = 3

18-33 × 3 = 9

18-62 × 6 = 12

18-81 × 8 = 8

EPL = 3 + 9 + 12 + 8 = 32

 

D29.若字串aaaaaabbbbbccccdddeef依霍夫曼法編碼(Huffman code),則'e'最少需要幾個位元(bits) (A)1 (B)2 (C)3 (D)4[110初考資處]

 

 

 

 A30.某台機器共有4個指令(A, B, C, D),其出現的機率分別如下:A0.40, B0.30, C0.15, D0.15,下列何者為其最佳之霍夫曼編碼(Huffman Code) (A)A:0, B:10, C:110, D:111 (B)A:0, B:101, C:110, D:111 (C)A:01, B:101, C:110, D:111 (D)A:01, B:10, C:110, D:111[110國安五等資處]

指令

A

B

C

D

出現機率

0.4

0.3

0.15

0.15

編碼

00

10

110

111


D31.若以霍夫曼編碼(Huffman coding)ABCD等四個字元進行編碼,下列何者是可能的編碼結果? (A)A001B01C1D00 (B)A00B11C1D0 (C)A000B1C00D01 (D)A000B01C001D1[111地方四等電子]

 

B32.假設一文字檔案僅包含a, b, c, , e, f六種字元,其出現頻率百分比分別為11%, 8%, 15%, 23%, 30%, 13%。若使用霍夫曼碼(Huffman coding)對此檔案編碼,則字元d的編碼長度為多少位元? (A)1 (B)2 (C)3 (D)4[111關務四等]

d的出現頻率為23%,排第2多,在root之下第2層,編碼2位元。