計概A.數字系統與資料表示法: 計概A-03文字資料表示法

【選擇題】

【A】01.一般個人電腦(非IBM大型或工作站電腦)鍵盤按鍵是對映於下列那一種文字編碼？ (A)ASCII(American Standard Code for Information Interchange) (B)EBCDIC(Extended Binary Coded Decimal Interchange Code) (C)ISO(International Organization for Standardization) (D)Hash function code。[109身心五等]

美國資訊交換標準碼(ASCII)，以7或8bits表示一個字元，適用於微電腦、通訊碼。

【D】02.康熙字典收錄了4萬多個漢字，若一個字一個碼，那麼需要幾個位元(bits)才能產生足夠的編碼量以包含這所有的漢字？ (A)13個位元 (B)14個位元 (C)15個位元 (D)16個位元。[109身心五等]

2¹⁵≦47,035≦2¹⁶ → 32,768≦47,035≦65,536

【B】03.使用LZW壓縮法來壓縮一個由字母集{A, B, C}所組成的字串ABABBABCAB，第三個被新填入字串編碼表的字串為何？ (A)BCA (B)ABB (C)BAB (D)BA。[109普考資處]

AB → 第1個字串

BA → 第2個字串

AB → 與第1個字串重複，保留

ABB → 第3個字串

【C】04.數字185₁₀用BCD(Binary-Coded Decimal)碼表示共需幾個位元？ (A)7 (B)8 (C)12 (D)16。[109關務四等]

1 = 0001，8 = 1000，5 = 0101，185₁₀ = 000110000101 BCD碼，共12位元

【B】05.在ASCII碼中，(A, z)的二進位分別為(0100 0001, 0111 1010)，試問(N, s, B)的十進位=？ (A)(77, 114, 65) (B)(78, 115, 66) (C)(79, 116, 67) (D)(80, 117, 68)。[110國安五等]

(0100 0001, 0111 1010) → (65, 122)

(N, s, B) → (78, 115, 66)

【A】06.在數據通訊的通道中，可能會有錯誤位元的發生，因此需要有具錯誤修正能力(correction)的編碼，下列何者有此能力？ (A)漢明碼 (B)ASCII碼 (C)EBCDIC碼 (D)Unicode碼。[110國安五等]

漢明碼：具有自動偵測多位元傳輸錯誤，及更正一個位元錯誤的能力。

【B】07.下列資料處理方法，何者無法減少冗餘資料，使得傳輸更有效率？ (A)Huffman編碼法 (B)通道編碼法 (C)Lempel Ziv編碼法 (D)MPEG編碼標準。[110國安五等]

通道編碼：又稱差錯控制編碼，就是在傳送端對原資料新增冗餘資訊(糾錯碼)，冗餘資訊是和原資料相關的，再在接收端根據相關性來檢測和糾正傳輸過程產生的差錯，即用來對抗傳輸過程的干擾。

【C】08.兩個等長字串010101與111011的漢明距離(Hamming distance)是 (A)2 (B)3 (C)4 (D)5。[110普考資處]

010101與111011的漢明距離是4

【C】09.假設一個數字序列包含0, 1, 2, 3四個數字，若以兩個位元表達每一個數字，需要2乘上序列長度(數字的個數)的位元數來儲存這個數字序列。若已知0, 1, 2, 3出現的比例分別是10%, 20%, 30%, 40%，則使用霍夫曼編碼法(Huffman Coding)重新編碼後，所需的位元數為原本的 (A)85% (B)90% (C)95% (D)100%。[110普考資處]

【B】10.關於UTF-8(Unicode Transformation Format 8-bit)編碼標準，下列敘述何者錯誤？ (A)UTF-8編碼標準可以表現簡體中文 (B)UTF-8編碼標準使用8位元空間儲存所有編碼 (C)UTF-8編碼標準支援ASCII編碼 (D)UTF-8編碼標準保留未來延伸之空間。[111地方四等資處]

UTF-8是針對Unicode的可變長度字元編碼，也是字首碼。現在已經標準化為RFC 3629。UTF-8使用1到6個位元組編碼Unicode字元。用在網頁上可以同一頁面顯示中文繁體簡體及其它語言(如英文，日文，韓文)。

【B】11.電腦以位元(bits)的數值組合代表不同意涵，假設現在有65,500個常用的中文字，至少需要幾個位元來表示常用的中文字數目？ (A)8 (B)16 (C)24 (D)32。[111普考資處]

2¹⁵≦65500≦2¹⁶ → 32768≦65500≦65536

【A】12.下列那一個是最普及的編碼系統且僅需要七個位元(bits)即可儲存一個符號？ (A)ASCII (B)EBCDIC (C)Big5 (D)Unicode。[111普考資處]

美國資訊交換標準碼(American Standard Code for Information Interchange，ASCII)，以7bits表示一個字元，適用於微電腦、通訊碼。

【B】13.一個字母表A={a0,a1,a2,a3}，其中a0的出現機率0.5，a1的出現機率0.25，a2的出現機率0.125，a3的出現機率0.125，若以霍夫曼編碼(Huffman Coding)得到A字母表的碼簿(codebook)，下列何者可為正確答案？ (A)a0=00，a1=01，a2=10，a3=11 (B)a0=0，a1=10，a2=110，a3=111 (C)a0=0，a1=01，a2=011，a3=0111 (D)a0=0，a1=1，a2=00，a3=11。[111普考資處]

【D】14.有關資料編碼的說明下列何者正確？ (A)ASCII原始編碼一開始就是用8個位元來編碼 (B)BCDIC編碼是由ASCII編碼擴充而來 (C)EBCDIC編碼利用6個位元來編碼，且前2個位元為區域位元 (D)BCD編碼以4個位元為一組，僅能用於表達數字。[112初考資處]

(A)ASCII原始編碼一開始是用7個位元來編碼

(B)EBCDIC編碼是由ASCII編碼擴充而來

(C)EBCDIC編碼利用8個位元來編碼，可以表示256個字元

【C】15.大五碼(Big 5)是繁體中文常見的編碼標準，如果利用大五碼儲存「資訊安全」四個字，則需要使用多少個位元組？ (A)4 (B)6 (C)8 (D)10。[112國安五等]

每個中文字需要2個位元組，「資訊安全」四個字需要使用8個位元組。

【A】16.兩組BCD碼數值001001011000及000101100011相加，其結果為10進制的 (A)421 (B)376 (C)955 (D)748。[112普考資處]

0010 0101 1000 + 0001 0110 0011 = 258 + 163 = 421

【C】17.有關UTF-8、UTF-16、UTF-32的比較，下列何者錯誤？ (A)最長編碼長度均為32位元 (B)三者中只有UTF-32採取固定寬度編碼 (C)JAVA的原生字元編碼採用UTF-8 (D)三者中僅UTF-8反向相容於ASCII編碼。[112普考資處]

JAVA的原生字元編碼採用UTF-16。

【D】18.若有一個語言文字體系，需要區分2,000個基本字詞(words)，至少用幾個位元(binary bits)表現一個字詞？ (A)8bits (B)16bits (C)10bits (D)11bits。[112關務四等]

2^10≦2000≦2^11

1024≦2000≦2048

【D】19.ASCII-8可以表示多少個不同的字元(characters)？ (A)32 (B)64 (C)128 (D)256。[112關務四等]

2 ^ 8 = 256

【A】20.下列何者不屬於中文字體原始編碼？ (A)UTF-8 (B)GB18030 (C)BIG-5 (D)CNS11643。[113地方四等資處]

UTF-8(Unicode Transformation Format 8-bit)編碼標準

1.UTF-8是針對Unicode的可變長度字元編碼，也是字首碼。現在已經標準化為RFC 3629。

2.UTF-8使用1到6個位元組編碼Unicode字元。

3.UTF-8編碼標準支援ASCII編碼。

4.UTF-8編碼標準保留未來延伸之空間。

5.用在網頁上可以同一頁面顯示中文繁體簡體及其它語言(如英文，日文，韓文)。

【B】21.若計算機中的資料只能用26個大寫英文字母、26個小寫英文字母、10個阿拉伯數字及20個其他符號等82個字元表示，假設所有字元都以相同數目的位元(bits)來表示，則每個字元最少需要用到幾個位元？ (A)6 (B)7 (C)8 (D)9。[113地方四等資處]

2 ^ 6 ≦ 82 ≦2 ^ 7 → 64 ≦ 82 ≦ 128

【D】22.若一網頁內容包含中文、日文與韓文資訊，下列何者編碼方式最為適當？ (A)ASCII (B)Big-5 (C)ISO/IEC 8859-1 (D)UTF-8。[113身心四等資處]

UTF-8編碼標準：用在網頁上可以同一頁面顯示中文繁體簡體及其它語言(如英文，日文，韓文)。

【D】23.下列何種文字編碼格式，能夠支援最多種語言與字數？ (A)ASCII (B)Big-5 (C)GB (D)Unicode。[113身心四等資處]

Unicode(萬國碼、通用碼)：

1.由國際標準化組織(ISO)制定。

2.以2Bytes編碼，可表示65536個字元，解決衝碼問題。

【C】24.若A電腦連續傳送兩筆8位元的資料給B電腦，分別為01101101及10110101，此兩筆資料的漢明距離(Hamming Distance)為何？ (A)8 (B)3 (C)4 (D)5。[113身心四等資處]

01101101 XOR 10110101 = 11011000 → 有4個1，漢明距離為4

【C】25.假設原始資料是＜BBBBBCCCCCCCCAAAAAA＞，編碼後的資料是＜B,5,C,8,A,6＞，則此編碼方式是採用下列何種方法？ (A)Huffman coding (B)JPEG encoding (C)Run-length encoding (D)Lempel Ziv (LZ) encoding。[113身心四等電子]

Run-length encoding(RLE)：使用變動長度的編碼來取代連續重複出現的原始資料，是無失真資料壓縮技術。

【D】26.假設六個字母的出現比例分別為A=10%、B=10%、C=15%、D=20%、E=30%與F=15%，若採用霍夫曼編碼(Huffman coding)，下列那一個字母的編碼位元數最少？ (A)字母A (B)字母B (C)字母C (D)字母D。[113初考資處]

【D】27.那種編碼系統針對世界上主要語言使用的字元定義一致的編碼方式？ (A)ASCII (B)BIG-5 (C)EBCDIC (D)Unicode。[113普考資處]

Unicode(萬國碼、通用碼)：

1.由國際標準化組織(ISO)制定。

2.以2Bytes編碼，可表示65536個字元，解決衝碼問題。

【D】28.若X = 10011100，Y = 01110111，則X與Y的漢明距離(hamming distance)為多少？ (A)3 (B)4 (C)5 (D)6。[113關務四等]

10011100 XOR 01110111 = 11101011 → 有6個1，漢明距離為6

【D】29.電腦在呈現不同語言的內容時，可能會產生亂碼導致文字無法辨識，採用下列何種編碼系統可以避免該問題？ (A)Big 5 (B)GB (C)JIS X 0208 (D)Unicode。[113關務四等]

Unicode(萬國碼、通用碼)：

1.由國際標準化組織(ISO)制定。

2.以2Bytes編碼，可表示65536個字元，解決衝碼問題。

【C】30.下列關於UTF的敘述，何者正確？ (A)UTF-8採用8位元固定寬度編碼 (B)UTF-16採用16位元固定寬度編碼 (C)UTF-8採用變動寬度編碼，最長編碼為32位元 (D)UTF-8不反向相容於ASCII編碼。[113關務四等]

(A)UTF-8採用8位元可變長度字元編碼

(B)UTF-16採用16位元變長編碼

(D)UTF-8是為解決向下相容ASCII碼而設計

【C】31.下列那個碼與(100011)₂之漢明距離(Hamming distance)為5？ (A)(000001)₂ (B)(011111)₂ (C)(001100)₂ (D)(001101)₂。[109普考資處]

100011 XOR 001100 = 101111 → 有5個1，漢明距離為5

【D】32.最小漢明距離(minimum Hamming distance)為11₁₀的一組編碼，最多能校正幾個位元(bit)的錯誤？ (A)2 (B)3 (C)4 (D)5。[110關務四等]

當碼組用於檢測錯誤時，可檢測e個位的錯誤，則d≧e + 1

11₁₀ = 1101₂ → 4 + 1 = 5

【D】33.假設我們用霍夫曼編碼法(Huffman Coding)壓縮一個只包含四個符號的序列，下列何種符號分布(每個符號占的比例)之壓縮比最差？ (A)0.1, 0.2, 0.3, 0.4 (B)0.1, 0.25, 0.25, 0.4 (C)0.001, 0.001, 0.001, 0.997 (D)0.25, 0.25, 0.25, 0.25。

霍夫曼編碼法：出現頻率較高的字元，使用較短的編碼；出現頻率較低的字元，使用較長的編碼。以達到資料壓縮的目的。[109地方四等資處]

【B】34.使用霍夫曼編碼法壓縮資料，若已知只有100種可能出現的符號，意即字典(alphabet)大小為100，最長的碼(codeword)長度為何？ (A)10 (B)99 (C)100 (D)101。[109關務四等]

霍夫曼編碼法：無失真的壓縮演算法，使用符號出現頻率進行編碼壓縮，若出現頻率都相同，最長的編碼為n - 1。100 - 1 = 99

【A】35.假設各字母出現的機率a為0.2、b為0.4、c為0.1、d為0.3，使用霍夫曼對a、b、c、d編碼後b的編碼結果，可能為下列何者？ (A)1 (B)01 (C)001 (D)0001。[110地方四等資處]

【C】36.假設某筆資料只包含A、B、C、D四種符號，且A、B、C、D在資料中出現的頻率為7、12、30、6，若對此筆資料做霍夫曼編碼(Huffman coding)，那一個符號的編碼(code)長度最短？ (A)A (B)B (C)C (D)D。[110地方四等電子]

出現頻率高的字元，使用較短的編碼。

【B】37.下列關於霍夫曼編碼(Huffman Coding)的敘述，何者錯誤？ (A)是種用於無失真資料壓縮的編碼方式 (B)會評估符號出現的機率，將出現機率高的符號使用較長的編碼 (C)利用霍夫曼編碼所編出的碼不具有唯一性 (D)由於每個字元(data word)編碼後的碼字(code word)長度不一致，因此每個碼字不可為另外一個碼字的首碼(prefix)。[110身心四等]

(B)出現頻率高的字元，使用較短的編碼。

【A】38.以霍夫曼(Huffman)演算法，假設有4個外部節點(external nodes)的加權值分別是1、3、6、8，則其加權外部路徑長度(External Path Length, EPL)為何？ (A)32 (B)31 (C)30 (D)29。[110初考資處]

/ \

8 10

/ \

4 6

/ \

1 3

EPL = Σ根節點到每個葉節點的路徑長度×權重

18-1：3 × 1 = 3

18-3：3 × 3 = 9

18-6：2 × 6 = 12

18-8：1 × 8 = 8

EPL = 3 + 9 + 12 + 8 = 32

【D】39.若字串aaaaaabbbbbccccdddeef依霍夫曼法編碼(Huffman code)，則'e'最少需要幾個位元(bits)？ (A)1 (B)2 (C)3 (D)4。[110初考資處]

【A】40.某台機器共有4個指令(A, B, C, D)，其出現的機率分別如下：A：0.40, B：0.30, C：0.15, D：0.15，下列何者為其最佳之霍夫曼編碼(Huffman Code)？ (A)A:0, B:10, C:110, D:111 (B)A:0, B:101, C:110, D:111 (C)A:01, B:101, C:110, D:111 (D)A:01, B:10, C:110, D:111。[110國安五等資處]

指令	A	B	C	D
出現機率	0.4	0.3	0.15	0.15
編碼	00	10	110	111

【D】41.若以霍夫曼編碼(Huffman coding)將A、B、C和D等四個字元進行編碼，下列何者是可能的編碼結果？ (A)A：001，B：01，C：1，D：00 (B)A：00，B：11，C：1，D：0 (C)A：000，B：1，C：00，D：01 (D)A：000，B：01，C：001，D：1。[111地方四等電子]

【B】42.假設一文字檔案僅包含a, b, c, , e, f六種字元，其出現頻率百分比分別為11%, 8%, 15%, 23%, 30%, 13%。若使用霍夫曼碼(Huffman coding)對此檔案編碼，則字元d的編碼長度為多少位元？ (A)1 (B)2 (C)3 (D)4。[111關務四等]

d的出現頻率為23%，排第2多，在root之下第2層，編碼2位元。

計概A.數字系統與資料表示法

2018年2月15日星期四

計概A-03文字資料表示法－公職試題

沒有留言:

張貼留言

網誌存檔

2018年2月15日 星期四

計概A-03文字資料表示法－公職試題

沒有留言:

張貼留言

網誌存檔

2018年2月15日星期四