PyPDF2 Cmap

2023-03-30 16:01 更新

查看“crazyones”的cmap:

pdftk crazyones.pdf output crazyones-uncomp.pdf uncompress

你可以看到這個:

begincmap
/CMapName /T1Encoding-UTF16 def
/CMapType 2 def
/CIDSystemInfo <<
  /Registry (Adobe)
  /Ordering (UCS)
  /Supplement 0
>> def
1 begincodespacerange
<00> <FF>
endcodespacerange
1 beginbfchar
<1B> <FB00>
endbfchar
endcmap
CMapName currentdict /CMap defineresource pop

代碼空間范圍

codespacerange 將完整的字節(jié)序列映射到一系列 unicode 字形。它定義了一個起點:

1 beginbfchar
<1B> <FB00>

這意味著1B(Hex for 27) 映射到 unicode 字符FB00- 連字 ?(兩個小寫的 f)。

這兩個數(shù)字begincodespacerange意味著它以 0 的偏移量(因此從)開始到 FF 的偏移量(dec:255),因此 1B+FF = 282 ? FBFF1B ? FB00

在文本流中,有

(The)-342(mis\034ts.)

\034 是八進制的 28 十進制。


以上內容是否對您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號
微信公眾號

編程獅公眾號