Copyright
前言
第一章：數(shù)據(jù)結構和算法
1. 1.1 解壓序列賦值給多個變量
2. 1.2 解壓可迭代對象賦值給多個變量
3. 1.3 保留最后N個元素
4. 1.4 查找最大或最小的N個元素
5. 1.5 實現(xiàn)一個優(yōu)先級隊列
6. 1.6 字典中的鍵映射多個值
7. 1.7 字典排序
8. 1.8 字典的運算
9. 1.9 查找兩字典的相同點
10. 1.10 刪除序列相同元素并保持順序
11. 1.11 命名切片
12. 1.12 序列中出現(xiàn)次數(shù)最多的元素
13. 1.13 通過某個關鍵字排序一個字典列表
14. 1.14 排序不支持原生比較的對象
15. 1.15 通過某個字段將記錄分組
16. 1.16 過濾序列元素
17. 1.17 從字典中提取子集
18. 1.18 映射名稱到序列元素
19. 1.19 轉換并同時計算數(shù)據(jù)
20. 1.20 合并多個字典或映射
第二章：字符串和文本
1. 2.1 使用多個界定符分割字符串
2. 2.2 字符串開頭或結尾匹配
3. 2.3 用Shell通配符匹配字符串
4. 2.4 字符串匹配和搜索
5. 2.5 字符串搜索和替換
6. 2.6 字符串忽略大小寫的搜索替換
7. 2.7 最短匹配模式
8. 2.8 多行匹配模式
9. 2.9 將Unicode文本標準化
10. 2.10 在正則式中使用Unicode
11. 2.11 刪除字符串中不需要的字符
12. 2.12 審查清理文本字符串
13. 2.13 字符串對齊
14. 2.14 合并拼接字符串
15. 2.15 字符串中插入變量
16. 2.16 以指定列寬格式化字符串
17. 2.17 在字符串中處理html和xml
18. 2.18 字符串令牌解析
19. 2.19 實現(xiàn)一個簡單的遞歸下降分析器
20. 2.20 字節(jié)字符串上的字符串操作
第三章：數(shù)字日期和時間
1. 3.1 數(shù)字的四舍五入
2. 3.2 執(zhí)行精確的浮點數(shù)運算
3. 3.3 數(shù)字的格式化輸出
4. 3.4 二八十六進制整數(shù)
5. 3.5 字節(jié)到大整數(shù)的打包與解包
6. 3.6 復數(shù)的數(shù)學運算
7. 3.7 無窮大與NaN
8. 3.8 分數(shù)運算
9. 3.9 大型數(shù)組運算
10. 3.10 矩陣與線性代數(shù)運算
11. 3.11 隨機選擇
12. 3.12 基本的日期與時間轉換
13. 3.13 計算最后一個周五的日期
14. 3.14 計算當前月份的日期范圍
15. 3.15 字符串轉換為日期
16. 3.16 結合時區(qū)的日期操作
第四章：迭代器與生成器
1. 4.1 手動遍歷迭代器
2. 4.2 代理迭代
3. 4.3 使用生成器創(chuàng)建新的迭代模式
4. 4.4 實現(xiàn)迭代器協(xié)議
5. 4.5 反向迭代
6. 4.6 帶有外部狀態(tài)的生成器函數(shù)
7. 4.7 迭代器切片
8. 4.8 跳過可迭代對象的開始部分
9. 4.9 排列組合的迭代
10. 4.10 序列上索引值迭代
11. 4.11 同時迭代多個序列
12. 4.12 不同集合上元素的迭代
13. 4.13 創(chuàng)建數(shù)據(jù)處理管道
14. 4.14 展開嵌套的序列
15. 4.15 順序迭代合并后的排序迭代對象
16. 4.16 迭代器代替while無限循環(huán)
第五章：文件與IO
1. 5.1 讀寫文本數(shù)據(jù)
2. 5.2 打印輸出至文件中
3. 5.3 使用其他分隔符或行終止符打印
4. 5.4 讀寫字節(jié)數(shù)據(jù)
5. 5.5 文件不存在才能寫入
6. 5.6 字符串的I/O操作
7. 5.7 讀寫壓縮文件
8. 5.8 固定大小記錄的文件迭代
9. 5.9 讀取二進制數(shù)據(jù)到可變緩沖區(qū)中
10. 5.10 內存映射的二進制文件
11. 5.11 文件路徑名的操作
12. 5.12 測試文件是否存在
13. 5.13 獲取文件夾中的文件列表
14. 5.14 忽略文件名編碼
15. 5.15 打印不合法的文件名
16. 5.16 增加或改變已打開文件的編碼
17. 5.17 將字節(jié)寫入文本文件
18. 5.18 將文件描述符包裝成文件對象
19. 5.19 創(chuàng)建臨時文件和文件夾
20. 5.20 與串行端口的數(shù)據(jù)通信
21. 5.21 序列化Python對象
第六章：數(shù)據(jù)編碼和處理
1. 6.1 讀寫CSV數(shù)據(jù)
2. 6.2 讀寫JSON數(shù)據(jù)
3. 6.3 解析簡單的XML數(shù)據(jù)
4. 6.4 增量式解析大型XML文件
5. 6.5 將字典轉換為XML
6. 6.6 解析和修改XML
7. 6.7 利用命名空間解析XML文檔
8. 6.8 與關系型數(shù)據(jù)庫的交互
9. 6.9 編碼和解碼十六進制數(shù)
10. 6.10 編碼解碼Base64數(shù)據(jù)
11. 6.11 讀寫二進制數(shù)組數(shù)據(jù)
12. 6.12 讀取嵌套和可變長二進制數(shù)據(jù)
13. 6.13 數(shù)據(jù)的累加與統(tǒng)計操作
第八章：類與對象
1. 8.1 改變對象的字符串顯示
2. 8.2 自定義字符串的格式化
3. 8.3 讓對象支持上下文管理協(xié)議
4. 8.4 創(chuàng)建大量對象時節(jié)省內存方法
5. 8.5 在類中封裝屬性名
6. 8.6 創(chuàng)建可管理的屬性
7. 8.7 調用父類方法
8. 8.8 子類中擴展property
9. 8.9 創(chuàng)建新的類或實例屬性
10. 8.10 使用延遲計算屬性
11. 8.11 簡化數(shù)據(jù)結構的初始化
12. 8.12 定義接口或者抽象基類
13. 8.13 實現(xiàn)數(shù)據(jù)模型的類型約束
14. 8.14 實現(xiàn)自定義容器
15. 8.15 屬性的代理訪問
16. 8.16 在類中定義多個構造器
17. 8.17 創(chuàng)建不調用init方法的實例
18. 8.18 利用Mixins擴展類功能
19. 8.19 實現(xiàn)狀態(tài)對象或者狀態(tài)機
20. 8.20 通過字符串調用對象方法
21. 8.21 實現(xiàn)訪問者模式
22. 8.22 不用遞歸實現(xiàn)訪問者模式
23. 8.23 循環(huán)引用數(shù)據(jù)結構的內存管理
24. 8.24 讓類支持比較操作
25. 8.25 創(chuàng)建緩存實例
第七章：函數(shù)
1. 7.1 可接受任意數(shù)量參數(shù)的函數(shù)
2. 7.2 只接受關鍵字參數(shù)的函數(shù)
3. 7.3 給函數(shù)參數(shù)增加元信息
4. 7.4 返回多個值的函數(shù)
5. 7.5 定義有默認參數(shù)的函數(shù)
6. 7.6 定義匿名或內聯(lián)函數(shù)
7. 7.7 匿名函數(shù)捕獲變量值
8. 7.8 減少可調用對象的參數(shù)個數(shù)
9. 7.9 將單方法的類轉換為函數(shù)
10. 7.10 帶額外狀態(tài)信息的回調函數(shù)
11. 7.11 內聯(lián)回調函數(shù)
12. 7.12 訪問閉包中定義的變量
第九章：元編程
1. 9.1 在函數(shù)上添加包裝器
2. 9.2 創(chuàng)建裝飾器時保留函數(shù)元信息
3. 9.3 解除一個裝飾器
4. 9.4 定義一個帶參數(shù)的裝飾器
5. 9.5 可自定義屬性的裝飾器
6. 9.6 帶可選參數(shù)的裝飾器
7. 9.7 利用裝飾器強制函數(shù)上的類型檢查
8. 9.8 將裝飾器定義為類的一部分
9. 9.9 將裝飾器定義為類
10. 9.10 為類和靜態(tài)方法提供裝飾器
11. 9.11 裝飾器為被包裝函數(shù)增加參數(shù)
12. 9.12 使用裝飾器擴充類的功能
13. 9.13 使用元類控制實例的創(chuàng)建
14. 9.14 捕獲類的屬性定義順序
15. 9.15 定義有可選參數(shù)的元類
16. 9.16 *args和**kwargs的強制參數(shù)簽名
17. 9.17 在類上強制使用編程規(guī)約
18. 9.18 以編程方式定義類
19. 9.19 在定義的時候初始化類的成員
20. 9.20 利用函數(shù)注解實現(xiàn)方法重載
21. 9.21 避免重復的屬性方法
22. 9.22 定義上下文管理器的簡單方法
23. 9.23 在局部變量域中執(zhí)行代碼
24. 9.24 解析與分析Python源碼
25. 9.25 拆解Python字節(jié)碼
第十章：模塊與包
1. 10.1 構建一個模塊的層級包
2. 10.2 控制模塊被全部導入的內容
3. 10.3 使用相對路徑名導入包中子模塊
4. 10.4 將模塊分割成多個文件
5. 10.5 利用命名空間導入目錄分散的代碼
6. 10.6 重新加載模塊
7. 10.7 運行目錄或壓縮文件
8. 10.8 讀取位于包中的數(shù)據(jù)文件
9. 10.9 將文件夾加入到sys.path
10. 10.10 通過字符串名導入模塊
11. 10.11 通過導入鉤子遠程加載模塊
12. 10.12 導入模塊的同時修改模塊
13. 10.13 安裝私有的包
14. 10.14 創(chuàng)建新的Python環(huán)境
15. 10.15 分發(fā)包
第十一章：網(wǎng)絡與Web編程
1. 11.1 作為客戶端與HTTP服務交互
2. 11.2 創(chuàng)建TCP服務器
3. 11.3 創(chuàng)建UDP服務器
4. 11.4 通過CIDR地址生成對應的IP地址集
5. 11.5 生成一個簡單的REST接口
6. 11.6 通過XML-RPC實現(xiàn)簡單的遠程調用
7. 11.7 在不同的Python解釋器之間交互
8. 11.8 實現(xiàn)遠程方法調用
9. 11.10 在網(wǎng)絡服務中加入SSL
10. 11.9 簡單的客戶端認證
11. 11.11 進程間傳遞Socket文件描述符
12. 11.12 理解事件驅動的IO
13. 11.13 發(fā)送與接收大型數(shù)組
第十二章：并發(fā)編程
1. 12.1 啟動與停止線程
2. 12.2 判斷線程是否已經(jīng)啟動
3. 12.3 線程間的通信
4. 12.4 給關鍵部分加鎖
5. 12.5 防止死鎖的加鎖機制
6. 12.6 保存線程的狀態(tài)信息
7. 12.7 創(chuàng)建一個線程池
8. 12.8 簡單的并行編程
9. 12.9 Python的全局鎖問題
10. 12.10 定義一個Actor任務
11. 12.11 實現(xiàn)消息發(fā)布/訂閱模型
12. 12.12 使用生成器代替線程
13. 12.13 多個線程隊列輪詢
14. 12.14 在Unix系統(tǒng)上面啟動守護進程
第十三章：腳本編程與系統(tǒng)管理
1. 13.1 通過重定向/管道/文件接受輸入
2. 13.2 終止程序并給出錯誤信息
3. 13.3 解析命令行選項
4. 13.4 運行時彈出密碼輸入提示
5. 13.5 獲取終端的大小
6. 13.6 執(zhí)行外部命令并獲取它的輸出
7. 13.7 復制或者移動文件和目錄
8. 13.8 創(chuàng)建和解壓壓縮文件
9. 13.9 通過文件名查找文件
10. 13.10 讀取配置文件
11. 13.11 給簡單腳本增加日志功能
12. 13.12 給內庫增加日志功能
13. 13.13 記錄程序執(zhí)行的時間
14. 13.14 限制內存和CPU的使用量
15. 13.15 啟動一個WEB瀏覽器
第十四章：測試調試和異常
1. 14.1 測試輸出到標準輸出上
2. 14.2 在單元測試中給對象打補丁
3. 14.3 在單元測試中測試異常情況
4. 14.4 將測試輸出用日志記錄到文件中
5. 14.5 忽略或者期望測試失敗
6. 14.6 處理多個異常
7. 14.7 捕獲所有異常
8. 14.8 創(chuàng)建自定義異常
9. 14.9 捕獲異常后拋出另外的異常
10. 14.10 重新拋出最后的異常
11. 14.11 輸出警告信息
12. 14.12 調試基本的程序崩潰錯誤
13. 14.13 給你的程序做基準測試
14. 14.14 讓你的程序跑的更快
第十五章：C語言擴展
1. 15.1 使用ctypes訪問C代碼
2. 15.2 簡單的C擴展模塊
3. 15.3 一個操作數(shù)組的擴展函數(shù)
4. 15.4 在C擴展模塊中操作隱形指針
5. 15.5 從擴張模塊中定義和導出C的API
6. 15.6 從C語言中調用Python代碼
7. 15.7 從C擴展中釋放全局鎖
8. 15.8 C和Python中的線程混用
9. 15.9 用WSIG包裝C代碼
10. 15.10 用Cython包裝C代碼
11. 15.11 用Cython寫高性能的數(shù)組操作
12. 15.12 將函數(shù)指針轉換為可調用對象
13. 15.13 傳遞NULL結尾的字符串給C函數(shù)庫
14. 15.14 傳遞Unicode字符串給C函數(shù)庫
15. 15.15 C字符串轉換為Python字符串
16. 15.16 不確定編碼格式的C字符串
17. 15.17 傳遞文件名給C擴展
18. 15.18 傳遞已打開的文件給C擴展
19. 15.19 從C語言中讀取類文件對象
20. 15.20 處理C語言中的可迭代對象
21. 15.21 診斷分析代碼錯誤
附錄A
關于譯者
Roadmap

閱讀(38k) 書簽贊(0) 我要糾錯

6.12 讀取嵌套和可變長二進制數(shù)據(jù)

2018-02-24 15:26 更新

問題

你需要讀取包含嵌套或者可變長記錄集合的復雜二進制格式的數(shù)據(jù)。這些數(shù)據(jù)可能包含圖片、視頻、電子地圖文件等。

解決方案

struct 模塊可被用來編碼/解碼幾乎所有類型的二進制的數(shù)據(jù)結構。為了解釋清楚這種數(shù)據(jù)，假設你用下面的Python數(shù)據(jù)結構來表示一個組成一系列多邊形的點的集合：

現(xiàn)在假設這個數(shù)據(jù)被編碼到一個以下列頭部開始的二進制文件中去了：

+------+--------+------------------------------------+
|Byte  | Type   |  Description                       |
+======+========+====================================+
|0     | int    |  File code (0x1234, little endian) |
+------+--------+------------------------------------+
|4     | double |  Minimum x (little endian)         |
+------+--------+------------------------------------+
|12    | double |  Minimum y (little endian)         |
+------+--------+------------------------------------+
|20    | double |  Maximum x (little endian)         |
+------+--------+------------------------------------+
|28    | double |  Maximum y (little endian)         |
+------+--------+------------------------------------+
|36    | int    |  Number of polygons (little endian)|
+------+--------+------------------------------------+

緊跟著頭部是一系列的多邊形記錄，編碼格式如下：

+------+--------+-------------------------------------------+
|Byte  | Type   |  Description                              |
+======+========+===========================================+
|0     | int    |  Record length including length (N bytes) |
+------+--------+-------------------------------------------+
|4-N   | Points |  Pairs of (X,Y) coords as doubles         |
+------+--------+-------------------------------------------+

為了寫這樣的文件，你可以使用如下的Python代碼：

import struct
import itertools

def write_polys(filename, polys):
    # Determine bounding box
    flattened = list(itertools.chain(*polys))
    min_x = min(x for x, y in flattened)
    max_x = max(x for x, y in flattened)
    min_y = min(y for x, y in flattened)
    max_y = max(y for x, y in flattened)
    with open(filename, 'wb') as f:
        f.write(struct.pack('<iddddi', 0x1234,
                            min_x, min_y,
                            max_x, max_y,
                            len(polys)))
        for poly in polys:
            size = len(poly) * struct.calcsize('<dd')
            f.write(struct.pack('<i', size + 4))
            for pt in poly:
                f.write(struct.pack('<dd', *pt))

將數(shù)據(jù)讀取回來的時候，可以利用函數(shù) struct.unpack() ，代碼很相似，基本就是上面寫操作的逆序。如下：

def read_polys(filename):
    with open(filename, 'rb') as f:
        # Read the header
        header = f.read(40)
        file_code, min_x, min_y, max_x, max_y, num_polys = \
            struct.unpack('<iddddi', header)
        polys = []
        for n in range(num_polys):
            pbytes, = struct.unpack('<i', f.read(4))
            poly = []
            for m in range(pbytes // 16):
                pt = struct.unpack('<dd', f.read(16))
                poly.append(pt)
            polys.append(poly)
    return polys

盡管這個代碼可以工作，但是里面混雜了很多讀取、解包數(shù)據(jù)結構和其他細節(jié)的代碼。如果用這樣的代碼來處理真實的數(shù)據(jù)文件，那未免也太繁雜了點。因此很顯然應該有另一種解決方法可以簡化這些步驟，讓程序員只關注自最重要的事情。

在本小節(jié)接下來的部分，我會逐步演示一個更加優(yōu)秀的解析字節(jié)數(shù)據(jù)的方案。目標是可以給程序員提供一個高級的文件格式化方法，并簡化讀取和解包數(shù)據(jù)的細節(jié)。但是我要先提醒習啊你，本小節(jié)接下來的部分代碼應該是整本書中最復雜最高級的例子，使用了大量的面向對象編程和元編程技術。一定要仔細的閱讀我們的討論部分，另外也要參考下其他章節(jié)內容。

首先，當讀取字節(jié)數(shù)據(jù)的時候，通常在文件開始部分會包含文件頭和其他的數(shù)據(jù)結構。盡管struct模塊可以解包這些數(shù)據(jù)到一個元組中去，另外一種表示這種信息的方式就是使用一個類。就像下面這樣：

import struct

class StructField:
    '''
    Descriptor representing a simple structure field
    '''
    def __init__(self, format, offset):
        self.format = format
        self.offset = offset
    def __get__(self, instance, cls):
        if instance is None:
            return self
        else:
            r = struct.unpack_from(self.format, instance._buffer, self.offset)
            return r[0] if len(r) == 1 else r

class Structure:
    def __init__(self, bytedata):
        self._buffer = memoryview(bytedata)

這里我們使用了一個描述器來表示每個結構字段，每個描述器包含一個結構兼容格式的代碼以及一個字節(jié)偏移量，存儲在內部的內存緩沖中。在 __get__() 方法中，struct.unpack_from()函數(shù)被用來從緩沖中解包一個值，省去了額外的分片或復制操作步驟。

Structure 類就是一個基礎類，接受字節(jié)數(shù)據(jù)并存儲在內部的內存緩沖中，并被 StructField 描述器使用。這里使用了 memoryview() ，我們會在后面詳細講解它是用來干嘛的。

使用這個代碼，你現(xiàn)在就能定義一個高層次的結構對象來表示上面表格信息所期望的文件格式。例如：

class PolyHeader(Structure):
    file_code = StructField('<i', 0)
    min_x = StructField('<d', 4)
    min_y = StructField('<d', 12)
    max_x = StructField('<d', 20)
    max_y = StructField('<d', 28)
    num_polys = StructField('<i', 36)

下面的例子利用這個類來讀取之前我們寫入的多邊形數(shù)據(jù)的頭部數(shù)據(jù)：

>>> f = open('polys.bin', 'rb')
>>> phead = PolyHeader(f.read(40))
>>> phead.file_code == 0x1234
True
>>> phead.min_x
0.5
>>> phead.min_y
0.5
>>> phead.max_x
7.0
>>> phead.max_y
9.2
>>> phead.num_polys
3
>>>

這個很有趣，不過這種方式還是有一些煩人的地方。首先，盡管你獲得了一個類接口的便利，但是這個代碼還是有點臃腫，還需要使用者指定很多底層的細節(jié)(比如重復使用 StructField ，指定偏移量等)。另外，返回的結果類同樣確實一些便利的方法來計算結構的總數(shù)。

任何時候只要你遇到了像這樣冗余的類定義，你應該考慮下使用類裝飾器或元類。元類有一個特性就是它能夠被用來填充許多低層的實現(xiàn)細節(jié)，從而釋放使用者的負擔。下面我來舉個例子，使用元類稍微改造下我們的 Structure 類：

class StructureMeta(type):
    '''
    Metaclass that automatically creates StructField descriptors
    '''
    def __init__(self, clsname, bases, clsdict):
        fields = getattr(self, '_fields_', [])
        byte_order = ''
        offset = 0
        for format, fieldname in fields:
            if format.startswith(('<','>','!','@')):
                byte_order = format[0]
                format = format[1:]
            format = byte_order + format
            setattr(self, fieldname, StructField(format, offset))
            offset += struct.calcsize(format)
        setattr(self, 'struct_size', offset)

class Structure(metaclass=StructureMeta):
    def __init__(self, bytedata):
        self._buffer = bytedata

    @classmethod
    def from_file(cls, f):
        return cls(f.read(cls.struct_size))

使用新的 Structure 類，你可以像下面這樣定義一個結構：

class PolyHeader(Structure):
    _fields_ = [
        ('<i', 'file_code'),
        ('d', 'min_x'),
        ('d', 'min_y'),
        ('d', 'max_x'),
        ('d', 'max_y'),
        ('i', 'num_polys')
    ]

正如你所見，這樣寫就簡單多了。我們添加的類方法 from_file()讓我們在不需要知道任何數(shù)據(jù)的大小和結構的情況下就能輕松的從文件中讀取數(shù)據(jù)。比如：

>>> f = open('polys.bin', 'rb')
>>> phead = PolyHeader.from_file(f)
>>> phead.file_code == 0x1234
True
>>> phead.min_x
0.5
>>> phead.min_y
0.5
>>> phead.max_x
7.0
>>> phead.max_y
9.2
>>> phead.num_polys
3
>>>

一旦你開始使用了元類，你就可以讓它變得更加智能。例如，假設你還想支持嵌套的字節(jié)結構，下面是對前面元類的一個小的改進，提供了一個新的輔助描述器來達到想要的效果：

class NestedStruct:
    '''
    Descriptor representing a nested structure
    '''
    def __init__(self, name, struct_type, offset):
        self.name = name
        self.struct_type = struct_type
        self.offset = offset

    def __get__(self, instance, cls):
        if instance is None:
            return self
        else:
            data = instance._buffer[self.offset:
                            self.offset+self.struct_type.struct_size]
            result = self.struct_type(data)
            # Save resulting structure back on instance to avoid
            # further recomputation of this step
            setattr(instance, self.name, result)
            return result

class StructureMeta(type):
    '''
    Metaclass that automatically creates StructField descriptors
    '''
    def __init__(self, clsname, bases, clsdict):
        fields = getattr(self, '_fields_', [])
        byte_order = ''
        offset = 0
        for format, fieldname in fields:
            if isinstance(format, StructureMeta):
                setattr(self, fieldname,
                        NestedStruct(fieldname, format, offset))
                offset += format.struct_size
            else:
                if format.startswith(('<','>','!','@')):
                    byte_order = format[0]
                    format = format[1:]
                format = byte_order + format
                setattr(self, fieldname, StructField(format, offset))
                offset += struct.calcsize(format)
        setattr(self, 'struct_size', offset)

在這段代碼中，NestedStruct 描述器被用來疊加另外一個定義在某個內存區(qū)域上的結構。它通過將原始內存緩沖進行切片操作后實例化給定的結構類型。由于底層的內存緩沖區(qū)是通過一個內存視圖初始化的，所以這種切片操作不會引發(fā)任何的額外的內存復制。相反，它僅僅就是之前的內存的一個疊加而已。另外，為了防止重復實例化，通過使用和8.10小節(jié)同樣的技術，描述器保存了該實例中的內部結構對象。

使用這個新的修正版，你就可以像下面這樣編寫：

class Point(Structure):
    _fields_ = [
        ('<d', 'x'),
        ('d', 'y')
    ]

class PolyHeader(Structure):
    _fields_ = [
        ('<i', 'file_code'),
        (Point, 'min'), # nested struct
        (Point, 'max'), # nested struct
        ('i', 'num_polys')
    ]

令人驚訝的是，它也能按照預期的正常工作，我們實際操作下：

>>> f = open('polys.bin', 'rb')
>>> phead = PolyHeader.from_file(f)
>>> phead.file_code == 0x1234
True
>>> phead.min # Nested structure
<__main__.Point object at 0x1006a48d0>
>>> phead.min.x
0.5
>>> phead.min.y
0.5
>>> phead.max.x
7.0
>>> phead.max.y
9.2
>>> phead.num_polys
3
>>>

到目前為止，一個處理定長記錄的框架已經(jīng)寫好了。但是如果組件記錄是變長的呢？比如，多邊形文件包含變長的部分。

一種方案是寫一個類來表示字節(jié)數(shù)據(jù)，同時寫一個工具函數(shù)來通過多少方式解析內容。跟6.11小節(jié)的代碼很類似：

class SizedRecord:
    def __init__(self, bytedata):
        self._buffer = memoryview(bytedata)

    @classmethod
    def from_file(cls, f, size_fmt, includes_size=True):
        sz_nbytes = struct.calcsize(size_fmt)
        sz_bytes = f.read(sz_nbytes)
        sz, = struct.unpack(size_fmt, sz_bytes)
        buf = f.read(sz - includes_size * sz_nbytes)
        return cls(buf)

    def iter_as(self, code):
        if isinstance(code, str):
            s = struct.Struct(code)
            for off in range(0, len(self._buffer), s.size):
                yield s.unpack_from(self._buffer, off)
        elif isinstance(code, StructureMeta):
            size = code.struct_size
            for off in range(0, len(self._buffer), size):
                data = self._buffer[off:off+size]
                yield code(data)

類方法 SizedRecord.from_file() 是一個工具，用來從一個文件中讀取帶大小前綴的數(shù)據(jù)塊，這也是很多文件格式常用的方式。作為輸入，它接受一個包含大小編碼的結構格式編碼，并且也是自己形式?？蛇x的 includes_size 參數(shù)指定了字節(jié)數(shù)是否包含頭部大小。下面是一個例子教你怎樣使用從多邊形文件中讀取單獨的多邊形數(shù)據(jù)：

>>> f = open('polys.bin', 'rb')
>>> phead = PolyHeader.from_file(f)
>>> phead.num_polys
3
>>> polydata = [ SizedRecord.from_file(f, '<i')
...             for n in range(phead.num_polys) ]
>>> polydata
[<__main__.SizedRecord object at 0x1006a4d50>,
<__main__.SizedRecord object at 0x1006a4f50>,
<__main__.SizedRecord object at 0x10070da90>]
>>>

可以看出，SizedRecord 實例的內容還沒有被解析出來?？梢允褂?iter_as() 方法來達到目的，這個方法接受一個結構格式化編碼或者是 Structure 類作為輸入。這樣子可以很靈活的去解析數(shù)據(jù)，例如：

>>> for n, poly in enumerate(polydata):
...     print('Polygon', n)
...     for p in poly.iter_as('<dd'):
...         print(p)
...
Polygon 0
(1.0, 2.5)
(3.5, 4.0)
(2.5, 1.5)
Polygon 1
(7.0, 1.2)
(5.1, 3.0)
(0.5, 7.5)
(0.8, 9.0)
Polygon 2
(3.4, 6.3)
(1.2, 0.5)
(4.6, 9.2)
>>>

>>> for n, poly in enumerate(polydata):
...     print('Polygon', n)
...     for p in poly.iter_as(Point):
...         print(p.x, p.y)
...
Polygon 0
1.0 2.5
3.5 4.0
2.5 1.5
Polygon 1
7.0 1.2
5.1 3.0
0.5 7.5
0.8 9.0
Polygon 2
3.4 6.3
1.2 0.5
4.6 9.2
>>>

將所有這些結合起來，下面是一個 read_polys() 函數(shù)的另外一個修正版：

class Point(Structure):
    _fields_ = [
        ('<d', 'x'),
        ('d', 'y')
    ]

class PolyHeader(Structure):
    _fields_ = [
        ('<i', 'file_code'),
        (Point, 'min'),
        (Point, 'max'),
        ('i', 'num_polys')
    ]

def read_polys(filename):
    polys = []
    with open(filename, 'rb') as f:
        phead = PolyHeader.from_file(f)
        for n in range(phead.num_polys):
            rec = SizedRecord.from_file(f, '<i')
            poly = [ (p.x, p.y) for p in rec.iter_as(Point) ]
            polys.append(poly)
    return polys

討論

這一節(jié)向你展示了許多高級的編程技術，包括描述器，延遲計算，元類，類變量和內存視圖。然而，它們都為了同一個特定的目標服務。

上面的實現(xiàn)的一個主要特征是它是基于懶解包的思想。當一個 Structure 實例被創(chuàng)建時，__init__() 僅僅只是創(chuàng)建一個字節(jié)數(shù)據(jù)的內存視圖，沒有做其他任何事。特別的，這時候并沒有任何的解包或者其他與結構相關的操作發(fā)生。這樣做的一個動機是你可能僅僅只對一個字節(jié)記錄的某一小部分感興趣。我們只需要解包你需要訪問的部分，而不是整個文件。

為了實現(xiàn)懶解包和打包，需要使用 StructField 描述器類。用戶在 _fields_ 中列出來的每個屬性都會被轉化成一個 StructField 描述器，它將相關結構格式碼和偏移值保存到存儲緩存中。元類 StructureMeta 在多個結構類被定義時自動創(chuàng)建了這些描述器。我們使用元類的一個主要原因是它使得用戶非常方便的通過一個高層描述就能指定結構格式，而無需考慮低層的細節(jié)問題。

StructureMeta 的一個很微妙的地方就是它會固定字節(jié)數(shù)據(jù)順序。也就是說，如果任意的屬性指定了一個字節(jié)順序(<表示低位優(yōu)先或者 >表示高位優(yōu)先)，那后面所有字段的順序都以這個順序為準。這么做可以幫助避免額外輸入，但是在定義的中間我們仍然可能切換順序的。比如，你可能有一些比較復雜的結構，就像下面這樣：

class ShapeFile(Structure):
    _fields_ = [ ('>i', 'file_code'), # Big endian
        ('20s', 'unused'),
        ('i', 'file_length'),
        ('<i', 'version'), # Little endian
        ('i', 'shape_type'),
        ('d', 'min_x'),
        ('d', 'min_y'),
        ('d', 'max_x'),
        ('d', 'max_y'),
        ('d', 'min_z'),
        ('d', 'max_z'),
        ('d', 'min_m'),
        ('d', 'max_m') ]

之前我們提到過，memoryview() 的使用可以幫助我們避免內存的復制。當結構存在嵌套的時候，memoryviews 可以疊加同一內存區(qū)域上定義的機構的不同部分。這個特性比較微妙，但是它關注的是內存視圖與普通字節(jié)數(shù)組的切片操作行為。如果你在一個字節(jié)字符串或字節(jié)數(shù)組上執(zhí)行切片操作，你通常會得到一個數(shù)據(jù)的拷貝。而內存視圖切片不是這樣的，它僅僅是在已存在的內存上面疊加而已。因此，這種方式更加高效。

還有很多相關的章節(jié)可以幫助我們擴展這里討論的方案。參考8.13小節(jié)使用描述器構建一個類型系統(tǒng)。8.10小節(jié)有更多關于延遲計算屬性值的討論，并且跟NestedStruct描述器的實現(xiàn)也有關。9.19小節(jié)有一個使用元類來初始化類成員的例子，和 StructureMeta 類非常相似。Python的 ctypes 源碼同樣也很有趣，它提供了對定義數(shù)據(jù)結構、數(shù)據(jù)結構嵌套這些相似功能的支持。

以上內容是否對您有幫助：

← 6.11 讀寫二進制數(shù)組數(shù)據(jù)

6.13 數(shù)據(jù)的累加與統(tǒng)計操作 →

寫筆記

我要補充

6.12 讀取嵌套和可變長二進制數(shù)據(jù)

問題

解決方案

討論

推薦文章

推薦教程

推薦課程