Copyright
前言
第一章：數(shù)據(jù)結(jié)構(gòu)和算法
1. 1.1 解壓序列賦值給多個變量
2. 1.2 解壓可迭代對象賦值給多個變量
3. 1.3 保留最后N個元素
4. 1.4 查找最大或最小的N個元素
5. 1.5 實現(xiàn)一個優(yōu)先級隊列
6. 1.6 字典中的鍵映射多個值
7. 1.7 字典排序
8. 1.8 字典的運算
9. 1.9 查找兩字典的相同點
10. 1.10 刪除序列相同元素并保持順序
11. 1.11 命名切片
12. 1.12 序列中出現(xiàn)次數(shù)最多的元素
13. 1.13 通過某個關(guān)鍵字排序一個字典列表
14. 1.14 排序不支持原生比較的對象
15. 1.15 通過某個字段將記錄分組
16. 1.16 過濾序列元素
17. 1.17 從字典中提取子集
18. 1.18 映射名稱到序列元素
19. 1.19 轉(zhuǎn)換并同時計算數(shù)據(jù)
20. 1.20 合并多個字典或映射
第二章：字符串和文本
1. 2.1 使用多個界定符分割字符串
2. 2.2 字符串開頭或結(jié)尾匹配
3. 2.3 用Shell通配符匹配字符串
4. 2.4 字符串匹配和搜索
5. 2.5 字符串搜索和替換
6. 2.6 字符串忽略大小寫的搜索替換
7. 2.7 最短匹配模式
8. 2.8 多行匹配模式
9. 2.9 將Unicode文本標(biāo)準(zhǔn)化
10. 2.10 在正則式中使用Unicode
11. 2.11 刪除字符串中不需要的字符
12. 2.12 審查清理文本字符串
13. 2.13 字符串對齊
14. 2.14 合并拼接字符串
15. 2.15 字符串中插入變量
16. 2.16 以指定列寬格式化字符串
17. 2.17 在字符串中處理html和xml
18. 2.18 字符串令牌解析
19. 2.19 實現(xiàn)一個簡單的遞歸下降分析器
20. 2.20 字節(jié)字符串上的字符串操作
第三章：數(shù)字日期和時間
1. 3.1 數(shù)字的四舍五入
2. 3.2 執(zhí)行精確的浮點數(shù)運算
3. 3.3 數(shù)字的格式化輸出
4. 3.4 二八十六進(jìn)制整數(shù)
5. 3.5 字節(jié)到大整數(shù)的打包與解包
6. 3.6 復(fù)數(shù)的數(shù)學(xué)運算
7. 3.7 無窮大與NaN
8. 3.8 分?jǐn)?shù)運算
9. 3.9 大型數(shù)組運算
10. 3.10 矩陣與線性代數(shù)運算
11. 3.11 隨機選擇
12. 3.12 基本的日期與時間轉(zhuǎn)換
13. 3.13 計算最后一個周五的日期
14. 3.14 計算當(dāng)前月份的日期范圍
15. 3.15 字符串轉(zhuǎn)換為日期
16. 3.16 結(jié)合時區(qū)的日期操作
第四章：迭代器與生成器
1. 4.1 手動遍歷迭代器
2. 4.2 代理迭代
3. 4.3 使用生成器創(chuàng)建新的迭代模式
4. 4.4 實現(xiàn)迭代器協(xié)議
5. 4.5 反向迭代
6. 4.6 帶有外部狀態(tài)的生成器函數(shù)
7. 4.7 迭代器切片
8. 4.8 跳過可迭代對象的開始部分
9. 4.9 排列組合的迭代
10. 4.10 序列上索引值迭代
11. 4.11 同時迭代多個序列
12. 4.12 不同集合上元素的迭代
13. 4.13 創(chuàng)建數(shù)據(jù)處理管道
14. 4.14 展開嵌套的序列
15. 4.15 順序迭代合并后的排序迭代對象
16. 4.16 迭代器代替while無限循環(huán)
第五章：文件與IO
1. 5.1 讀寫文本數(shù)據(jù)
2. 5.2 打印輸出至文件中
3. 5.3 使用其他分隔符或行終止符打印
4. 5.4 讀寫字節(jié)數(shù)據(jù)
5. 5.5 文件不存在才能寫入
6. 5.6 字符串的I/O操作
7. 5.7 讀寫壓縮文件
8. 5.8 固定大小記錄的文件迭代
9. 5.9 讀取二進(jìn)制數(shù)據(jù)到可變緩沖區(qū)中
10. 5.10 內(nèi)存映射的二進(jìn)制文件
11. 5.11 文件路徑名的操作
12. 5.12 測試文件是否存在
13. 5.13 獲取文件夾中的文件列表
14. 5.14 忽略文件名編碼
15. 5.15 打印不合法的文件名
16. 5.16 增加或改變已打開文件的編碼
17. 5.17 將字節(jié)寫入文本文件
18. 5.18 將文件描述符包裝成文件對象
19. 5.19 創(chuàng)建臨時文件和文件夾
20. 5.20 與串行端口的數(shù)據(jù)通信
21. 5.21 序列化Python對象
第六章：數(shù)據(jù)編碼和處理
1. 6.1 讀寫CSV數(shù)據(jù)
2. 6.2 讀寫JSON數(shù)據(jù)
3. 6.3 解析簡單的XML數(shù)據(jù)
4. 6.4 增量式解析大型XML文件
5. 6.5 將字典轉(zhuǎn)換為XML
6. 6.6 解析和修改XML
7. 6.7 利用命名空間解析XML文檔
8. 6.8 與關(guān)系型數(shù)據(jù)庫的交互
9. 6.9 編碼和解碼十六進(jìn)制數(shù)
10. 6.10 編碼解碼Base64數(shù)據(jù)
11. 6.11 讀寫二進(jìn)制數(shù)組數(shù)據(jù)
12. 6.12 讀取嵌套和可變長二進(jìn)制數(shù)據(jù)
13. 6.13 數(shù)據(jù)的累加與統(tǒng)計操作
第八章：類與對象
1. 8.1 改變對象的字符串顯示
2. 8.2 自定義字符串的格式化
3. 8.3 讓對象支持上下文管理協(xié)議
4. 8.4 創(chuàng)建大量對象時節(jié)省內(nèi)存方法
5. 8.5 在類中封裝屬性名
6. 8.6 創(chuàng)建可管理的屬性
7. 8.7 調(diào)用父類方法
8. 8.8 子類中擴展property

第七章：函數(shù)

第九章：元編程

第十章：模塊與包

第十一章：網(wǎng)絡(luò)與Web編程

第十二章：并發(fā)編程

第十三章：腳本編程與系統(tǒng)管理

第十四章：測試調(diào)試和異常

第十五章：C語言擴展

附錄A

關(guān)于譯者

Roadmap

閱讀(45.6k) 書簽贊(0) 我要糾錯

6.11 讀寫二進(jìn)制數(shù)組數(shù)據(jù)

2018-02-24 15:26 更新

問題

你想讀寫一個二進(jìn)制數(shù)組的結(jié)構(gòu)化數(shù)據(jù)到Python元組中。

解決方案

可以使用 struct 模塊處理二進(jìn)制數(shù)據(jù)。下面是一段示例代碼將一個Python元組列表寫入一個二進(jìn)制文件，并使用 struct 將每個元組編碼為一個結(jié)構(gòu)體。

from struct import Struct
def write_records(records, format, f):
    '''
    Write a sequence of tuples to a binary file of structures.
    '''
    record_struct = Struct(format)
    for r in records:
        f.write(record_struct.pack(*r))

# Example
if __name__ == '__main__':
    records = [ (1, 2.3, 4.5),
                (6, 7.8, 9.0),
                (12, 13.4, 56.7) ]
    with open('data.b', 'wb') as f:
        write_records(records, '<idd', f)

有很多種方法來讀取這個文件并返回一個元組列表。首先，如果你打算以塊的形式增量讀取文件，你可以這樣做：

from struct import Struct

def read_records(format, f):
    record_struct = Struct(format)
    chunks = iter(lambda: f.read(record_struct.size), b'')
    return (record_struct.unpack(chunk) for chunk in chunks)

# Example
if __name__ == '__main__':
    with open('data.b','rb') as f:
        for rec in read_records('<idd', f):
            # Process rec
            ...

如果你想將整個文件一次性讀取到一個字節(jié)字符串中，然后在分片解析。那么你可以這樣做：

from struct import Struct

def unpack_records(format, data):
    record_struct = Struct(format)
    return (record_struct.unpack_from(data, offset)
            for offset in range(0, len(data), record_struct.size))

# Example
if __name__ == '__main__':
    with open('data.b', 'rb') as f:
        data = f.read()
    for rec in unpack_records('<idd', data):
        # Process rec
        ...

兩種情況下的結(jié)果都是一個可返回用來創(chuàng)建該文件的原始元組的可迭代對象。

討論

對于需要編碼和解碼二進(jìn)制數(shù)據(jù)的程序而言，通常會使用 struct 模塊。為了聲明一個新的結(jié)構(gòu)體，只需要像這樣創(chuàng)建一個 Struct 實例即可：

# Little endian 32-bit integer, two double precision floats
record_struct = Struct('<idd')

結(jié)構(gòu)體通常會使用一些結(jié)構(gòu)碼值i, d, f等 [參考 Python文檔 ]。這些代碼分別代表某個特定的二進(jìn)制數(shù)據(jù)類型如32位整數(shù)，64位浮點數(shù)，32位浮點數(shù)等。第一個字符<指定了字節(jié)順序。在這個例子中，它表示”低位在前”。更改這個字符為>表示高位在前，或者是!表示網(wǎng)絡(luò)字節(jié)順序。

產(chǎn)生的 Struct 實例有很多屬性和方法用來操作相應(yīng)類型的結(jié)構(gòu)。size 屬性包含了結(jié)構(gòu)的字節(jié)數(shù)，這在I/O操作時非常有用。pack() 和 unpack() 方法被用來打包和解包數(shù)據(jù)。比如：

>>> from struct import Struct
>>> record_struct = Struct('<idd')
>>> record_struct.size
20
>>> record_struct.pack(1, 2.0, 3.0)
b'\x01\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00@\x00\x00\x00\x00\x00\x00\x08@'
>>> record_struct.unpack(_)
(1, 2.0, 3.0)
>>>

有時候你還會看到 pack() 和 unpack() 操作以模塊級別函數(shù)被調(diào)用，類似下面這樣：

>>> import struct
>>> struct.pack('<idd', 1, 2.0, 3.0)
b'\x01\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00@\x00\x00\x00\x00\x00\x00\x08@'
>>> struct.unpack('<idd', _)
(1, 2.0, 3.0)
>>>

這樣可以工作，但是感覺沒有實例方法那么優(yōu)雅，特別是在你代碼中同樣的結(jié)構(gòu)出現(xiàn)在多個地方的時候。通過創(chuàng)建一個 Struct 實例，格式代碼只會指定一次并且所有的操作被集中處理。這樣一來代碼維護(hù)就變得更加簡單了(因為你只需要改變一處代碼即可)。

讀取二進(jìn)制結(jié)構(gòu)的代碼要用到一些非常有趣而優(yōu)美的編程技巧。在函數(shù)　read_records 中，iter() 被用來創(chuàng)建一個返回固定大小數(shù)據(jù)塊的迭代器，參考5.8小節(jié)。這個迭代器會不斷的調(diào)用一個用戶提供的可調(diào)用對象(比如 lambda: f.read(record_struct.size) )，直到它返回一個特殊的值(如b'‘)，這時候迭代停止。例如：

>>> f = open('data.b', 'rb')
>>> chunks = iter(lambda: f.read(20), b'')
>>> chunks
<callable_iterator object at 0x10069e6d0>
>>> for chk in chunks:
... print(chk)
...
b'\x01\x00\x00\x00ffffff\x02@\x00\x00\x00\x00\x00\x00\x12@'
b'\x06\x00\x00\x00333333\x1f@\x00\x00\x00\x00\x00\x00"@'
b'\x0c\x00\x00\x00\xcd\xcc\xcc\xcc\xcc\xcc*@\x9a\x99\x99\x99\x99YL@'
>>>

如你所見，創(chuàng)建一個可迭代對象的一個原因是它能允許使用一個生成器推導(dǎo)來創(chuàng)建記錄。如果你不適用這種技術(shù)，那么代碼可能會像下面這樣：

def read_records(format, f):
    record_struct = Struct(format)
    while True:
        chk = f.read(record_struct.size)
        if chk == b'':
            break
        yield record_struct.unpack(chk)

在函數(shù) unpack_records() 中使用了另外一種方法 unpack_from() 。unpack_from() 對于從一個大型二進(jìn)制數(shù)組中提取二進(jìn)制數(shù)據(jù)非常有用，因為它不會產(chǎn)生任何的臨時對象或者進(jìn)行內(nèi)存復(fù)制操作。你只需要給它一個字節(jié)字符串(或數(shù)組)和一個字節(jié)偏移量，它會從那個位置開始直接解包數(shù)據(jù)。

如果你使用 unpack() 來代替 unpack_from() ，你需要修改代碼來構(gòu)造大量的小的切片以及進(jìn)行偏移量的計算。比如：

def unpack_records(format, data):
    record_struct = Struct(format)
    return (record_struct.unpack(data[offset:offset + record_struct.size])
            for offset in range(0, len(data), record_struct.size))

這種方案除了代碼看上去很復(fù)雜外，還得做很多額外的工作，因為它執(zhí)行了大量的偏移量計算，復(fù)制數(shù)據(jù)以及構(gòu)造小的切片對象。如果你準(zhǔn)備從讀取到的一個大型字節(jié)字符串中解包大量的結(jié)構(gòu)體的話，unpack_from() 會表現(xiàn)的更出色。

在解包的時候，collections 模塊中的命名元組對象或許是你想要用到的。它可以讓你給返回元組設(shè)置屬性名稱。例如：

from collections import namedtuple

Record = namedtuple('Record', ['kind','x','y'])

with open('data.p', 'rb') as f:
    records = (Record(*r) for r in read_records('<idd', f))

for r in records:
    print(r.kind, r.x, r.y)

如果你的程序需要處理大量的二進(jìn)制數(shù)據(jù)，你最好使用 numpy 模塊。例如，你可以將一個二進(jìn)制數(shù)據(jù)讀取到一個結(jié)構(gòu)化數(shù)組中而不是一個元組列表中。就像下面這樣：

>>> import numpy as np
>>> f = open('data.b', 'rb')
>>> records = np.fromfile(f, dtype='<i,<d,<d')
>>> records
array([(1, 2.3, 4.5), (6, 7.8, 9.0), (12, 13.4, 56.7)],
dtype=[('f0', '<i4'), ('f1', '<f8'), ('f2', '<f8')])
>>> records[0]
(1, 2.3, 4.5)
>>> records[1]
(6, 7.8, 9.0)
>>>

最后提一點，如果你需要從已知的文件格式(如圖片格式，圖形文件，HDF5等)中讀取二進(jìn)制數(shù)據(jù)時，先檢查看看Python是不是已經(jīng)提供了現(xiàn)存的模塊。因為不到萬不得已沒有必要去重復(fù)造輪子。

以上內(nèi)容是否對您有幫助：

← 6.10 編碼解碼Base64數(shù)據(jù)

6.12 讀取嵌套和可變長二進(jìn)制數(shù)據(jù) →

寫筆記

我要補充

6.11 讀寫二進(jìn)制數(shù)組數(shù)據(jù)

問題

解決方案

討論

推薦文章

推薦教程

推薦課程