5.9 讀取二進(jìn)制數(shù)據(jù)到可變緩沖區(qū)中

2018-02-24 15:26 更新

問題

你想直接讀取二進(jìn)制數(shù)據(jù)到一個(gè)可變緩沖區(qū)中,而不需要做任何的中間復(fù)制操作?;蛘吣阆朐匦薷臄?shù)據(jù)并將它寫回到一個(gè)文件中去。

解決方案

為了讀取數(shù)據(jù)到一個(gè)可變數(shù)組中,使用文件對象的 readinto() 方法。比如:

import os.path

def read_into_buffer(filename):
    buf = bytearray(os.path.getsize(filename))
    with open(filename, 'rb') as f:
        f.readinto(buf)
    return buf

下面是一個(gè)演示這個(gè)函數(shù)使用方法的例子:

>>> # Write a sample file
>>> with open('sample.bin', 'wb') as f:
...     f.write(b'Hello World')
...
>>> buf = read_into_buffer('sample.bin')
>>> buf
bytearray(b'Hello World')
>>> buf[0:5] = b'Hallo'
>>> buf
bytearray(b'Hallo World')
>>> with open('newsample.bin', 'wb') as f:
...     f.write(buf)
...
11
>>>

討論

文件對象的 readinto() 方法能被用來為預(yù)先分配內(nèi)存的數(shù)組填充數(shù)據(jù),甚至包括由array模塊或numpy庫創(chuàng)建的數(shù)組。和普通 read() 方法不同的是,readinto() 填充已存在的緩沖區(qū)而不是為新對象重新分配內(nèi)存再返回它們。因此,你可以使用它來避免大量的內(nèi)存分配操作。比如,如果你讀取一個(gè)由相同大小的記錄組成的二進(jìn)制文件時(shí),你可以像下面這樣寫:

record_size = 32 # Size of each record (adjust value)

buf = bytearray(record_size)
with open('somefile', 'rb') as f:
    while True:
        n = f.readinto(buf)
        if n < record_size:
            break
        # Use the contents of buf
        ...

另外有一個(gè)有趣特性就是 memoryview ,它可以通過零復(fù)制的方式對已存在的緩沖區(qū)執(zhí)行切片操作,甚至還能修改它的內(nèi)容。比如:

>>> buf
bytearray(b'Hello World')
>>> m1 = memoryview(buf)
>>> m2 = m1[-5:]
>>> m2
<memory at 0x100681390>
>>> m2[:] = b'WORLD'
>>> buf
bytearray(b'Hello WORLD')
>>>

使用 f.readinto() 時(shí)需要注意的是,你必須檢查它的返回值,也就是實(shí)際讀取的字節(jié)數(shù)。

如果字節(jié)數(shù)小于緩沖區(qū)大小,表明數(shù)據(jù)被截?cái)嗷蛘弑黄茐牧?比如你期望每次讀取指定數(shù)量的字節(jié))。

最后,留心觀察其他函數(shù)庫和模塊中和 into 相關(guān)的函數(shù)(比如recv_into(),pack_into()等)。Python的很多其他部分已經(jīng)能支持直接的I/O或數(shù)據(jù)訪問操作,這些操作可被用來填充或修改數(shù)組和緩沖區(qū)內(nèi)容。

關(guān)于解析二進(jìn)制結(jié)構(gòu)和 memoryviews 使用方法的更高級例子,請參考6.12小節(jié)。

以上內(nèi)容是否對您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號
微信公眾號

編程獅公眾號