閱讀(20.3k) 書簽贊(0) 我要糾錯

將數(shù)據(jù)導入TensorFlow

2019-01-31 18:02 更新

注意：將數(shù)據(jù)導入到 TensorFlow 程序的首選方法是使用數(shù)據(jù)集 API。

另外還有三種方法可以將數(shù)據(jù)導入到 TensorFlow 程序中：

Feeding：Python的代碼在運行每個步驟時提供數(shù)據(jù)。
從文件讀取：輸入管道從 TensorFlow 圖的開始處讀取文件中的數(shù)據(jù)。
預(yù)加載數(shù)據(jù)：TensorFlow 圖中的常量或變量保存所有數(shù)據(jù)(對于小型數(shù)據(jù)集)。

Feeding

TensorFlow 的 feed 機制允許您在計算圖中向任何張量注入數(shù)據(jù)。因此，python 計算可以直接將數(shù)據(jù)導入到圖中。

通過 feed_dict 參數(shù)向啟動計算的 run() 或 eval () 調(diào)用提供 feed 數(shù)據(jù)。

注意：“Feeding” 是將數(shù)據(jù)傳送到 TensorFlow 程序的最有效的方式，只能用于小型實驗和調(diào)試。

with tf.Session():
  input = tf.placeholder(tf.float32)
  classifier = ...
  print(classifier.eval(feed_dict={input: my_python_preprocessing_fn()}))

雖然可以使用 Feed 數(shù)據(jù)(包括變量和常量)替換任何 Tensor，但最佳做法是使用 tf.placeholder 節(jié)點。placeholder(占位符)只是作為 feed 的目標存在。它未初始化，不包含任何數(shù)據(jù)如果占位符在沒有 Feed 的情況下執(zhí)行，則會產(chǎn)生錯誤,因此您不會忘記將其遺忘。

在 tensorflow/examples/tutorials/mnist/fully_connected_feed.py 中可以找到在 MNIST 數(shù)據(jù)上使用占位符和 Feeding 訓練的示例，并在 MNIST 教程中進行了說明。

從文件導入

從文件導入記錄的典型管道有以下幾個階段：

文件名列表
可選文件名洗牌
可選時期限制
文件名隊列
用于文件格式的讀取器
讀者用于讀取記錄的解碼器
可選預(yù)處理
示例隊列

注意：本節(jié)討論使用基于隊列的API實現(xiàn)輸入管道，該 API 可以被 ${$datasets$Dataset API} 完整地替換。

文件名,shuffling 和 epoch 限制

對于文件名列表，請使用常量字符串張量(如["file0", "file1"]或[("file%d" % i) for i in range(2)])或函數(shù)：tf.train.match_filenames_once。

將文件名列表傳遞給 tf.train.string_input_producer 函數(shù)。string_input_producer 創(chuàng)建一個 FIFO 隊列，用于保存文件名，直到讀取器需要它們?yōu)橹埂?/p>

string_input_producer 有選擇的 shuffling 和設(shè)置一個最大的 epoch 數(shù)。隊列運行程序為每個 epoch 將文件名的整個列表添加到隊列中一次,如果洗牌 = True，則在一個 epoch 中重新排列文件名。此過程提供了一個統(tǒng)一的文件取樣，以便相對于彼此不會對示例進行低估或過度采樣。

隊列運行程序在與從隊列中抽取文件名的讀取器分開的線程中工作，因此，shuffling 和 enqueuing 進程不會阻止讀取器。

文件格式

選擇與您的輸入文件格式相匹配的讀取器,并將文件名隊列傳遞給讀取器的讀取方法。read 方法輸出一個標識文件和記錄的密鑰 (如果有一些奇怪的記錄，則對調(diào)試有用) 和一個標量字符串值，使用一個 (或多個) 解碼器和轉(zhuǎn)換 ops 將此字符串解碼為構(gòu)成示例的張量。

1、CSV 文件

若要以逗號分隔值 (CSV) 格式讀取文本文件，請使用 tf.TextLineReader 與 tf.decode_csv 操作。例如：

filename_queue = tf.train.string_input_producer(["file0.csv", "file1.csv"])

reader = tf.TextLineReader()
key, value = reader.read(filename_queue)

# Default values, in case of empty columns. Also specifies the type of the
# decoded result.
record_defaults = [[1], [1], [1], [1], [1]]
col1, col2, col3, col4, col5 = tf.decode_csv(
    value, record_defaults=record_defaults)
features = tf.stack([col1, col2, col3, col4])

with tf.Session() as sess:
  # Start populating the filename queue.
  coord = tf.train.Coordinator()
  threads = tf.train.start_queue_runners(coord=coord)

  for i in range(1200):
    # Retrieve a single instance:
    example, label = sess.run([features, col5])

  coord.request_stop()
  coord.join(threads)

每次讀取的執(zhí)行都從文件中讀取一行。然后，decode_csv 操作將結(jié)果解析為張量列表。該 record_defaults 參數(shù)確定生成的張量的類型，并設(shè)置在輸入字符串中缺少值時要使用的默認值。

在調(diào)用 run 或 eval 執(zhí)行讀取之前，必須調(diào)用 tf.train.start_queue_runners 來填充隊列。否則，讀取將在等待隊列中的文件名時阻止。

2、固定長度記錄

要讀取每條記錄是固定字節(jié)數(shù)的二進制文件，請使用 tf.FixedLengthRecordReader 與 tf. decode_raw 操作.decode_raw 操作從一個字符串轉(zhuǎn)換為 uint8 張量。

例如，CIFAR-10 數(shù)據(jù)集使用一種文件格式，其中每個記錄使用固定的字節(jié)數(shù)表示：1 字節(jié)的標簽,后跟3072字節(jié)的圖像數(shù)據(jù)。一旦你有一個 uint8 張量，標準操作可以分割出每一塊和并根據(jù)需要重新格式化。對于 CIFAR-10，您可以在 tensorflow_models/tutorials/image/cifar10/cifar10_input.py 中了解如何進行閱讀和解碼，并在本教程中介紹。

3、標準 TensorFlow 格式

另一種方法是將您擁有的任何數(shù)據(jù)轉(zhuǎn)換為受支持的格式。這種方法使混合和匹配數(shù)據(jù)集和網(wǎng)絡(luò)體系結(jié)構(gòu)變得更加容易。TensorFlow 的推薦格式是包含 tf.train.Example 協(xié)議緩沖區(qū) (包含作為字段的功能) 的 TFRecords 文件。您編寫了一個小程序來獲取您的數(shù)據(jù)，將它放在一個示例協(xié)議緩沖區(qū)中，將協(xié)議緩沖區(qū)序列化為一個字符串，然后使用 tf. python_io. TFRecordWriter 將該字符串寫入 TFRecords 文件。例如，tensorflow/examples/how_tos/reading_data/convert_to_records.py 將 MNIST 數(shù)據(jù)轉(zhuǎn)換為此格式。

要讀取 TFRecords 的文件，請使用 tf.TFRecordReader 與 tf. parse_single_example 解碼器.parse_single_example 操作將示例協(xié)議緩沖區(qū)解碼為張量。使用 convert_to_records 生成的數(shù)據(jù)的 MNIST 示例可以在 tensorflow/examples/how_tos/reading_data/fully_connected_reader.py 中找到。您可以與 fully_connected_feed 版本進行比較。

預(yù)處理

然后，您可以對所需的這些示例進行任何預(yù)處理。這將是任何不依賴于訓練參數(shù)的處理.示例包括數(shù)據(jù)正?；⑦x擇隨機切片、增加噪聲或失真等。有關(guān)示例，請參見 tensorflow_models/tutorials/image/cifar10/cifar10_input.py。

批處理

在管道的最后,我們使用另一個隊列來為訓練，評估或推斷一起批處理示例。為此，我們使用一個隨機化的示例順序的隊列：tf.train.shuffle_batch。

例：

def read_my_file_format(filename_queue):
  reader = tf.SomeReader()
  key, record_string = reader.read(filename_queue)
  example, label = tf.some_decoder(record_string)
  processed_example = some_processing(example)
  return processed_example, label

def input_pipeline(filenames, batch_size, num_epochs=None):
  filename_queue = tf.train.string_input_producer(
      filenames, num_epochs=num_epochs, shuffle=True)
  example, label = read_my_file_format(filename_queue)
  # min_after_dequeue defines how big a buffer we will randomly sample
  #   from -- bigger means better shuffling but slower start up and more
  #   memory used.
  # capacity must be larger than min_after_dequeue and the amount larger
  #   determines the maximum we will prefetch.  Recommendation:
  #   min_after_dequeue + (num_threads + a small safety margin) * batch_size
  min_after_dequeue = 10000
  capacity = min_after_dequeue + 3 * batch_size
  example_batch, label_batch = tf.train.shuffle_batch(
      [example, label], batch_size=batch_size, capacity=capacity,
      min_after_dequeue=min_after_dequeue)
  return example_batch, label_batch

如果您需要在文件之間進行更多的并行性或示例的 shuffling，請使用多個讀取器實例 tf.train.shuffle_batch_join。例如：

def read_my_file_format(filename_queue):
  # Same as above

def input_pipeline(filenames, batch_size, read_threads, num_epochs=None):
  filename_queue = tf.train.string_input_producer(
      filenames, num_epochs=num_epochs, shuffle=True)
  example_list = [read_my_file_format(filename_queue)
                  for _ in range(read_threads)]
  min_after_dequeue = 10000
  capacity = min_after_dequeue + 3 * batch_size
  example_batch, label_batch = tf.train.shuffle_batch_join(
      example_list, batch_size=batch_size, capacity=capacity,
      min_after_dequeue=min_after_dequeue)
  return example_batch, label_batch

您仍然只能使用由所有讀取器共享的單個文件名隊列.這樣,我們確保不同的讀取器使用不同的文件從同一個 epoch，直到所有的 epoch 文件已經(jīng)開始。(通常只需一個線程填充文件名隊列即可。)

另一種方法是使用 num_threads 大于1的 tf.train.shuffle_batch 的單一讀取器。這將使它同時從單個文件中讀取 (但速度比使用1線程快),而不是同時讀 N 個文件.這可能很重要：

如果您有更多的讀取線程而不是輸入文件，則可以避免有兩個線程在彼此附近的同一文件中讀取同一示例的風險。
或者如果并行讀取 N 個文件會導致過多的磁盤尋找。

您需要多少個線程？tf.train.shuffle_batch* 函數(shù)向關(guān)系圖中添加一個摘要，以指示示例隊列的完整程度。如果有足夠的讀取線程，該摘要將保持在零以上。您可以使用TensorBoard 查看您的摘要作為培訓進度。

創(chuàng)建線程以使用 QueueRunner 對象進行預(yù)取

簡短的版本：tf. train 上面列出的許多函數(shù)將 tf.train.QueueRunner 對象添加到圖形中。這些要求您在運行任何培訓或推理步驟之前調(diào)用 tf.train.start_queue_runners，否則它將永遠掛起.這將啟動運行輸入管道的線程,填充示例隊列，以使得出列獲得示例的成功。這與 tf.train.Coordinator 很好的結(jié)合，可以在發(fā)生錯誤的時候，快捷地關(guān)閉這些線程時。如果您對 epoch 的數(shù)量設(shè)置了限制，那么將使用需要初始化的 epoch 計數(shù)器。建議的代碼模式組合如下：

# Create the graph, etc.
init_op = tf.global_variables_initializer()

# Create a session for running operations in the Graph.
sess = tf.Session()

# Initialize the variables (like the epoch counter).
sess.run(init_op)

# Start input enqueue threads.
coord = tf.train.Coordinator()
threads = tf.train.start_queue_runners(sess=sess, coord=coord)

try:
    while not coord.should_stop():
        # Run training steps or whatever
        sess.run(train_op)

except tf.errors.OutOfRangeError:
    print('Done training -- epoch limit reached')
finally:
    # When done, ask the threads to stop.
    coord.request_stop()

# Wait for threads to finish.
coord.join(threads)
sess.close()

這里發(fā)生了什么？

首先，我們創(chuàng)建圖形。它將有幾個通過隊列連接的管道階段.第一階段將生成文件名，以便在文件名隊列中讀取和排隊它們。第二階段使用文件名 (讀取器)，生成示例，并將其排入示例隊列。根據(jù)您設(shè)置內(nèi)容的方式，您可能實際上擁有第二個階段的一些獨立副本，以便可以并行讀取多個文件。在這些階段的結(jié)束時，是一個排隊操作，排入隊列，下一個隊列出隊。我們要啟動運行這些入隊操作的線程，以便我們的訓練循環(huán)可以從示例隊列中出示示例。

在 tf. train 中創(chuàng)建這些隊列和入隊操作的幫助器使用 tf.train.add_queue_runner 函數(shù)向圖形添加 tf.train.QueueRunner。每個 QueueRunner 負責一個階段,并保存需要在線程中運行的入隊操作的列表。一旦構(gòu)造了圖形，tf.train.start_queue_runners 函數(shù)就會要求圖中的每個 QueueRunner 開始運行進行操作的線程。

如果一切順利，您現(xiàn)在可以運行您的培訓步驟，并且隊列將由后臺線程填充。如果你已經(jīng)設(shè)置了一個 epoch 的限制，在某些時候試圖出示的例子將得到一個 tf.errors.OutOfRangeError。這是 TensorFlow 相當于 "文件結(jié)束" (EOF)——這意味著已經(jīng)達到了 epoch 限制,沒有更多的示例可用。

最后是 tf.train.Coordinator。這是負責讓所有線程知道有沒有發(fā)出關(guān)閉信號。最常見的情況是，這是因為引發(fā)了一個異常，例如，其中一個線程在運行某項操作 (或一個普通的 Python 異常) 時發(fā)生了錯誤。

有關(guān)線程,隊列，QueueRunners 和 Coordinators 的更多信息,請參見此處。

當限制 epochs 的工作時,如何清除關(guān)閉

想象一下，你有一個模型，它對訓練的 epoch 數(shù)設(shè)定了限制。這意味著生成文件名的線程只會在生成 OutOfRange 錯誤之前運行多次。QueueRunner 將捕獲該錯誤,關(guān)閉文件名隊列，然后退出該線程.關(guān)閉隊列有兩點注意項：

任何將來在文件名隊列中排隊的嘗試都將會產(chǎn)生錯誤。在這一點上,不應(yīng)該有任何線程嘗試這樣做，但是當隊列由于其他錯誤而關(guān)閉時,這是有用的。
任何當前或未來的出隊都將立即成功(如果剩下足夠的元素)或失敗(OutOfRange 錯誤)。他們不會阻止等待更多的元素被排隊，因為之前的一點不可能發(fā)生。

關(guān)鍵是,當文件名隊列關(guān)閉時，該隊列中可能仍有許多文件名，因此，管道的下一階段 (讀取器和其他預(yù)處理) 可能會繼續(xù)運行一段時間。不過，一旦文件名隊列被耗盡，下一次嘗試將一個文件名排隊 (例如,從已完成文件的讀取器讀取) 將觸發(fā) OutOfRange 錯誤。但是，在這種情況下，您可能有多個與單個 QueueRunner 關(guān)聯(lián)的線程。如果這不是 QueueRunner 中的最后一個線程，則 OutOfRange 錯誤只會導致一個線程退出。這允許其他線程，它們?nèi)匀煌瓿伤麄兊淖詈笠粋€文件，繼續(xù)前進，直到他們也完成。(假設(shè)您正在使用的是 tf.train.Coordinator，其他類型的錯誤將導致所有線程停止。一旦所有讀取器線程都命中了 OutOfRange 錯誤，則只有下一個隊列 (即示例隊列) 才會關(guān)閉。

同樣，示例隊列將有一些元素排隊，因此訓練將繼續(xù)進行，直到耗盡為止。如果示例隊列是 tf.RandomShuffleQueue，因為你使用 shuffle_batch 或 shuffle_batch_join，它通常會避免比其 min_after_dequeue 緩沖的 attr 元素少。但是，一旦隊列關(guān)閉，將取消限制，并且隊列最終將為空。在這一點上，實際的訓練線程，當他們嘗試從示例隊列中出隊時，將開始獲得 OutOfRange 錯誤并且退出。一旦所有的訓練線程完成，tf.train.Coordinator.join 將返回，你可以徹底退出。

篩選記錄或每個記錄生成多個示例

與形狀 [x、y、z] 的示例相反，您將生成一批具有形狀 [batch、x、y、z] 的示例。如果要將此記錄過濾(也許它在保留集合中)，則批量大小可以為0；如果您每個記錄生成多個示例，則大于1。然后在調(diào)用一個批處理函數(shù) (如 shuffle_batch 或 shuffle_batch_join) 時，簡單地設(shè)置 enqueue_many = True。

稀疏輸入數(shù)據(jù)

SparseTensors(稀疏傳感器)不能很好地排隊。如果您使用 SparseTensors，則必須在批處理后使用 tf parse_example 對字符串記錄進行解碼 (而不是在批處理之前使用 tf. parse_single_example).

預(yù)加載數(shù)據(jù)

這僅用于可以完全加載到內(nèi)存中的小型數(shù)據(jù)集.有兩種方法：

將數(shù)據(jù)存儲在常量中
將數(shù)據(jù)存儲在變量中，并將其初始化 (或分配),然后再不更改

使用常數(shù)有點簡單，但是會使用更多的內(nèi)存(因為常量在圖形數(shù)據(jù)結(jié)構(gòu)中是內(nèi)聯(lián)存儲的,這可能會重復幾次)。

training_data = ...
training_labels = ...
with tf.Session():
  input_data = tf.constant(training_data)
  input_labels = tf.constant(training_labels)
  ...

要使用變量，您還需要在構(gòu)建圖形之后對其進行初始化。

training_data = ...
training_labels = ...
with tf.Session() as sess:
  data_initializer = tf.placeholder(dtype=training_data.dtype,
                                    shape=training_data.shape)
  label_initializer = tf.placeholder(dtype=training_labels.dtype,
                                     shape=training_labels.shape)
  input_data = tf.Variable(data_initializer, trainable=False, collections=[])
  input_labels = tf.Variable(label_initializer, trainable=False, collections=[])
  ...
  sess.run(input_data.initializer,
           feed_dict={data_initializer: training_data})
  sess.run(input_labels.initializer,
           feed_dict={label_initializer: training_labels})

設(shè)置 trainable = False 將變量從圖中的 GraphKeys TRAINABLE_VARIABLES 集合中保留出來，這樣我們就不會在訓練時嘗試更新它.設(shè)置 collections = [] 將變量保留在用于保存和還原檢查點的 GraphKeys. GLOBAL_VARIABLES 集合中。

無論哪種方式，tf.train.slice_input_producer 都可以用于一次生成 slice。這個 shuffles 的例子可以在整個 epoch 中使用，所以進一步 shuffling 時，batching 是不可取的。因此，我們不使用 shuffle_batch 函數(shù)，而是使用普通的 tf.train.batch 函數(shù).要使用多個預(yù)處理線程，請將 num_threads 參數(shù)設(shè)置為大于1的數(shù)字。

用于預(yù)先加載使用常量數(shù)據(jù)的 MNIST 例子可以在 tensorflow/examples/how_tos/reading_data/fully_connected_preloaded.py 找到，而一個用于預(yù)先加載使用變量的數(shù)據(jù)的 MNIST 例子可以在 tensorflow/examples/how_tos/reading_data/fully_connected_preloaded_var.py 找到，您可以將這些與上面的 fully_connected_feed 和 fully_connected_reader 版本進行比較。

多個輸入管道

通常,您將希望在一個數(shù)據(jù)集上進行訓練，并對另一個數(shù)據(jù)集進行評估 (或 "eval")。實現(xiàn)這一目標的一個方法是實際上有兩個不同的圖形和會話,可能在不同的進程中：

訓練過程讀取訓練輸入數(shù)據(jù)，并定期將檢查點文件寫入所有經(jīng)過訓練的變量。
評估過程將檢查點文件還原為讀取驗證輸入數(shù)據(jù)的推理模型。

這是在 CIFAR-10 示例中完成的估計和手動操作.這有幾個好處：

eval 是在訓練變量的單個快照上執(zhí)行的
即使在訓練完成并退出后，您也可以執(zhí)行評估(eval)

您可以在同一進程中的同一圖形中進行訓練和評估(eval),并共享他們訓練的變量或?qū)?請參閱共享變量教程。
為了支持 single-graph(單圖) 方法,數(shù)據(jù)集還提供了高級迭代器類型，允許用戶在不重建圖或會話的情況下更改輸入管道。

您可以在同一個過程中的同一個圖表中列出列車和eval，并分享訓練有素的變量或?qū)?請參閱共享變量教程。

為了支持單圖方法，Datasets還提供了高級迭代器類型，允許用戶在不重建圖形或會話的情況下更改輸入管道。

注意：無論執(zhí)行情況如何，許多操作(如$ {tf.layers.batch_normalization}和 tf.layers.dropout)都需要知道他們是否處于訓練或評估模式,如果更改數(shù)據(jù)源,則必須小心設(shè)置。

以上內(nèi)容是否對您有幫助：

← TensorFlow 包裝python函數(shù)

TensorFlow 函數(shù)介紹 →

寫筆記

我要補充