TensorFlow函數(shù)教程:tf.nn.fixed_unigram_candidate_sampler

2019-01-31 13:48 更新

tf.nn.fixed_unigram_candidate_sampler函數(shù)

tf.nn.fixed_unigram_candidate_sampler(
    true_classes,
    num_true,
    num_sampled,
    unique,
    range_max,
    vocab_file='',
    distortion=1.0,
    num_reserved_ids=0,
    num_shards=1,
    shard=0,
    unigrams=(),
    seed=None,
    name=None
)

定義在:tensorflow/python/ops/candidate_sampling_ops.py.

請參閱指南:神經(jīng)網(wǎng)絡(luò)>候選采樣

使用提供的(固定)基本分布對一組類進(jìn)行采樣.

該操作從整數(shù)范圍[0,range_max]中隨機(jī)采樣一個(gè)采樣類(sampled_candidates)的張量.

sampling_candidates的元素是在沒有替換 (如果unique = True) 或替換 (如果unique = False) 的基礎(chǔ)分布中繪制的.

基本分布從文件中讀取或作為內(nèi)存中數(shù)組傳入.還可以通過對權(quán)重應(yīng)用distortion power(失真功率)來扭曲分布.

此外,此操作返回張量true_expected_count和sampled_expected_count,表示每個(gè)目標(biāo)類(true_classes)和采樣類(sampled_candidates)預(yù)期在平均張量的采樣類中出現(xiàn)的次數(shù).如果unique=True,則這些是拒絕后的概率,我們大致計(jì)算它們.

參數(shù):

  • true_classes:一個(gè)int64類型的Tensor,具有shape [batch_size, num_true].目標(biāo)類.
  • num_true:int,每個(gè)訓(xùn)練示例的目標(biāo)類數(shù).
  • num_sampled:int,隨機(jī)抽樣的類數(shù).
  • unique:bool,確定批處理中的所有采樣類是否都是唯一的.
  • range_max:int,可能的類數(shù).
  • vocab_file:此文件中的每個(gè)有效行(應(yīng)具有類似CSV的格式)對應(yīng)于有效的單詞ID.ID從num_reserved_ids開始按順序排列.每行中的最后一個(gè)條目應(yīng)該是對應(yīng)于計(jì)數(shù)或相對概率的值.vocab_file和unigrams中的一個(gè)需要傳遞給此操作.
  • distortion:distortion(失真)用于扭曲unigram概率分布.在添加到內(nèi)部unigram分布之前,首先將每個(gè)權(quán)重提升到失真的冪.結(jié)果,distortion = 1.0給出常規(guī)的unigram采樣(由vocab文件定義),并且distortion = 0.0給出均勻分布.
  • num_reserved_ids:可選的,用戶可以在范圍[0, num_reserved_ids)內(nèi)添加一些保留ID.一個(gè)用例是使用特殊的未知單詞令牌作為ID 0.這些ID的抽樣概率為0.
  • num_shards:采樣器可用于從原始范圍的子集中進(jìn)行采樣,以便通過并行性加速整個(gè)計(jì)算.此參數(shù)(與shard一起)表示在整體計(jì)算中使用的分區(qū)數(shù).
  • shard:采樣器可用于從原始范圍的子集中進(jìn)行采樣,以便通過并行性加速整個(gè)計(jì)算.此參數(shù)(與num_shards一起)表示使用分區(qū)時(shí)操作的特定分區(qū)號.
  • unigrams:unigram計(jì)數(shù)或概率的列表,按順序每個(gè)ID一個(gè).應(yīng)該將vocab_file和unigrams中的一個(gè)傳遞給此操作.
  • seed:int,特定于操作的種子.默認(rèn)值為0.
  • name:操作的名稱(可選).

返回:

  • sampled_candidates:int64類型和shape [num_sampled]的張量,抽樣類.
  • true_expected_count:float類型的張量,shape與true_classes相同.每個(gè)true_classes的采樣分布下的預(yù)期計(jì)數(shù).
  • sampled_expected_count:float類型的張量.shape與sampled_candidates相同.每個(gè)sampled_candidates的采樣分布下的預(yù)期計(jì)數(shù).
以上內(nèi)容是否對您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號
微信公眾號

編程獅公眾號