tf.nn.fixed_unigram_candidate_sampler函數(shù)
tf.nn.fixed_unigram_candidate_sampler(
true_classes,
num_true,
num_sampled,
unique,
range_max,
vocab_file='',
distortion=1.0,
num_reserved_ids=0,
num_shards=1,
shard=0,
unigrams=(),
seed=None,
name=None
)
定義在:tensorflow/python/ops/candidate_sampling_ops.py.
請參閱指南:神經(jīng)網(wǎng)絡(luò)>候選采樣
使用提供的(固定)基本分布對一組類進(jìn)行采樣.
該操作從整數(shù)范圍[0,range_max]中隨機(jī)采樣一個(gè)采樣類(sampled_candidates)的張量.
sampling_candidates的元素是在沒有替換 (如果unique = True) 或替換 (如果unique = False) 的基礎(chǔ)分布中繪制的.
基本分布從文件中讀取或作為內(nèi)存中數(shù)組傳入.還可以通過對權(quán)重應(yīng)用distortion power(失真功率)來扭曲分布.
此外,此操作返回張量true_expected_count和sampled_expected_count,表示每個(gè)目標(biāo)類(true_classes)和采樣類(sampled_candidates)預(yù)期在平均張量的采樣類中出現(xiàn)的次數(shù).如果unique=True,則這些是拒絕后的概率,我們大致計(jì)算它們.
參數(shù):
- true_classes:一個(gè)int64類型的Tensor,具有shape [batch_size, num_true].目標(biāo)類.
- num_true:int,每個(gè)訓(xùn)練示例的目標(biāo)類數(shù).
- num_sampled:int,隨機(jī)抽樣的類數(shù).
- unique:bool,確定批處理中的所有采樣類是否都是唯一的.
- range_max:int,可能的類數(shù).
- vocab_file:此文件中的每個(gè)有效行(應(yīng)具有類似CSV的格式)對應(yīng)于有效的單詞ID.ID從num_reserved_ids開始按順序排列.每行中的最后一個(gè)條目應(yīng)該是對應(yīng)于計(jì)數(shù)或相對概率的值.vocab_file和unigrams中的一個(gè)需要傳遞給此操作.
- distortion:distortion(失真)用于扭曲unigram概率分布.在添加到內(nèi)部unigram分布之前,首先將每個(gè)權(quán)重提升到失真的冪.結(jié)果,distortion = 1.0給出常規(guī)的unigram采樣(由vocab文件定義),并且distortion = 0.0給出均勻分布.
- num_reserved_ids:可選的,用戶可以在范圍[0, num_reserved_ids)內(nèi)添加一些保留ID.一個(gè)用例是使用特殊的未知單詞令牌作為ID 0.這些ID的抽樣概率為0.
- num_shards:采樣器可用于從原始范圍的子集中進(jìn)行采樣,以便通過并行性加速整個(gè)計(jì)算.此參數(shù)(與shard一起)表示在整體計(jì)算中使用的分區(qū)數(shù).
- shard:采樣器可用于從原始范圍的子集中進(jìn)行采樣,以便通過并行性加速整個(gè)計(jì)算.此參數(shù)(與num_shards一起)表示使用分區(qū)時(shí)操作的特定分區(qū)號.
- unigrams:unigram計(jì)數(shù)或概率的列表,按順序每個(gè)ID一個(gè).應(yīng)該將vocab_file和unigrams中的一個(gè)傳遞給此操作.
- seed:int,特定于操作的種子.默認(rèn)值為0.
- name:操作的名稱(可選).
返回:
- sampled_candidates:int64類型和shape [num_sampled]的張量,抽樣類.
- true_expected_count:float類型的張量,shape與true_classes相同.每個(gè)true_classes的采樣分布下的預(yù)期計(jì)數(shù).
- sampled_expected_count:float類型的張量.shape與sampled_candidates相同.每個(gè)sampled_candidates的采樣分布下的預(yù)期計(jì)數(shù).
更多建議: