W3Cschool
恭喜您成為首批注冊用戶
獲得88經(jīng)驗(yàn)值獎勵
Completions API 中發(fā)現(xiàn)的頻率和存在懲罰可用于降低對令牌重復(fù)序列進(jìn)行采樣的可能性。他們通過添加貢獻(xiàn)直接修改 logits(非標(biāo)準(zhǔn)化對數(shù)概率)來工作。
mu[j] -> mu[j] - c[j] * alpha_frequency - float(c[j] > 0) * alpha_presence
Where:
mu[j] 是第 j 個標(biāo)記的對數(shù)
c[j] 是在當(dāng)前位置之前對該令牌進(jìn)行采樣的頻率
如果 c[j] > 0,則 float(c[j] > 0) 為 1,否則為 0
alpha_frequency 是頻率懲罰系數(shù)
alpha_presence 是存在懲罰系數(shù)
正如我們所見,存在懲罰是一種一次性的加性貢獻(xiàn),適用于所有至少被采樣過一次的標(biāo)記,而頻率懲罰是與特定標(biāo)記被采樣的頻率成正比的貢獻(xiàn)。
如果目標(biāo)只是稍微減少重復(fù)樣本,則懲罰系數(shù)的合理值約為 0.1 到 1。如果目標(biāo)是強(qiáng)烈抑制重復(fù),那么可以將系數(shù)增加到 2,但這會顯著降低樣本質(zhì)量。負(fù)值可用于增加重復(fù)的可能性。
Copyright©2021 w3cschool編程獅|閩ICP備15016281號-3|閩公網(wǎng)安備35020302033924號
違法和不良信息舉報電話:173-0602-2364|舉報郵箱:jubao@eeedong.com
掃描二維碼
下載編程獅App
編程獅公眾號
聯(lián)系方式:
更多建議: