OpenAI API Parameter details

2023-03-21 14:19 更新

頻率和存在懲罰

Completions API 中發(fā)現(xiàn)的頻率和存在懲罰可用于降低對令牌重復(fù)序列進(jìn)行采樣的可能性。他們通過添加貢獻(xiàn)直接修改 logits(非標(biāo)準(zhǔn)化對數(shù)概率)來工作。

mu[j] -> mu[j] - c[j] * alpha_frequency - float(c[j] > 0) * alpha_presence

Where:

  • mu[j] 是第 j 個標(biāo)記的對數(shù)

  • c[j] 是在當(dāng)前位置之前對該令牌進(jìn)行采樣的頻率

  • 如果 c[j] > 0,則 float(c[j] > 0) 為 1,否則為 0

  • alpha_frequency 是頻率懲罰系數(shù)

  • alpha_presence 是存在懲罰系數(shù)

正如我們所見,存在懲罰是一種一次性的加性貢獻(xiàn),適用于所有至少被采樣過一次的標(biāo)記,而頻率懲罰是與特定標(biāo)記被采樣的頻率成正比的貢獻(xiàn)。

如果目標(biāo)只是稍微減少重復(fù)樣本,則懲罰系數(shù)的合理值約為 0.1 到 1。如果目標(biāo)是強(qiáng)烈抑制重復(fù),那么可以將系數(shù)增加到 2,但這會顯著降低樣本質(zhì)量。負(fù)值可用于增加重復(fù)的可能性。


以上內(nèi)容是否對您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號
微信公眾號

編程獅公眾號