文本轉(zhuǎn)圖像模型的發(fā)展周期

2023-03-08 14:33 更新
文本轉(zhuǎn)圖像模型的發(fā)展周期歷時數(shù)年:
  • 2020年7月:OpenAI發(fā)文介紹Image GPT模型,將語言模型應(yīng)用到圖像領(lǐng)域。
  • 2022年3月:AI圖像生成平臺Midjourney啟動Beta版本測試。
  • 2022年4月:OpenAI宣布允許一定數(shù)量的用戶對其AI圖像生成工具DALL-E 2 進行“研究性試用”。
  • 2022年5月:Google以論文形式公布其文本-圖像生成模型Imagen,Imagen由PyTorch實現(xiàn)。
  • 2022年7月:OpenAI 通過UI/API開放DALL-E 2進行公開測試,參與公測的用戶須先進入等待名單。
  • 2022年7月:Midjourney通過Discord通訊平臺發(fā)布消息表示即將進行公開測試。
  • 2022年8月:文本-圖像生成模型Stable Diffusion發(fā)布,這是一款基于OpenRAIL-M許可的開源模型。
  • 2022年9月:OpenAI取消DALL-E 2的等待名單。
GPT-3從公布到被復(fù)制歷時10個月:
  • 2020年5月:OpenAI以論文形式公開GPT-3,并在隨后的6月發(fā)布了未公開的Beta版API。
  • 2020年7月:非營利開源研究組織EleutherAI成立,成為OpenAI的替代者。
  • 2020年9月:Microsoft獲得GPT-3的獨家授權(quán)。
  • 2021年1月:EleutherAI公布其800G數(shù)據(jù)集The Pile。
  • 2021年3月:EleutherAI公布了分別含13億和27億參數(shù)的兩版開源GPT-Neo模型(GPT-Neo是對GPT-3的克隆版)。
  • 2021年11月:OpenAI取消GPT-3的等待名單,開發(fā)人員可以直接報名使用其API。
  • 2022年5月:Meta公布大型語言模型OPT-175B,供研究人員使用,還公布了模型日志和開源許可證明。
  • 2022年6月:俄羅斯互聯(lián)網(wǎng)巨頭Yandex公布了YaLM-100B,這是一個基于Apache-2許可的類GPT開源模型。
  • 2022年7月:HuggingFace公開了BLOOM-176B,一個基于RAIL許可證明的大型語言模型。
GPT-2從公布到被復(fù)制歷時6個月:
  • 2019年2月,OpenAI宣布GPT-2誕生,為了避免模型遭到不良利用(如被用于制造虛假新聞等),當(dāng)時決定不將模型完全開源;3月,OpenAI放棄“非營利機構(gòu)”的定位,成立OpenAI LP(有限合伙公司),聲稱進入“有限營利”經(jīng)營模式。
  • 8月,兩名計算機碩士復(fù)制出GPT-2并將其對外公開,稱為OpenGPT-2。
  • 11月,經(jīng)過謹(jǐn)慎的分階段逐步公布,OpenAI終于完全開源了含15億參數(shù)的GPT-2模型。

上述時間線已經(jīng)過高度精簡,實際發(fā)展史還可追溯到2015年提出的擴散模型(Diffusion Model)、2017年提出的Transformer模型,以及更早之前對生成對抗網(wǎng)絡(luò)(GANs)的研究。

有趣的是,2022年9月,OpenAI基于MIT許可公開了其Whisper語音轉(zhuǎn)文本模型,并且不設(shè)置付費API。當(dāng)然,語音轉(zhuǎn)文本功能遭到不良利用的可能性較低,所以此類模型的開源風(fēng)險也更低,但也有觀點認(rèn)為,OpenAI此次的開源決定是受到Stable Diffusion開源后爆紅的影響。


以上內(nèi)容是否對您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號
微信公眾號

編程獅公眾號