App下載

InstantID:開(kāi)源AI寫(xiě)真生成工具的新星

萌傻卿 2024-02-02 14:54:58 瀏覽數(shù) (1734)
反饋

隨著人工智能技術(shù)的快速發(fā)展,AI寫(xiě)真生成工具成為了近年來(lái)備受關(guān)注的熱門(mén)話題之一。在GitHub上,一款名為InstantID的開(kāi)源AI寫(xiě)真生成工具近期引起了廣泛的關(guān)注和討論。開(kāi)源一周這款工具已經(jīng)獲得了5.4千顆星星,表明了開(kāi)發(fā)者和社區(qū)的高度認(rèn)可。

InstantID是什么?

InstantID 是一種新的、最先進(jìn)的、免調(diào)整的方法,只需一張圖像即可生成 ID 保留的生成。身份保留生成是指生成的圖像和數(shù)據(jù)保留原始人或主體的身份(ID)。簡(jiǎn)單來(lái)說(shuō),例如在生成人臉時(shí),它是一種確保生成的人臉看起來(lái)與原始人相同的技術(shù)。這使得可以在不丟失人的特征和個(gè)性的情況下生成新的圖像和數(shù)據(jù)。所有這一切只需一張圖像即可實(shí)現(xiàn)

applications

InstantID的設(shè)計(jì)旨在解決現(xiàn)有個(gè)性化圖像合成方法在實(shí)際應(yīng)用中的一些限制,例如高存儲(chǔ)需求、漫長(zhǎng)的微調(diào)過(guò)程以及需要多張參考圖像。InstantID不需要訓(xùn)練任何額外的模型,也不需要測(cè)試時(shí)的微調(diào),只需要一次前向推理,就能與社區(qū)中的流行的預(yù)訓(xùn)練文本到圖像的擴(kuò)散模型無(wú)縫集成,作為一個(gè)靈活的插件。

2

InstantID是一個(gè)來(lái)自中國(guó)的開(kāi)源項(xiàng)目,由InstantX團(tuán)隊(duì)開(kāi)發(fā)。主要的成員是小紅書(shū)的員工。

Snipaste_2024-02-02_14-38-36

InstantID是如何做到的?

InstantID 僅提供一張參考 ID 圖像,旨在從單個(gè)參考 ID 圖像生成具有各種姿勢(shì)或樣式的自定義圖像,同時(shí)確保高保真度。 它包含三個(gè)關(guān)鍵組件:

  • 捕獲強(qiáng)大的語(yǔ)義人臉信息的ID嵌入;
  • 具有解耦交叉注意力的輕量級(jí)適配模塊,便于使用圖像作為視覺(jué)提示;
  •  一個(gè) IdentityNet,它通過(guò)額外的空間控制對(duì)參考面部圖像中的詳細(xì)特征進(jìn)行編碼。

pipeline

幾個(gè)方面與以往不同:

  • 不訓(xùn)練UNet,因此可以保留原始文本到圖像模型的生成能力,并與社區(qū)中現(xiàn)有的預(yù)訓(xùn)練模型和ControlNets兼容;
  • 不需要測(cè)試時(shí)調(diào)優(yōu),所以對(duì)于一個(gè)特定的角色,不需要收集多張圖片進(jìn)行微調(diào),只需要對(duì)一張圖片進(jìn)行一次推斷;
  • 實(shí)現(xiàn)了更好的人臉保真度,并保留了文本的可編輯性。

compare-a

InstantID的效果非常驚艷,它能夠在各種風(fēng)格中生成高保真的個(gè)性化圖像,例如卡通、油畫(huà)、素描、動(dòng)漫、游戲等。用戶只需要輸入一張面部圖像和一段文本描述,就能得到滿意的結(jié)果。InstantID不僅能夠生成各種風(fēng)格的個(gè)性化圖像,還能夠保持文本的可編輯性,即用戶可以隨時(shí)修改文本描述,來(lái)改變圖像的生成效果。

editbility

InstantID 的創(chuàng)新之處

  • 人臉特征提?。?/b>InstantID 利用預(yù)訓(xùn)練的人臉編碼器,比如 InsightFace 的 antelopev 模型,來(lái)提取強(qiáng)語(yǔ)義的人臉特征,以增強(qiáng)圖像生成的語(yǔ)義準(zhǔn)確性。這樣,擴(kuò)散模型就能更好地識(shí)別和保留人臉的細(xì)節(jié),比如眼睛、鼻子、嘴巴等。
  • Cross-Attention 機(jī)制:InstantID 通過(guò)解耦的交叉注意力機(jī)制,將人臉特征作為 Image Prompt 嵌入,增強(qiáng)文本提示的效果,同時(shí)保持對(duì)生成圖像的精細(xì)控制。這樣,擴(kuò)散模型就能更好地根據(jù)文本的要求,來(lái)調(diào)整圖像的風(fēng)格,比如顏色、光照、背景等。
  • IdentityNet:InstantID 引入 IdentityNet 對(duì)人臉圖像進(jìn)行編碼,通過(guò)強(qiáng)語(yǔ)義和弱空間的條件控制,進(jìn)一步提升 ID 的保真度。IdentityNet 是一個(gè)可插拔的模塊,它可以和任何預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型兼容,而無(wú)需重新訓(xùn)練。

總結(jié)

InstantID作為一款開(kāi)源的AI寫(xiě)真生成工具,受到了廣泛的關(guān)注和認(rèn)可。對(duì)AI寫(xiě)真生成領(lǐng)域產(chǎn)生了積極的影響,推動(dòng)了技術(shù)的進(jìn)步、應(yīng)用的拓展和社會(huì)討論的展開(kāi)。隨著開(kāi)源社區(qū)的不斷發(fā)展和用戶需求的不斷增加,我們可以期待InstantID在未來(lái)的發(fā)展中發(fā)揮更大的作用,為用戶創(chuàng)造更多的可能性。


0 人點(diǎn)贊