<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      擴(kuò)散模型

      擴(kuò)散模型源于物理學(xué),它最初是用于描述物質(zhì)擴(kuò)散的數(shù)學(xué)模型。 研究人員通過將擴(kuò)散模型與人工神經(jīng)網(wǎng)絡(luò)相結(jié)合,發(fā)現(xiàn)了它在圖像生 成領(lǐng)域的巨大潛力。

      1、擴(kuò)散模型是如何“擴(kuò)散”的

      擴(kuò)散模型是一類生成模型,它運(yùn)用了物理熱力學(xué)中的擴(kuò)散思想, 主要包括前向擴(kuò)散和反向擴(kuò)散兩個過程。
      1)前向過程
      前向過程是給數(shù)據(jù)添加噪聲的過程
      2)反向過程
      前向過程是將數(shù)據(jù)噪聲化的過程,反向過程則是“去噪”的過 程,即從隨機(jī)噪聲中迭代恢復(fù)出清晰數(shù)據(jù)的過程。
      3)優(yōu)化目標(biāo)
      擴(kuò)散模型預(yù)測的是噪聲殘差,即要求后向過程中預(yù)測的噪聲分布 與前向過程中施加的噪聲分布之間的“距離”最小。

      2、擴(kuò)散模型在圖像生成方面的技術(shù)迭 代與生態(tài)發(fā)展歷程

      擴(kuò)散模型從最初的簡單圖像生成模型,逐步發(fā)展到替代原有的圖 像生成模型,直到如今開啟AI作畫的時代,發(fā)展速度可謂驚人。
      1)開始擴(kuò)散:基礎(chǔ)擴(kuò)散模型的提出與改進(jìn)。
      在圖像生成領(lǐng)域,最早出現(xiàn)的擴(kuò)散模型是DDPM(于2020年提 出)。DDPM首次將“去噪”擴(kuò)散概率模型應(yīng)用到圖像生成任務(wù)中, 奠定了擴(kuò)散模型在圖像生成領(lǐng)域應(yīng)用的基礎(chǔ),包括擴(kuò)散過程定義、噪 聲分布假設(shè)、馬爾可夫鏈計算、隨機(jī)微分方程求解和損失函數(shù)表征 等,后面涌現(xiàn)的眾多擴(kuò)散模型都是在此基礎(chǔ)上進(jìn)行了不同種類的改 進(jìn)。
      2)加速生成:采樣器
      在擴(kuò)散模型中,圖像生成階段的速度和質(zhì)量是由采樣器控制 的,因此如何在保證生成質(zhì)量的前提下加快采樣是一個對擴(kuò)散模型而 言至關(guān)重要的問題。
      論 文 “Score-Based Generative Modeling through Stochastic Differential Equations”證明了DDPM的采樣過程是更 普遍的隨機(jī)微分方程,因此只要能夠更離散化地求解該隨機(jī)微分方 程,就可以將1000步的采樣過程縮減至50步、20步甚至更少的步 數(shù),從而極大地提高擴(kuò)散模型生成圖像的速度。
      3)刷新紀(jì)錄:基于顯式分類器引導(dǎo)的擴(kuò)散模型
      2021年5月以前,雖然擴(kuò)散模型已經(jīng)被應(yīng)用到圖像生成領(lǐng)域,但 它實(shí)際上在圖像生成領(lǐng)域并沒有“大紅大紫”,因?yàn)樵缙诘臄U(kuò)散模型 在 所 生 成 圖 像 的 質(zhì) 量 和 穩(wěn) 定 性 上 并 不 如 經(jīng) 典 的 生 成 模 型 GAN(Generative Adversarial Network,生成對抗網(wǎng)絡(luò)),真正讓擴(kuò)散模型開始在研究領(lǐng)域“爆火”的原因是論文“Diffusion Models Beat GANs on Image Synthesis”的發(fā)表。OpenAI的這篇論文貢獻(xiàn) 非常大,尤其是該文介紹了在擴(kuò)散過程中如何使用顯式分類器引導(dǎo)。
      4) 引 爆 網(wǎng) 絡(luò) : 基 于 CLIP ( Contrastive Language-Image Pretraining,對比語言-圖像預(yù)處理)的多模態(tài)圖像生成。
      CLIP是連接文本和圖像的模型,旨在將同一語義的文字和圖片轉(zhuǎn) 換到同一個隱空間中,例如文字“一個蘋果”和圖片“一個蘋果”。
      5)再次“出圈”:大模型的“再學(xué)習(xí)”方法—— DreamBooth、LoRA和ControlNet
      開源的Stable Diffusion這樣的擴(kuò)散模型已經(jīng)出色 地學(xué)習(xí)到非常多的圖像生成知識,因此不需要也沒有必要重新訓(xùn)練類 似的擴(kuò)散模型。于是,許多基于現(xiàn)有的擴(kuò)散模型進(jìn)行“再學(xué)習(xí)”的技 術(shù)自然而然地涌現(xiàn),這也使得個人在消費(fèi)級顯卡上訓(xùn)練自己的擴(kuò)散模 型成為可能。DreamBooth、LoRA和ControlNet是實(shí)現(xiàn)大模型“再 學(xué)習(xí)”的不同方法,它們是針對不同的任務(wù)而提出的。

      3、擴(kuò)散模型除了圖像生成領(lǐng)域之外的 其他應(yīng)用

      擴(kuò)散只是一種思想,擴(kuò)散模型也并非固定的深度網(wǎng)絡(luò)結(jié)構(gòu)。除此 之外,如果將擴(kuò)散的思想融入其他領(lǐng)域,擴(kuò)散模型同樣可以發(fā)揮重要 作用。
      在實(shí)際應(yīng)用中,擴(kuò)散模型最常見、最成熟的應(yīng)用就是完成圖像生 成任務(wù)。
      1)在計算機(jī)視覺2D方面的應(yīng)用
      ●圖像分割與目標(biāo)檢測
      在加入擴(kuò)散 的方法之后,就可以獲取更精準(zhǔn)的分割和檢測結(jié)果了。
      例如Meta AI 的SegDiff分割擴(kuò)散模型可以生成分割Mask圖,檢 測擴(kuò)散模型DiffusionDet同樣可以端到端地從隨機(jī)矩形框逐步生成檢 測框。不過,擴(kuò)散模型仍然存在生成速度慢的問 題,在應(yīng)用于一些需要實(shí)時檢測的場景時還需繼續(xù)優(yōu)化。
      ●圖像超分辨率。
      圖像超分辨率是一項(xiàng)能夠?qū)⒌头直媛蕡D像重建 為高分辨率圖像,同時保證圖像布局連貫的技術(shù)。CDM(Cascaded Diffusion Model,級聯(lián)擴(kuò)散模型)通過采用串聯(lián)多個擴(kuò)散模型的方 式,分級式地逐步放大分辨率,實(shí)現(xiàn)了圖像超分辨率。
      ●圖像修復(fù)、圖像翻譯和圖像編輯。
      圖像修復(fù)、圖像翻譯和圖像 編輯是對圖像的部分或全部區(qū)域執(zhí)行的操作,包括缺失部分修補(bǔ)、風(fēng) 格遷移、內(nèi)容替換等。。Palette是一個集成了圖像修復(fù)、圖像翻譯和圖 像編輯等功能的擴(kuò)散模型。
      2)時序數(shù)據(jù)預(yù)測
      時序數(shù)據(jù)預(yù)測旨在根據(jù)歷史觀測數(shù)據(jù)預(yù)測未來可能出現(xiàn)的數(shù)據(jù)。
      時序數(shù)據(jù)預(yù)測 同樣可以視為生成任務(wù),即基于歷史數(shù)據(jù)的基本條件來生成未來數(shù) 據(jù),因此擴(kuò)散模型也能發(fā)揮作用。TimeGrad是首個在多元概率時序數(shù)據(jù)預(yù)測任務(wù)中加入擴(kuò)散思想 的自回歸模型。
      3)自然語言
      自然語言領(lǐng)域也是人工智能的一個重要發(fā)展方向,旨在研究人類 語言與計算機(jī)通信的相關(guān)問題,最近“爆火”的ChatGPT就是一個自 然語言生成問答模型。
      擴(kuò)散模型同樣可以完成語言類的生成任務(wù)。只要將自然 語言類的句子分詞并轉(zhuǎn)換為詞向量之后,就可以通過擴(kuò)散的方法來學(xué) 習(xí)自然語言的語句生成,進(jìn)而完成自然語言領(lǐng)域一些更復(fù)雜的任務(wù), 如語言翻譯、問答對話、搜索補(bǔ)全、情感分析、文章續(xù)寫等。
      Diffusion-LM是首個將擴(kuò)散模型應(yīng)用到自然語言領(lǐng)域的擴(kuò)散語言 模型。
      4)基于文本的多模態(tài)
      多模態(tài)信息指的是多種數(shù)據(jù)類型的信息,包括文本、圖像、音/視 頻、3D物體等。
      在諸如 DALL-E 2和Stable Diffusion等圖像生成擴(kuò)散模型以及ChatGPT等語 言模型出現(xiàn)之后,多模態(tài)開始逐漸演變?yōu)榛谖谋竞推渌B(tài)的交 互,如文本生成圖像、文本生成視頻、文本生成3D等。
      ●文本生成圖像。文本生成圖像是擴(kuò)散模型最流行、最成熟的應(yīng) 用,輸入文本提示語或僅僅輸入幾個詞,擴(kuò)散模型就能根據(jù)文字描述 生成對應(yīng)的圖片。
      ●文本生成視頻。與文本生成圖像類似,文本生成視頻擴(kuò)散模型 能夠?qū)⑤斎氲奈谋咎崾菊Z轉(zhuǎn)換為相應(yīng)的視頻流。不同的是,視頻的前 后幀需要保持極佳的連貫性。
      ●文本生成3D。同樣,文本生成3D擴(kuò)散模型能夠?qū)⑤斎氲奈谋巨D(zhuǎn) 換為相應(yīng)的3D物體。稍有不同的是,3D物體的表征有多種方式,如 點(diǎn)云、網(wǎng)格、NeRF等。
      5)AI基礎(chǔ)科學(xué)
      擴(kuò)散模型對生成類的任務(wù)一直表現(xiàn)十分專業(yè),AI基礎(chǔ)科學(xué)中生成 預(yù)測類的研究當(dāng)然也少不了擴(kuò)散模型的參與。SMCDiff創(chuàng)建了一種擴(kuò) 散模型,該擴(kuò)散模型可以根據(jù)給定的模體結(jié)構(gòu)生成多樣化的支架蛋白 質(zhì)。

      擴(kuò)散模型之采樣過程
      如果我們從完全隨機(jī)的噪聲開始,就應(yīng)該先檢查一下模型的預(yù)測 結(jié)果,然后只朝著預(yù)測方向移動一小部分,比如20%。例如,假設(shè)我 們有一幅夾雜了很多噪聲的圖像,其中可能隱藏了一些有關(guān)輸入數(shù)據(jù) 結(jié)構(gòu)的提示,我們可以通過將它輸入模型來獲得新的預(yù)測結(jié)果。如果 新的預(yù)測結(jié)果比上一次的預(yù)測結(jié)果稍微好一點(diǎn)(這一次的輸入稍微減 少了一些噪聲),我們就可以根據(jù)這個新的、更好一點(diǎn)的預(yù)測結(jié)果繼 續(xù)往前邁出一步。
      擴(kuò)散模型之退化過程
      DDPM論文描述了一個在每個時間步都為輸入圖像添加少量噪聲 的退化過程。如果在某個時間步給定xt-1,就可以得到一個噪聲稍微 增強(qiáng)的xt

      我們并不想通過把 這個推演重復(fù)500次來得到x500,而是希望利用另一個公式,根據(jù)給 出的x0計算得到任意時刻t的xt

      BasicUNet與DDPM的區(qū)別

      1、UNet2DModel模型結(jié)構(gòu)相比BasicUNet模型結(jié)構(gòu)更先進(jìn)
      2、退化過程的處理方式不同。
      3、訓(xùn)練目標(biāo)不同,DDPM旨在預(yù)測噪聲而不是“去噪”的圖像
      4、UNet2DModel模型通過調(diào)節(jié)時間步來調(diào)節(jié)噪聲量,t作為一個 額外參數(shù)被傳入前向過程。
      5、有更多種類的采樣策略可供選擇,相比我們之前使用的簡單版 本更好。

      UNet2DModel模型的改進(jìn)

      1、GroupNorm層對每個模塊的輸入進(jìn)行了組標(biāo)準(zhǔn)化(group normalization)。
      2、Dropout層能使訓(xùn)練更平滑。
      3、每個塊有多個ResNet層(如果layers_per_block沒有被設(shè)置成 1)。
      4、引入了注意力機(jī)制(通常僅用于輸入分辨率較低的block)。
      5、可以對時間步進(jìn)行調(diào)節(jié)。
      6、具有可學(xué)習(xí)參數(shù)的上采樣模塊和下采樣模塊。
      Elucidating the Design Space of DiffusionBased Generative Models

      BasicUNet與UNet2DModel進(jìn)行對比實(shí)驗(yàn)

      1、實(shí)驗(yàn)一:利用模型預(yù)測不同程度噪聲影響的對比實(shí)驗(yàn)

      Input data: MNIST數(shù)據(jù)集中的8張圖片
      Corrupted data: 通過把Input data添加不同程度的噪聲(從左到右逐漸噪聲加重)
      UNet Predictions: 利用UNet模型預(yù)測結(jié)果
      UNet2DModel Predictions:利用UNet2DModel模型預(yù)測的結(jié)果

      2、實(shí)驗(yàn)二:利用模型預(yù)測隨機(jī)噪聲的對比實(shí)驗(yàn)

      UNet model input:初始利用隨機(jī)噪聲輸入,作為UNet模型預(yù)測的輸入數(shù)據(jù)
      UNet prediction:UNet 模型預(yù)測結(jié)果
      UNet2DModel input:
      初始也是利用隨機(jī)噪聲輸入(和UNet model input完全相同),作為UNet2DModel 模型的輸入
      UNet2DModel prediction:UNet2DModel模型預(yù)測結(jié)果

      生成擴(kuò)散模型研究綜述

      目前 較 為 主 流 的 生 成 模 型 主 要 有 生 成 對 抗 網(wǎng) 絡(luò) (GAN)、變 分 自 編 碼 器 (VAE)、基 于 流 的 模 型 (FlowG basedModels)和基于能量的模型(EBM)。
      生 成 對 抗 網(wǎng) 絡(luò) (GAN)
      馬爾科夫鏈:為狀態(tài)空間中經(jīng)過從一個狀態(tài)到另一個狀態(tài)的轉(zhuǎn)換的隨機(jī)過程。該過程要求具備“無記憶”的性質(zhì):下一狀態(tài)的概率分布只能由當(dāng)前狀態(tài)決定,在時間序列中它前面的事件均與之無關(guān)。這種特定類型的“無記憶性”稱作馬爾可夫性質(zhì)。

      納什均衡是指博弈中這樣的局面,對于每個參與者來說,只要其他人不改變策略,他就無法改善自己的狀況。

      GAN的基本原理(以生成圖片為例):
      一般而言,深度學(xué)習(xí)模型可以分為判別模型和生成模型。判別模型需要輸入變量,通過某種模型來預(yù)測;生成模型是給定某種隱含信息,來隨機(jī)產(chǎn)生觀測數(shù)據(jù)。
      假設(shè)有兩個網(wǎng)絡(luò)G(Generator)和D(Discriminator).它們的功能分別是:
      G是一個生成圖片的網(wǎng)絡(luò),它接受一個隨機(jī)的噪聲z,通過這個噪聲生成圖片,記作G(z);
      D是一個判別網(wǎng)絡(luò),判別一張圖片是不是“真實(shí)的”。它的輸入?yún)?shù)是x,x代表一張圖片,輸出D(x)代表x為真實(shí)圖片的概率。
      在訓(xùn)練過程中,生成網(wǎng)絡(luò)G的目標(biāo)就是盡量生成真實(shí)的圖片去欺騙網(wǎng)絡(luò)D。而D的目標(biāo)就是盡量把G生成的圖片和真實(shí)的圖片區(qū)分開來。這樣,G和D就構(gòu)成了一個動態(tài)的“博弈過程”。

      注意:
      1、生成模型和判別模型是完全獨(dú)立的兩個模型,它們之間沒有聯(lián)系,所以訓(xùn)練采用的大原則是單獨(dú)交替迭代訓(xùn)練。
      2、GAN的強(qiáng)大之處在于能自動學(xué)習(xí)原始真實(shí)樣本集的數(shù)據(jù)分布,不管這個分布多么復(fù)雜,只要訓(xùn)練的足夠好就可以學(xué)出來。

      變 分 自 編 碼 器 (VAE)

      基 于 流 的 模 型 (FlowG basedModels)

      基于能量的模型(EBM)

      posted on 2024-09-21 18:46  erdong911  閱讀(240)  評論(0)    收藏  舉報



      主站蜘蛛池模板: 亚洲欧美精品一中文字幕| 综合色在线| 国产色视频一区二区三区qq号| 亚洲精品国产av成人网| 777久久精品一区二区三区无码 | 外汇| 日本道高清一区二区三区| 小嫩批日出水无码视频免费| 97欧美精品系列一区二区| 乱码午夜-极品国产内射| 久久96热人妻偷产精品| 成人拍拍拍无遮挡免费视频| 亚洲天码中文字幕第一页| 中文字幕av无码免费一区| 国内少妇偷人精品免费| 人妻无码∧V一区二区| 人妻中文字幕精品系列| 欧美精品videosbestsex日本 | 无码 人妻 在线 视频| 日韩不卡一区二区三区四区| 成人乱码一区二区三区四区| 小嫩批日出水无码视频免费| 亚洲国产精品美日韩久久| 久久综合精品国产一区二区三区无| 国产精品综合一区二区三区| 日韩精品中文字幕有码| 亚洲国产欧美日韩另类| 韩国主播av福利一区二区| 亚洲国产成人无码电影| 日本丰满护士bbw| 日韩精品中文字幕国产一| 亚洲成色精品一二三区| 99久热在线精品视频| 久久人人妻人人爽人人爽| 日产国产一区二区不卡| 男男车车的车车网站w98免费| 久久夜色精品国产亚av| av一本久道久久综合久久鬼色| 国产成人综合久久亚洲精品| 亚洲熟妇色xxxxx亚洲| 亚洲精品中文综合第一页|