Stable Diffusion 術語表
Stable Diffusion 術語表
說明
文中術語來自以上地址翻譯中文版
| 術語 | 標簽 | 描述 |
|---|---|---|
| .ckpt | 模型 | 發音為“checkpoint”,是一種由 PyTorch Lightning(PyTorch 研究框架)創建的文件格式。它包含一個 PyTorch Lightning 機器學習模型(通過 Stable Diffusion)用于生成圖像。 |
| .pt | 軟件 | 使用PyTorch 創建的機器學習模型文件,包含用于自動執行任務的算法。 |
| .Safetensors | 模型 | 用于檢查點模型的文件格式,不太容易受到嵌入式惡意代碼的影響。參見“Pickle” |
| AGI | 概念 | 通用人工智能(AGI),人工智能達到或超過人類智能的程度。 |
| API | 軟件 | 應用程序編程接口-一組函數和工具,允許與軟件片段或在軟件片段之間進行交互。 |
| Auto-GPT | 軟件 LLM | |
| Automatic1111 | 開發 SD用戶界面 | 社區名人,流行的 SD WebUI 圖形用戶界面的創建者。 |
| Bard | 軟件 | 谷歌的聊天機器人,基于他們的 LaMDA 模型。 |
| Bing | 軟件 | Microsoft 的 ChatGTP 支持聊天機器人。 |
| CFG | 設置 | 分類器自由指導,有時是“Guidance Scale”。控制圖像生成過程遵循文本提示的程度。 |
| Checkpoint | 模型 | 這是對從網絡上多個來源抓取的數百萬張帶字幕圖像進行訓練的產物。該文件驅動Stable Diffusion的txt2img、img2img、txt2video |
| Civitai (Civitai.com) | 社區資源 | 檢查點模型、Hypernets、文本反轉 Embeddings 的托管站點。美學漸變和VAE文件。 |
| CLIP | 軟件 | OpenAI 創建的開源模型。經過數百萬張圖像和標題的訓練,它決定了特定標題描述圖像的程度。 |
| Cmdr2 | 開發 SD用戶界面 | 社區名人,流行的 EasyDiffusion 一鍵安裝 SD 圖形用戶界面的創建者。 |
| CodeFormer | 人臉/圖像恢復 | 面部圖像修復模型,用于修復模糊、顆粒狀或毀容的面部。 |
| Colab | 社區資源 組織 | Colaboratory,谷歌研究的一個產品,允許 通過瀏覽器執行Python代碼。特別適合機器學習應用。https://colab.research.google.com/ |
| ComfyUI | SD用戶界面 | 一個流行的強大的模塊化 UI,用于穩定擴散,具有“工作流”類型的工作空間。比 Auto1111 WebUI 更復雜 https://github.com/comfyanonymous/ComfyUI |
| CompVis | 組織 | 慕尼黑路德維希馬克西米利安大學計算機視覺與學習研究小組。他們在 Hugging Face 上托管穩定擴散模型。 |
| Conda | 應用 軟件 | 適用于多種編程語言(包括 Python)的開源包管理器。 |
| ControlNet | 用戶界面擴展 | Auto1111 WebUI 的擴展,允許以多種方式操作圖像。 https://github.com/Mikubill/sd-webui-controlnet |
| Convergence | 概念 | 隨著圖像生成過程中步驟的增加,圖像開始看起來越來越相似。Convergence 是圖像生成中圖像不再隨著步長的增加而變化的點。 |
| CUDA | 硬件 軟件 | 計算統一設備架構,Nvdia 的并行處理架構。 |
| DALL-E / DALL-E 2 | 組織 | 由 OpenAI 創建的深度學習圖像模型,可作為商業圖像生成服務使用。 |
| Danbooru Tag | 社區資源 | 應用于 Danbooru 圖像的關鍵字系統,描述其中的內容。當使用在 Danbooru 圖像上訓練的 Checkpoint 模型時,您可以在提示中引用這些關鍵字。 |
| DDIM (Sampler) | 采集器 | 去噪 Diffusion 隱式模型。請參閱采樣器。 |
| Deep Learning | 概念 | 機器學習的一種,神經網絡試圖模仿人腦的行為來執行任務。 |
| Deforum | 社區資源 界面擴展 | 一個由人工智能圖像合成開發人員、愛好者和藝術家組成的社區,生產生成式人工智能工具。最常見的是同名的 Stable Diffusion WebUI 視頻擴展。 |
| Denoising/Diffusion | 概念 | 將隨機噪聲(參見 Seed)迭代減少到最終圖像的過程。 |
| depth2img | 概念 | 推斷輸入圖像的深度(使用現有模型),然后使用文本和深度信息生成新圖像。 |
| Diffusion Model (DM) | 模型 | 生成模型,用于生成與訓練數據類似的數據。 |
| DPM adaptive (Sampler) | 采集器 | 擴散概率模型(Adaptive 自適應)。請參閱 Samplers(采樣器) 。忽略步數。 |
| DPM Fast (Sampler) | 采集器 | 擴散概率模型(Fast快速)。請參閱 Samplers(采樣器)。 |
| DPM++ 2M (Sampler) | 采集器 | 擴散概率模型 - 多步驟。在 15-20 個步驟內即可產生高質量的結果。 |
| DPM++ 2M Karras (Sampler) | 采集器 | 擴散概率模型 - 多步驟。在 15-20 個步驟內即可產生高質量的結果。 |
| DPM++ 2S a Karras (Sampler) | 采集器 | 擴散概率模型 - 多步驟。在 15-20 個步驟內即可產生高質量的結果。 |
| DPM++ 2Sa (Sampler) | 采集器 | 擴散概率模型 - 多步驟。在 15-20 個步驟內即可產生高質量的結果。 |
| DPM++ SDE (Sampler) | 采集器 | |
| DPM++ SDE Karras (Sampler) | 采集器 | |
| DPM2 (Sampler) | 采集器 | |
| DPM2 a (Sampler) | 采集器 | |
| DPM2 a Karras (Sampler) | 采集器 | |
| DPM2 Karras (Sampler) | 采集器 | |
| DreamArtist | 軟件 界面擴展 SD 用戶界面 | WebUI的一種擴展,允許用戶創建經過訓練的嵌入,以將圖像定向到特定的樣式或圖形。研究論文DreamArtist:towards Contrastive One Shot Text-to-image Generation via Contractive Prompt Tuning的PyTorch實現,董子怡,魏鵬旭,林亮。 |
| DreamBooth | 社區資源 界面擴展 軟件 | DreamBooth 由 Google 研究人員開發,是一種深度學習圖像生成模型,旨在微調現有模型(檢查點)。可用于基于一組圖像創建自定義模型。 |
| DreamStudio | 組織 | Stability AI 使用 Stable Diffusion 模型創建的基于網絡的商業圖像生成服務。 |
| EMA | 模型 | 指數移動平均線。完整的 EMA 檢查點模型包含推理(生成圖像)不需要的額外訓練數據。完整的 EMA 模型可用于進一步訓練檢查點。 |
| Emad | 組織 開發 | Emad Mostaque,Stability AI 的首席執行官兼聯合創始人,該公司是 Stable Diffusion 背后的公司之一。 |
| Embedding | 概念 | 其他文件輸入可幫助指導擴散模型生成與提示匹配的圖像。可以是圖形樣式、人或物體的表示。請參閱 Textual Inversion 和 Aesthetic Gradient。 支持鏈接 |
| Entropy | 概念 | 隨機性或無序性的度量。 支持鏈接 |
| Epoch | 概念 | 模型訓練過程查看完整圖像數據集的次數。例如。檢查點模型的第 5 個 Epoc 對同一圖像數據集進行了五次查看。 |
| ESRGAN | 界面擴展 Upscaler | 增強的超分辨率生成對抗網絡。一種從較低分辨率圖像重建較高分辨率圖像的技術。例如。將 720p 圖像升級為 1080p。作為 WebUI 和 SD UI 中的工具實現。 |
| Euler (Sampler) | 采集器 | 以 Leonhard Euler 命名,是一種求解常微分方程的數值過程,請參閱采樣器。 |
| Euler a (Sampler) | 采集器 | 歐拉采樣器的祖先版本。以 Leonhard Euler 命名,是一種求解常微分方程的數值過程,請參閱采樣器。 |
| f111 | 模型 | Zeipher AI 的流行檢查點模型。產生優秀的女性形態,NSFW。 |
| f222 | 模型 | Zeipher AI 的流行檢查點模型。產生優秀的女性形態,NSFW。 |
| float16 | 設置 模型 | 半精度浮點數。請參閱鏈接。 |
| float32 | 設置 模型 | 全精度浮點數。請參閱鏈接。 |
| Generative AI | 概念 軟件 | 人工智能的一種形式,可以使事物(圖像、文本、音頻、視頻等) |
| GFPGAN | 人臉/圖像恢復 | Generative Facial Prior,一種面部修復模型,用于修復模糊、顆粒狀或毀容的面部。 |
| Git (GitHub) | 應用 軟件 | 用于軟件開發、版本控制、錯誤跟蹤、文檔的托管服務。 |
| GPT-3 | 模型 | 生成式預訓練 Transformer 3,一種語言模型,使用機器學習根據初始提示生成類似人類的文本。 |
| GPT-4 | 模型 | 生成式預訓練 Transformer 4,一種語言模型,使用機器學習根據初始提示生成類似人類的文本。與 GPT 3/3.5 相比,性能和推理能力有了巨大飛躍。 |
| GPU | 硬件 | 圖形處理單元,一種設計用于執行快速數學計算的處理器,允許其渲染圖像和視頻以進行顯示。 |
| Gradio | 軟件 | 基于網絡瀏覽器的界面框架,專門用于機器學習應用程序。 Auto1111 WebUI 在 Gradio 界面中運行。 |
| Hallucinations (LLM) | AI LLM 概念 | 有時,像 ChatGPT 這樣的 LLM 模型會產生聽起來似乎有道理但實際上毫無意義或完全錯誤的信息。這稱為幻覺。 |
| Hash (Checkpoint model) | 模型 概念 | 一種驗證文件完整性的算法,通過生成所述文件的唯一字母數字字符串。檢查點模型是哈希的,生成的字符串可以用于標識該模型。例如,Ally 的混合總是哈希c77ef05d。 |
| Heun (Sampler) | 采集器 | 以 Karl Heun 命名,是一種求解常微分方程的數值過程。請參閱采樣器。 |
| Hugging Face | 組織 | 一個社區/數據科學平臺,提供構建、訓練和部署機器學習模型的工具。 |
| Hypernetwork (Hypernet) | 模型 | 一種根據自身內容(無需外部數據)引導 Checkpoint 模型走向特定主題、對象或角色的方法。 |
| img2img | 根據輸入圖像和 txt2img 提示生成新圖像的過程。 | |
| Inpainting | 設置 概念 | 基于繪制的蒙版刪除或替換圖像中的對象的做法。 |
| LAION | 組織 | 一個非營利組織,為機器學習研究提供數據集、工具和模型。 |
| LAION-5B | 模型 | 用于研究目的的大型數據集,由 58.5 億個 CLIP 過濾的圖像文本對組成。 |
| Lanczos | 設置 Upscaler | 用于計算采樣數據的新值的插值方法。在本例中,用于升級圖像。以創始人科尼利厄斯·蘭佐斯 (Cornelius Lanczos) 的名字命名。 |
| Large Language Model (LLM) | LLM AI | 一種學習書寫和與用戶對話的神經網絡。經過數十億篇文本的訓練,LLM擅長生成連貫的句子,并在正確的上下文中回答提示。他們可以執行諸如重寫和總結文本、談論各種主題和進行研究等任務。 |
| Latent Diffusion | 模型 | 一種擴散模型,包含壓縮圖像表示而不是實際圖像。這種類型的模型允許存儲大量數據,編碼器可以使用這些數據從文本或圖像輸入重建圖像。 |
| Latent Mirroring | 概念 界面擴展 | 將鏡像應用于生成中期的潛像,以產生從微妙平衡的構圖到完美反射的任何效果。 |
| Latent Space | 概念 | 信息密集的空間,擴散模型的圖像表示、注意力和變換被合并,形成擴散過程的初始噪聲。 |
| LDSR | 設置 Upscaler | 潛在擴散超分辨率升級。一種增加圖像尺寸/質量的方法。 |
| Lexica | 社區資源 | Lexica.art,穩定擴散藝術和提示的搜索引擎。 |
| LlamaIndex (GPT Index) | LLM 軟件 | https://github.com/jerryjliu/llama_index - 允許通過生成的“索引”將文本數據連接到 LLM。 |
| LLM | LLM | 一種學習書寫和與用戶對話的神經網絡。經過數十億篇文本的訓練,LLM擅長生成連貫的句子,并在正確的上下文中回答提示。他們可以執行諸如重寫和總結文本、談論各種主題和進行研究等任務。 |
| LMS (Sampler) | 采集器 | |
| LMS Karras (Sampler) | 采集器 | |
| LoCON | 模型 | |
| LoRA | 模型 概念 | Low-Rank Adaptation,一種 SD 訓練方法,很像文本反轉。與傳統的微調相比,可以捕捉風格和主題,在更短的時間內使用更小的輸出文件產生更好的結果。 |
| Merge (Checkpoint) | 模型 | 將檢查點模型組合(合并)以形成新模型的過程。根據合并方法(參見加權求和、Sigmoid)和乘法器,合并模型將保留其組成模型的不同特征。 |
| Metadata | 概念 軟件 | 元數據是描述數據的數據。在穩定擴散的上下文中,元數據通常用于描述提示、采樣器設置、CFG、步驟等,這些用于定義圖像,并存儲在 .png 標頭中。 |
| MidJourney | 組織 | 一種基于網絡的商業圖像生成服務,類似于 DALL-E,或免費、開源的 Stable Diffusion。 |
| Model | 模型 | 檢查點的替代術語 |
| Negative Prompt | 設置 | 告訴穩定擴散的關鍵字會提示我們在生成的圖像中不希望看到的內容。 |
| Neural Network | 概念 軟件 | 數學系統的作用類似于人腦,具有多層人工“神經元”,有助于發現數據之間的聯系。 |
| Notebook | 社區資源 | 參見 Colab。 Jupyter 筆記本服務免費提供對包括 GPU 在內的計算資源的訪問。 |
| NovelAI (NAI) | 組織 | 一項基于付費、訂閱的人工智能輔助故事(文本)寫作服務。還有一個 txt2img 模型,該模型已被泄露,現在已合并到許多穩定擴散模型中。 |
| Olivio (Sarikas) | 社區資源 | Olivio 在 YouTube 上制作精彩的標清內容 (https://www.youtube.com/@OlivioSarikas) - 最好的SD 新聞 YouTuber 之一! |
| OpenAI | 組織 | 人工智能研究實驗室由營利性公司 OpenAI LP 和非營利性 OpenAI Inc. 組成。 |
| OpenPose | 模型軟件 | 一種從人的圖像中提取“骨架”的方法,允許姿勢從一個圖像轉移到另一個圖像。由 ControlNet 使用。 |
| Outpainting | 設置 概念 | 將圖像的外邊框延伸到空白畫布空間,同時保持圖像的風格和內容的做法。 |
| Parameters (LLMs) | 概念 軟件 | 大型語言模型訓練數據中的數值點。參數決定了模型執行任務的熟練程度。例如。 6B(十億)參數模型的性能可能不如 13B 參數模型。 |
| Pickle | 軟件 概念 | 社區俚語,指隱藏在模型和嵌入中的潛在惡意代碼。 “pickled”是指在您的計算機上執行不需要的代碼(被黑客攻擊)。 |
| PLMS (Sampler) | 采集器 | 預先訓練的語言模型。請參閱采樣器。 |
| Prompt | 設置 | 穩定擴散的文本輸入描述您想要輸出的圖像的細節。 |
| Pruned | 模型 | 一種優化檢查點模型以提高推理速度(提示生成)、文件大小和 VRAM 成本的方法。 |
| Python | 應用 | 一種流行的高級通用編碼語言。 |
| PyTorch | 應用 | 由 META 創建的開源機器學習庫。 |
| Questianon | 社區資源 開發 | 流行的 SD Resource Goldmine 的作者 - https://rentry.org/sdupdates |
| Real-ESRGAN | 縮放 | 一種圖像恢復方法。 |
| SadTalker | 采集器 | https://github.com/OpenTalker/SadTalker 基于音頻輸入的面部動畫/唇形同步框架。 |
| Sampling Steps | 采集器 | 生成(diffusing)圖像所需的步驟數。 |
| SD 1.4 | 模型 | 潛在的 txt2img 模型,SD 發布時的默認模型。在 laion-aesthetics v2 數據集上以 512x512 分辨率對 225k 步驟進行微調。 |
| SD 1.5 | 模型 | 潛在的 txt2img 模型,1.4 的更新版本,在 laion-aesthetics v2 數據集上以 512x512 分辨率進行了 595k 步的微調。 |
| SD UI | 應用 | Cmdr2 流行的穩定擴散提示圖形界面的通俗術語。 |
| SDXL | 模型 | Stability AI 最新(2023 年 3 月)的 Stable Diffusion 模型。不可離線使用;只能通過某些訂閱網站進行推理。 |
| Seed | SD用戶界面 概念 | 用于初始化隨機噪聲生成的偽隨機數,從中構建最終圖像??梢员4娣N子并將其與其他設置一起使用以重新創建特定圖像。 |
| Shoggoth Tongue | 概念 LLM | “Shoggoth Tongue”幽默地暗指克丘魯神話中虛構怪物的語言,是高級ChatGPT命令的名稱,這些命令特別晦澀難懂,但允許ChatGPT在系統預期操作之外執行高級操作。 |
| Sigmoid (Interpolation Method) | 模型 | 一種基于 Sigmoid 函數(一種產生“S”形曲線的數學函數)合并檢查點模型的方法。 |
| Stability AI | 組織 | 由 Emad Mustaque 共同創立的人工智能技術公司。SD 背后的公司之一。 |
| Stable Diffusion (SD) | 組織 | 2022 年發布的深度學習文本到圖像模型。它主要用于根據提供的文本描述生成詳細圖像。 |
| SwinIR | 人臉/圖像恢復 | 圖像恢復變換,旨在從低質量圖像中恢復高質量圖像。 |
| teachyou.ai | 社區資源 | TheAlly 的 Patreon 的備用鏈接(此列表的作者?。?/td> |
| Tensor | 軟件 | 一個容器,可以在其中存儲多維數據。 |
| Tensor Core | 硬件 | Nvidia 開發的處理單元技術,旨在執行矩陣乘法(一種算術運算)。 |
| Textual Inversion | 模型 概念 界面擴展 | 一種從少量樣本圖像中捕獲概念的技術,其方式可以影響特定面部或物體的 txt2img 結果。 |
| TheAlly | 開發 模型 | 流行 TheAlly 的 Mix 模型和 SD 教程的創建者。 eachyou.ai 的所有者 https://civitai.com/models/1202/theallys-mix |
| token | 概念 | 標記大致是提示中的單詞、標點符號或 Unicode 字符。 |
| Tokenizer | 概念 模型 | 將文本提示轉換為標記以進行處理的過程/模型。 |
| Torch 2.0 | 軟件 | 最新(2023 年 3 月)PyTorch 版本。 |
| Training Data | 模型 | 用于“ train 訓練” SD 模型或嵌入的一組許多圖像。 |
| txt2img | 模型 | 通過文本輸入生成圖像的模型/方法。 |
| txt2video | 模型 | 通過文本輸入生成視頻的模型/方法。 |
| UniPC (Sampler) | Sampler | 最近發布的(3/2023)采樣器基于 https://huggingface.co/docs/diffusers/api/schedulers/unipc |
| Upscale | Upscaler | 將低分辨率媒體(圖像或視頻)轉換為更高分辨率媒體的過程。 |
| VAE | 模型 | 可變自動編碼器。一個.vae.pt文件,它與檢查點模型一起提供,并提供額外的細節改進。并非所有檢查點都有關聯的vae文件,有些vae文件是通用的,可以用于改進任何檢查點模型。 |
| Vector (Prompt Word) | 概念 設置 | 嘗試以數學方式表示單詞的含義,以便在 SD 中進行處理。 |
| Venv | 軟件 | Python“虛擬環境”,允許 python 包的多個實例在同一臺 PC 上獨立運行。 |
| Vicuna | LLM 軟件 | https://vicuna.lmsys.org/ 一個開源聊天機器人模型,由加州大學伯克利分校的學生和教師與加州大學圣地亞哥分校和卡內基梅隆大學合作創建。 |
| Vladmandic | 軟件 SD用戶界面 | Auto1111 WebUI 的“分支”,具有自己的功能集。越來越受歡迎 (5/23) https://github.com/vladmandic/automatic |
| VRAM | 硬件 | 視頻隨機存取存儲器。專用顯卡 (GPU) 內存用于存儲像素和其他圖形處理數據以供顯示。 |
| Waifu Diffusion | 模型 | 一種流行的文本到圖像模型,經過高質量動漫圖像的訓練,可生成精美的動漫風格圖像輸出。 |
| WebUI | 應用 SD用戶界面 | Automatic1111 的 WebUI 的通俗術語 - 一種用于穩定擴散提示的流行圖形界面。 |
| Weighted Sum (Interpolation Method) | 設置 概念 | 使用公式 Result = ( A * (1 - M) ) + ( B * M ) 進行檢查點合并的方法。 |
| Weights | 模型 | 檢查點的替代術語 |
| Wildcards | 概念 軟件 界面擴展 | 包含術語(服裝類型、城市、天氣狀況等)的文本文件,可以自動輸入到圖像提示中,以實現各種動態圖像。 |
| xformers | 概念 設置 界面擴展 | 可選庫可加快圖像生成速度。被 Torch 2.0 實現的新選項所取代 |
| yaml | 模型 應用 軟件 界面擴展 | 一種人類可讀的數據序列化編程語言,通常用于配置文件。 Yaml 文件伴隨著檢查點模型,并為穩定擴散提供有關檢查點的附加信息。 |
哇!又賺了一天人民幣

浙公網安備 33010602011771號