大模型相關簡答題
基礎概念與模型架構
這些問題關注模型的基本原理、架構設計、以及不同類型模型的對比。
- 請簡述Transformer的基本原理;
- 為什么Transformer的架構需要多頭注意力機制?
- 為什么Transformer需要位置編碼?
- 為什么transformer塊使用LayerNorm而不是BatchNorm?
- 介紹一下post layer norm和pre layer norm的區別;
- 請簡述GPT和BERT的區別;
- 講一下GPT系列模型是如何演進的?
- 什么是prefix LM和causal LM的區別?
- 什么是LLMs復讀機問題?
- 為什么會出現LLMs復讀機問題?
- 如何緩解LLMs復讀機問題?
- 你了解過什么是稀疏微調嗎?
- LLM預訓練階段有哪幾個關鍵步驟?
- 注意力機制在Transformer模型中如何運作?
- 大語言模型中的上下文窗口是什么,為什么它很重要?
- 大語言模型如何在微調期間避免災難性遺忘?
- 大語言模型如何在微調期間避免災難性遺忘?
- 大語言模型如何在微調期間避免災難性遺忘?
技術細節與優化
這些問題涉及了LLM的優化技術、量化方法、訓練策略等。
- 訓練后量化(PTQ)和量化感知訓練(QAT)有什么區別?
- LLMs中,量化權重和量化激活的區別是什么?
- AWQ量化的步驟是什么?
- DeepSpeed推理對算子融合做了哪些優化?
- 簡述一下FlashAttention的原理;
- PAGED Attention的原理是什么,解決了LLM中的什么問題?
- 矩陣乘法如何做數量并行?
- 如何緩解LLMs復讀機問題?
- 如何評估大語言模型(LLMs)的性能?
- 為什么LLM的知識更新很困難?
- 你覺得哪些因素會導致LLM中的偏見?
- 如何減輕LLM中的“幻覺”現象?
- 什么是掩碼語言建模,它如何幫助預訓練?
語言模型的學習與微調
這些問題著重于LLM的訓練方式、微調技術和應用。
- RLHF模型為什么會表現比SFT更好?
- 什么是獎勵模型,獎勵模型是否需要和基礎模型一致?
- 獎勵模型需要和基礎模型一致嗎?
- 如何解決人工產生的偏好數據集成本較高,很難量產問題?
- 如何解決三個階段的訓練(SFT->RM->PPO)過程較長,更新迭代較慢問題?
- 如何解決PPO的訓練過程中同時存在4個模型(2訓練,2推理),對計算資源的要求較高問題?
- 如何給LLM注入領域知識?
- 參數高效的微調(PEFT)有哪些方法?
- LORA微調相比于微調適配器或前綴微調有什么優勢?
- 在大語言模型微調中,LoRA與QLoRA有何區別?
- 大語言模型如何在微調期間避免災難性遺忘?
架構與推理框架
這些問題關注LLM的架構設計、推理效率以及分布式計算框架。
- 簡述TPPO算法流程,它跟TRPO的區別是什么?
- 介紹一下GPipe推理框架;
- 什么是Kv cache技術,它具體是如何實現的?
- 大模型一般評測方法及其準則是什么?
- 為什么大模型推理時顯存漲的那么多還一直占著?
- 大模型在GPU和CPU上的推理速度如何?
- 推理速度上,int8和fp16比起來怎么樣?
- 溫度在控制大語言模型輸出方面起什么作用?
- 什么是掩碼語言建模,它如何幫助預訓練?
- 大語言模型如何在微調期間避免災難性遺忘?
檢索與生成
這些問題涉及到生成與檢索增強模型的結合以及特定技術的應用。
- 什么是檢索增強生成(RAG)?
- RAG和微調的區別是什么?
- 什么是思維鏈(CoT)提示?
- 你覺得什么樣的任務或領域適合用思維鏈提示?
- 什么是投機采樣技術,請舉例說明?
分詞技術與編碼
這些問題關注分詞算法、位置編碼技術以及優化策略。
- 你了解大型語言模型中的哪些分詞技術?
- 什么是位置編碼?
- 什么是絕對位置編碼?
- 什么是相對位置編碼?
- 旋轉位置編碼RoPE思路是什么?有什么優點?
- ALiBi(Attention with Linear Biases)思路是什么?偏置矩陣是什么?有什么作用?有什么優點?
- 什么是掩碼語言建模,它如何幫助預訓練?
- 大語言模型如何在微調期間避免災難性遺忘?
應用與評測
這些問題涉及模型的評估方法和實際應用中的挑戰。
- 如何評估大語言模型(LLMs)的性能?
- 大模型的honest原則是如何實現的?
- 模型如何判斷回答的知識是訓練過的已知的知識,怎么訓練這種能力?
- 如何讓大模型處理更長的文本?
- 各個專長領域是否需要各自的大模型來服務?
- 如何讓大模型輸出格式化?
- 如果想要快速檢驗各種模型,該怎么辦?
- 大語言模型如何在微調期間避免災難性遺忘?
替代方案與挑戰
這些問題探討了與大模型相關的替代方案、挑戰和改進方法。
- Langchain 有哪些替代方案?
- Langchain token計數有什么問題?如何解決?
- 目前主流的中文向量模型有哪些?
- 如何解決PPO訓練中的資源瓶頸?
- 為什么現在的大模型大多是decoder-only的架構?
- 涌現能力(Emergent Abilities)是什么原因?
- 大語言模型如何在微調期間避免災難性遺忘?
- 大語言模型如何在微調期間避免災難性遺忘?
一些遞進的提問方式舉例
- 解釋一下langchain Agent的概念。 → 什么是LangChain中的Agent?請簡述其作用與應用場景。
- llama輸入句子長度理論上可以無限長嗎? → Llama模型的輸入長度是否有上限?為什么會有這個限制?
- 目前主流的開源模型體系有哪些? → 你了解的主流開源大語言模型有哪些?它們各自的特點是什么?

浙公網安備 33010602011771號