摘要:
dataset庫也是Hugging Face 提供的一個強大工具庫,用于加載、處理和操作大規模數據集。它支持多種格式(如 CSV、JSON、Parquet 等)以及在線數據集(如 Hugging Face Hub 上的數據集)。 Transformers庫通常與datasets庫一起使用來處理和準備 閱讀全文
dataset庫也是Hugging Face 提供的一個強大工具庫,用于加載、處理和操作大規模數據集。它支持多種格式(如 CSV、JSON、Parquet 等)以及在線數據集(如 Hugging Face Hub 上的數據集)。 Transformers庫通常與datasets庫一起使用來處理和準備 閱讀全文
posted @ 2025-06-14 16:10
BricheersZ
閱讀(126)
評論(0)
推薦(0)
摘要:
1、AI 大模型的訓練過程 AI 大模型的訓練就如同讓一名孩童從不會說話一步步培養成高級知識分子或者專家的過程。 第一步:收集數據,將海量的知識與文章收集起來作為學習資料教給這個孩子; 第二步:預處理:去掉數據中的低質量的內容,整理成教材并形成一個“圖書館”; 第三步:訓練模型:將“孩子”(模型)放 閱讀全文
1、AI 大模型的訓練過程 AI 大模型的訓練就如同讓一名孩童從不會說話一步步培養成高級知識分子或者專家的過程。 第一步:收集數據,將海量的知識與文章收集起來作為學習資料教給這個孩子; 第二步:預處理:去掉數據中的低質量的內容,整理成教材并形成一個“圖書館”; 第三步:訓練模型:將“孩子”(模型)放 閱讀全文
posted @ 2025-06-14 16:07
BricheersZ
閱讀(156)
評論(0)
推薦(0)
摘要:
? 一、行業變化 Software is eating the world,but AI is going to eat software! “軟件正在吞噬世界” 這一觀點由網景公司創始人馬克?安德森在 2011 年提出,意味著軟件在當今社會的各個領域發揮著至關重要的作用,極大地改變了人們的生活和工 閱讀全文
? 一、行業變化 Software is eating the world,but AI is going to eat software! “軟件正在吞噬世界” 這一觀點由網景公司創始人馬克?安德森在 2011 年提出,意味著軟件在當今社會的各個領域發揮著至關重要的作用,極大地改變了人們的生活和工 閱讀全文
posted @ 2025-06-14 16:07
BricheersZ
閱讀(103)
評論(0)
推薦(0)
摘要:
從本篇開始筆者會盡量多使用一些英文縮寫和單詞,不是筆者為了裝X,是為了大家在后面遇到的時候不至于被別人裝到。 一、什么是RAG 1.1 大模型的局限性 大模型的知識不是實時的,比如現在《藏海傳》已經完結了,但是我問deepseek給我的回答卻是: 除了知識不是實時的之外,大模型可能也不知道你當前所在 閱讀全文
從本篇開始筆者會盡量多使用一些英文縮寫和單詞,不是筆者為了裝X,是為了大家在后面遇到的時候不至于被別人裝到。 一、什么是RAG 1.1 大模型的局限性 大模型的知識不是實時的,比如現在《藏海傳》已經完結了,但是我問deepseek給我的回答卻是: 除了知識不是實時的之外,大模型可能也不知道你當前所在 閱讀全文
posted @ 2025-06-14 16:06
BricheersZ
閱讀(170)
評論(0)
推薦(1)
摘要:
這篇文章里面會有一些 python 代碼,能看懂就行,可能會有語法錯誤大家當偽代碼看吧, AI 應用開發也不會去敲這些代碼(甚至整個過程都不太需要敲代碼),文章中的這些代碼只是為了更好的理解這些組件,實際應用開發中大概率是見不到文中用來示例的這種代碼的。 一、LangChain是什么 LangCha 閱讀全文
這篇文章里面會有一些 python 代碼,能看懂就行,可能會有語法錯誤大家當偽代碼看吧, AI 應用開發也不會去敲這些代碼(甚至整個過程都不太需要敲代碼),文章中的這些代碼只是為了更好的理解這些組件,實際應用開發中大概率是見不到文中用來示例的這種代碼的。 一、LangChain是什么 LangCha 閱讀全文
posted @ 2025-06-14 16:06
BricheersZ
閱讀(210)
評論(0)
推薦(0)
摘要:
本文 對《LangChain》一文中的 Chain 與 LCEL 部分的示例進行詳細的展示。 先回顧下 在LangChain框架中,Chain(鏈) 和 LCEL(LangChain Expression Language) 是兩個密切相關但本質不同的概念。 Chain(鏈): 是LangChain 閱讀全文
本文 對《LangChain》一文中的 Chain 與 LCEL 部分的示例進行詳細的展示。 先回顧下 在LangChain框架中,Chain(鏈) 和 LCEL(LangChain Expression Language) 是兩個密切相關但本質不同的概念。 Chain(鏈): 是LangChain 閱讀全文
posted @ 2025-06-14 16:05
BricheersZ
閱讀(298)
評論(0)
推薦(0)
摘要:
一、Transformer與transformers 結論:Transformer是模型架構,transfortmers是庫。 問:為什么我們要知道Transformer與transformers呢? 答:千問大模型和DeepSeek都是Transformer架構的,transformers庫就是為 閱讀全文
一、Transformer與transformers 結論:Transformer是模型架構,transfortmers是庫。 問:為什么我們要知道Transformer與transformers呢? 答:千問大模型和DeepSeek都是Transformer架構的,transformers庫就是為 閱讀全文
posted @ 2025-06-14 16:04
BricheersZ
閱讀(312)
評論(0)
推薦(0)

? 在大語言模型(LLM)技術爆發的今天,從 ChatGPT 到開源的 LLaMA、Qwen 系列,模型能力不斷突破,但將這些 “智能大腦” 落地到實際業務中,卻面臨著效率、成本和部署復雜度的三重挑戰。此時,大模型推理框架成為了連接理論與實踐的關鍵橋梁。 一、什么是大模型推理框架 大模型推理框架是專
一、顯存和算力 1. 基本概念 顯存 (Memory) 定義:GPU 用于臨時存儲數據的高速內存,類似于計算機的 RAM。 作用: 存儲模型權重、中間激活值、梯度和優化器狀態。 數據在顯存與 GPU 核心之間快速傳輸以支持計算。 衡量單位:GB (如 8GB、24GB)。 算力 (Computati
LoRA 是什么? 傳統的大模型微調往往需要更新全部模型參數,這不僅消耗海量計算資源,還容易陷入過擬合陷阱。LoRA 另辟蹊徑,采用 “低秩分解” 策略,在不改動原始模型權重的前提下,通過添加兩個低秩矩陣(A 和 B)構建參數更新層。在訓練過程中,僅對這兩個低秩矩陣進行優化,使得可訓練參數數量相比全
本文標題中說的微調 Llama3指的是局部微調,使用 LLamaFactory 局部微調 LIama3。 一、什么是LLamaFactory LLaMA-Factory 是一個開源的大型語言模型微調框架,全稱 Large Language Model Factory1。它致力于簡化大模型應用開發流程
浙公網安備 33010602011771號