Ollama系列04:進(jìn)階篇-搭建私有的知識(shí)庫和問答系統(tǒng)—cherryStudio版
本文是Ollama系列教程的第4篇,在前面的3篇內(nèi)容中,我們分享了如何在本地安裝ollama、運(yùn)行deepseek等大模型、以及如何在chatbox和cherryStudio中使用本地ollama中的大模型,我們創(chuàng)建了私有的AI對(duì)話框和智能體。
Ollama系列教程目錄(持續(xù)更新中):
在本篇內(nèi)容中,我們將分享如何創(chuàng)建和使用知識(shí)庫,讓AI更懂你。
為什么需要AI知識(shí)庫
知乎版
AI知識(shí)庫,作為人工智能技術(shù)與傳統(tǒng)知識(shí)庫概念的融合,是指利用人工智能算法和技術(shù)構(gòu)建、管理和維護(hù)的信息存儲(chǔ)系統(tǒng)。它不僅包含了大量的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),還具備智能檢索、推理分析、自我學(xué)習(xí)和優(yōu)化等高級(jí)功能。AI知識(shí)庫通過模擬人類的認(rèn)知過程,實(shí)現(xiàn)了對(duì)知識(shí)的有效組織和高效利用,為各種應(yīng)用場景提供了強(qiáng)大的支持。
人話版
知識(shí)庫是我們的私有數(shù)據(jù)(你的財(cái)務(wù)狀態(tài)、體檢報(bào)告等),為了讓AI生成更準(zhǔn)確、更符合我們需求的內(nèi)容,需要在提問時(shí)將內(nèi)容告訴AI
知識(shí)庫是如何工作的?
知識(shí)庫工作流程圖(來源于CherryStudio Doc):

在上面的流程圖里,我們可以看到知識(shí)庫工作的步驟:
- 用戶提問時(shí),AI工具先查詢知識(shí)庫里已有的內(nèi)容
- 將查詢到的內(nèi)容和用戶的提問發(fā)送給大模型
- 大模型根據(jù)提供的內(nèi)容生成答案
使用知識(shí)庫增強(qiáng)檢索來生成答案的技術(shù)有一個(gè)專門的名詞RAG,這里面涉及到幾個(gè)概念,如果你感興趣可以繼續(xù)深挖(由于本篇內(nèi)容針對(duì)的是入門教程,不做太多概念性的講解,后面有機(jī)會(huì)了再專門介紹)
構(gòu)建私有知識(shí)庫
接下來我們通過cherryStudio來構(gòu)建私有的知識(shí)庫。
首先打開cherryStudio,點(diǎn)擊左側(cè)的知識(shí)庫:

獲取嵌入模型
在構(gòu)建知識(shí)庫的過程中,需要選擇要使用的嵌入模型。嵌入模型的主要功能是將用戶的文本、圖片等內(nèi)容生成向量數(shù)據(jù),用作向量搜索的。
在ollama中有很多嵌入模型供我們選擇使用。我這里使用的是bge-m3,你可以通過下面的指令獲取:
ollama pull bge-m3
注意:嵌入模型保存后不允許修改
添加知識(shí)內(nèi)容
為了進(jìn)行演示,我們將本系列教程的前三篇放入知識(shí)庫中:

然后創(chuàng)建一個(gè)新的對(duì)話,在對(duì)話中選擇創(chuàng)建的知識(shí)庫:

驗(yàn)證一下效果(效果并不理想):

話外音
感覺deepseek又開始一本正經(jīng)的胡說八道了,這可能和我們選擇的模型有關(guān),我們當(dāng)前使用的是1.5b的模型,如果你的硬件允許,可以嘗試下載更大的模型進(jìn)行測(cè)試
我換了一個(gè)deepseek-r1:7b的模型重新驗(yàn)證了一下,效果比上面的要好一些:

影響知識(shí)庫的因素
通過上面的例子我們可以看到,當(dāng)切換了模型之后,生成內(nèi)容的準(zhǔn)確性有所提高。這說明我們需要嘗試不同的模型,來達(dá)到自己滿意的效果。
通常來說影響知識(shí)庫輸出質(zhì)量的因素有:
- 文檔的質(zhì)量
- 嵌入模型的能力
- 向量數(shù)據(jù)庫的檢索
- 文檔相關(guān)性排序能力
- 系統(tǒng)Prompt質(zhì)量
- 大模型生成能力
當(dāng)我們?cè)谶M(jìn)行實(shí)踐時(shí),切記一定要先進(jìn)行驗(yàn)證,驗(yàn)證滿意后再進(jìn)行大規(guī)模的實(shí)施。
總結(jié)
本文分享了在cherryStudio中使用本地ollama提供的模型來構(gòu)建私有知識(shí)庫的功能,在文章的末尾我們討論了影響知識(shí)庫輸出質(zhì)量的一些因素,在接下來的章節(jié)中,我們將討論如何優(yōu)化知識(shí)庫輸出質(zhì)量,讓AI給出我們更好的答案。
如果你對(duì)這些內(nèi)容感興趣,關(guān)注[拓荒者IT]公眾號(hào),獲取最新的文章內(nèi)容。
?? 持續(xù)分享AI工具,AI應(yīng)用場景,AI學(xué)習(xí)資源 ??


?? 創(chuàng)作不易,如果這篇文章對(duì)你有幫助,歡迎??關(guān)注、??點(diǎn)贊支持,并?轉(zhuǎn)發(fā)給那些需要的朋友!關(guān)注 [拓荒者IT] 獲取更多精彩內(nèi)容!

浙公網(wǎng)安備 33010602011771號(hào)