RAG知識(shí)庫(kù)之知識(shí)庫(kù)圖譜應(yīng)用
上篇文章介紹了使用大模型構(gòu)建生成知識(shí)圖譜,其實(shí)也可不用大模型用其他方式構(gòu)建生成知識(shí)圖譜,但RAG要結(jié)合知識(shí)圖譜使用關(guān)鍵還是怎么把圖譜的內(nèi)容查詢出來(lái);簡(jiǎn)單來(lái)說(shuō)可以先查出Chunk集在關(guān)聯(lián)查出每個(gè)Chunk所關(guān)聯(lián)的實(shí)體Entity再查詢出實(shí)體之間的的關(guān)系集;這里說(shuō)的RAG結(jié)合知識(shí)圖譜和微軟開源的GraphRAG具體實(shí)現(xiàn)是不同的,GraphRAG效果提升會(huì)更好。

在Neo4j中使用Cypher查詢語(yǔ)言可以輕松實(shí)現(xiàn)圖譜數(shù)據(jù)的查詢,通過Chunk元數(shù)據(jù)fileName以及Document與Chunk節(jié)點(diǎn)的關(guān)系PART_OF、Chunk與實(shí)體的關(guān)系HAS_ENTITY就可查詢到了該文檔的完整知識(shí)圖譜。圖譜查詢的具體流程如下:
1、將問題轉(zhuǎn)為嵌入向量
2、如果選擇了Document過濾則會(huì)根據(jù)Chunk的字段fileName過濾Chunk否則使用問題向量查詢匹配vector索引所對(duì)應(yīng)的chunk
3、計(jì)算Chunk節(jié)點(diǎn)的嵌入embedding字段與問題向量的余弦相似度作為score
4、查找與Chunk節(jié)點(diǎn)具有PART_OF關(guān)系的Document并使用fileName過濾文檔
5、查找與Chunk節(jié)點(diǎn)具有HAS_ENTITY關(guān)系的Entity實(shí)體節(jié)點(diǎn)根據(jù)fileName過濾實(shí)體
6、組裝從Chunk節(jié)點(diǎn)到實(shí)體節(jié)點(diǎn)的路徑、從實(shí)體到實(shí)體的路徑等
7、返回Chunk節(jié)點(diǎn)text內(nèi)容、所有chunk的平均分score、Chunk元數(shù)據(jù)(源文檔名稱、chunkId、余弦相似度分?jǐn)?shù)score等)、實(shí)體集、關(guān)系集
8、計(jì)算問題嵌入向量與返回的圖譜文檔嵌入向量余弦相似度,根據(jù)預(yù)設(shè)閾值過濾掉相似度較低的圖譜文檔
9、提交提問問題與經(jīng)過過濾的圖譜文檔作為上下文到LLM
示例
海南島文檔其內(nèi)容如下:
定安縣位于海南島東北部為海南省直轄縣,最近的機(jī)場(chǎng)是美蘭機(jī)場(chǎng)距30公里左右。
假如此段文本生成的圖譜如上圖所示。

提問問題:定安
限定文檔:海南島
在這個(gè)知識(shí)圖譜中查詢數(shù)據(jù)時(shí)會(huì)發(fā)生一下情況:
1、根據(jù)海南島文檔名稱查詢到其文檔存在兩個(gè)Chunk因?yàn)閮蓚€(gè)Chunk存fileName為海南島的元數(shù)據(jù)
2、根據(jù)Chunk與Doc的Part_of關(guān)系溯源到Dunk所屬與海南島文檔
3、根據(jù)Chunk與Entity的HAS_ENTITY關(guān)系查找到《海南省》、《定安縣》、《美蘭機(jī)場(chǎng)》實(shí)體
4、根據(jù)查找到的實(shí)體查找實(shí)體間的關(guān)系、實(shí)體的屬性
經(jīng)過如上4個(gè)流程后在圖譜中查詢到的文檔內(nèi)容如下:
定安縣位于海南島東北部為海南省直轄縣,最近的機(jī)場(chǎng)是美蘭機(jī)場(chǎng)距30公里左右。
實(shí)體集:行政區(qū)劃:海南省 縣:定安縣 機(jī)場(chǎng):美蘭機(jī)場(chǎng) 關(guān)系集:行政區(qū)劃:海南省 管轄 縣:定安縣 縣:定安縣 距離30公里:美蘭機(jī)場(chǎng)
由于返回的此段文本與提問問題余弦相似度超過閾值所以保留該文檔,講該文檔作為提問問題上下文提交到大模型。
當(dāng)然在這個(gè)簡(jiǎn)單的圖譜可能看不出知識(shí)圖譜的優(yōu)勢(shì),但可以明顯的看到經(jīng)過知識(shí)圖譜的RAG得到的上下文比普通基于向量的RAG其上下文多了實(shí)體集、關(guān)系集信息,如圖譜質(zhì)量較高實(shí)體與關(guān)系的比較精準(zhǔn)此時(shí)的上下文對(duì)于LLM還是會(huì)有很大幫助,對(duì)于RAG的準(zhǔn)確性也會(huì)有所提高;
浙公網(wǎng)安備 33010602011771號(hào)