【AI新趨勢(shì)期刊#1】GPT自動(dòng)理解視頻、AI法律顧問、大模型安全圍欄
每天都要瀏覽大量AI相關(guān)新聞,是不是感到信息量爆炸,有效信息少?
這么多新產(chǎn)品和新工具,到底哪些是真正是有價(jià)值的,哪些只是浮躁的一時(shí)熱點(diǎn)?
想?yún)⑴cAI產(chǎn)品和工具的開發(fā),從哪里能夠獲得大量的靈感和思路?
我會(huì)把AI相關(guān)的新趨勢(shì)、新想法、新思路,和成熟AI產(chǎn)品、工具、模型等整理在這里,幫助大家去除信息噪音,更高效的了解AI前沿發(fā)展。
主要圍繞:
- AI業(yè)界趨勢(shì)、想法、思路
- AI產(chǎn)品
- AI開發(fā)者工具
- AI模型
作為本期刊的第一期,我們主要圍繞2023年4月發(fā)布的相關(guān)產(chǎn)品和技術(shù)工具。
終端產(chǎn)品
AI中國法律助手
https://github.com/lvwzhen/law-cn-ai
該項(xiàng)目把 中國法律文書 作為知識(shí)庫,將知識(shí)庫embedding后存入向量數(shù)據(jù)庫,然后向用戶提供了完整界面,用戶可以用自然語言提問,后臺(tái)使用openAI的API,結(jié)合知識(shí)庫的現(xiàn)有知識(shí)進(jìn)行自然語言的回答。
主要技術(shù):
- 預(yù)處理知識(shí)庫
- 在PostgreSQL中使用 pgvector 存儲(chǔ)嵌入向量。
- 執(zhí)行向量相似性搜索,查找與問題相關(guān)的內(nèi)容。
- 將內(nèi)容注入到OpenAI GPT-3文本自動(dòng)補(bǔ)全中,并將響應(yīng)流式傳輸?shù)娇蛻舳恕?/li>
HuggingChat
Hugging Face發(fā)布了一個(gè)ChatGPT開源替代品名為HuggingChat。Hugging Face大家都懂的,可以理解成AI界的Github,很多注明的開源模型都在上面首發(fā)。
底層模型目前有兩種選擇:
金融/投資 GPT助手
FinChat.io是由ChatGPT提供技術(shù)支持的工具。它利用人工智能生成關(guān)于公共公司和投資者的問題的答案。為了提供準(zhǔn)確的答案,F(xiàn)inChat會(huì)提供推理、來源和數(shù)據(jù)等支持。實(shí)測(cè)效果有點(diǎn)酷炫。
微軟AI設(shè)計(jì)器
https://designer.microsoft.com/
輸入文字,通過AI生成一個(gè)合適的設(shè)計(jì)圖,且支持動(dòng)態(tài)圖。例如下面的文字描述"為我的油管頻道‘Science for Littles’設(shè)計(jì)一個(gè)動(dòng)態(tài)的廣告"生成了右方的一些設(shè)計(jì)圖,生成速度非常快,還可調(diào)節(jié)圖片尺寸。
選擇了右方較為滿意的設(shè)計(jì)后,可以繼續(xù)在在線編輯器中修改你的設(shè)計(jì),支持自由導(dǎo)出各種格式與下載。
AI Shell
https://github.com/builderio/ai-shell
將chatGPT整合到你的shell中,用ai命令進(jìn)行操作
VLog
https://github.com/showlab/VLog
V是大寫,他可以將一段長視頻轉(zhuǎn)換成包含視覺和音頻信息的文檔。通過將此文檔發(fā)送到ChatGPT,我們可以針對(duì)這個(gè)視頻的內(nèi)容進(jìn)行自然語言聊天!當(dāng)然,需要消耗你自己的openAI API額度。
開發(fā)者工具
音頻能力工具集:AudioGPT
https://huggingface.co/spaces/AIGC-Audio/AudioGPT
這個(gè)工具集里包含了大量音頻相關(guān)的處理能力工具,大部分工具使用時(shí)需要填寫你自己的GPT API key,消耗你的額度,我試了一下,文字轉(zhuǎn)語音,一句5個(gè)詞的句子,消耗了我4000個(gè)token!(暴風(fēng)哭泣!)
演講:
- 文字轉(zhuǎn)語音
- 風(fēng)格遷移
- 語音識(shí)別
- 語音增強(qiáng)
- 語音分離
- 語音翻譯
- 單聲道到雙聲道
- 文字轉(zhuǎn)唱
唱歌:
- 文字轉(zhuǎn)唱歌
音頻處理:
- 文本到音頻
- 音頻修復(fù)
- 圖像到音頻
- 聲音檢測(cè)
- 目標(biāo)聲音檢測(cè)
- 聲音提取
大模型安全圍欄:NeMo-Guardrails
https://github.com/NVIDIA/NeMo-Guardrails
NeMo Guardrails 是一個(gè)開源工具包,可以輕松地將可編程護(hù)欄添加到基于 LLM 的對(duì)話系統(tǒng)中。Guardrails(或簡(jiǎn)稱“rails”)是控制大型語言模型輸出的特定方式,例如不談?wù)撜巍⒁蕴囟ǚ绞巾憫?yīng)特定用戶請(qǐng)求、遵循預(yù)定義的對(duì)話路徑、使用特定語言風(fēng)格、提取結(jié)構(gòu)化數(shù)據(jù)等。
主要優(yōu)勢(shì):
- 構(gòu)建值得信賴、安全可靠的 LLM 對(duì)話系統(tǒng):使用 NeMo Guardrails 的核心價(jià)值是能夠編寫 rails 來指導(dǎo)對(duì)話。開發(fā)人員可以選擇定義他們的 LLM 驅(qū)動(dòng)的機(jī)器人在某些主題上的行為,并讓他們的創(chuàng)造力不受其他人的影響!
- 通過操作連接模型、鏈、服務(wù)等: LLM 不需要解決所有挑戰(zhàn)。NeMo Guardrails 提供了將您的代碼庫或服務(wù)無縫安全地連接到聊天機(jī)器人的能力!
chatGLM結(jié)合本地知識(shí)庫:langchain-chatGLM
https://github.com/imClumsyPanda/langchain-ChatGLM
一種利用 ChatGLM-6B + langchain 實(shí)現(xiàn)的基于本地知識(shí)的 ChatGLM 應(yīng)用。支持將txt、markdown等格式的文本文件上傳后,進(jìn)行提問。會(huì)給出自然語言的回答,并且在最后會(huì)標(biāo)注出引用本地文本的出處。
本項(xiàng)目實(shí)現(xiàn)原理如下圖所示,過程包括加載文件 -> 讀取文本 -> 文本分割 -> 文本向量化 -> 問句向量化 -> 在文本向量中匹配出與問句向量最相似的top k個(gè) -> 匹配出的文本作為上下文和問題一起添加到prompt中 -> 提交給LLM生成回答。
支持的LLM模型:
- THUDM/chatglm-6b
- THUDM/chatglm-6b-int8
- THUDM/chatglm-6b-int4
- THUDM/chatglm-6b-int4-qe
- ClueAI/ChatYuan-large-v2
支持的Embedding 模型:
- nghuyong/ernie-3.0-nano-zh
- nghuyong/ernie-3.0-base-zh
- shibing624/text2vec-base-chinese
- GanymedeNil/text2vec-large-chinese
在任意消費(fèi)級(jí)終端部署大模型:MLC LLM
MLC LLM是一種通用解決方案,可以使任何語言模型在各種硬件后端和本地應(yīng)用程序上本地化部署,同時(shí)為所有人提供一個(gè)高效的框架,以進(jìn)一步優(yōu)化模型性能,以適應(yīng)其自身用例。
我們的使命是使每個(gè)人都能夠在其設(shè)備上本地開發(fā)、優(yōu)化和部署AI模型。
這個(gè)方向的探索如果出現(xiàn)突破,將大大減少模型部署和使用的門檻,讓全世界的低算力設(shè)備也能加入AI算力陣營。
仿openAI風(fēng)格API調(diào)用chatGLM:chatglm-openai-api
https://github.com/ninehills/chatglm-openai-api
讓開發(fā)者能夠用調(diào)用openAI API的方式調(diào)用其他開源模型,節(jié)省大量開發(fā)工作。
參考
Github Trending
Meta360創(chuàng)新學(xué)院-AGI前夜

浙公網(wǎng)安備 33010602011771號(hào)