從“看懂世界”到“改造世界”:AI發(fā)展的四個階段你了解了嗎?
2025-06-19 22:10 AlfredZhao 閱讀(2403) 評論(3) 收藏 舉報過去幾年,人工智能一路狂飆,從識圖識聲,到能寫能畫,再到能干活做決策,甚至走上現(xiàn)實生活的“物理戰(zhàn)場”。你是否也曾困惑,AI到底發(fā)展到哪個階段了?又有哪些能力正在悄悄進(jìn)化?
Nvidia的創(chuàng)始人黃仁勛(Jensen Huang)在 GTC 2025 提出了AI 發(fā)展的四個階段。
今天,我們就來具體聊聊 AI 發(fā)展的 四個階段:
Perception AI → Generative AI → Agentic AI → Physical AI
每一階段,都是一次技術(shù)躍遷??赐瓯疚?,你將秒懂它們的本質(zhì)區(qū)別與商業(yè)機會。
? 第一階段:Perception AI(感知型AI)
讓 AI 看得見、聽得懂、讀得清
這是 AI 的“眼睛”和“耳朵”,它讓機器第一次具備了“理解世界”的能力。
代表能力:
- 圖像識別(CV):人臉識別、目標(biāo)檢測、安防監(jiān)控
- 語音識別(ASR):語音助手、電話客服
- 文本識別(OCR):發(fā)票識別、合同解析
- 情感分析、實體識別、關(guān)鍵詞抽取
編者注:
聚焦感知能力:讓 AI “看懂”(CV:圖像識別)、“聽懂”(ASR:語音識別)、“讀懂”(OCR)等基本任務(wù),是 AI 的起點。
英文縮寫詞解釋:
CV(Computer Vision)= 計算機視覺,它是人工智能(AI)領(lǐng)域的一個重要分支,研究如何讓機器“看懂”圖像、視頻、甚至三維世界中的內(nèi)容。
ASR(Automatic Speech Recognition)= 自動語音識別,讓機器聽懂人說話,轉(zhuǎn)成文本。
OCR(Optical Character Recognition)= 光學(xué)字符識別,讓機器看懂文字,從圖片中讀出文字,本質(zhì)是CV(計算機視覺)的細(xì)分任務(wù)。
商業(yè)價值:
- 金融風(fēng)控:票據(jù)識別、影像審核
- 醫(yī)療影像:病灶檢測、報告輔助
- 智能硬件:智能安防攝像頭、車載感知系統(tǒng)
這階段的AI雖然智能,但只能“看見”世界,無法“改變”世界。
?? 第二階段:Generative AI(生成型AI)
讓 AI 能“表達(dá)”“創(chuàng)作”,第一次具備了創(chuàng)意和內(nèi)容輸出能力
這一波的主角你一定熟:ChatGPT、Midjourney、Suno(音樂生成)、Sora(視頻生成)……
代表能力:
- 生成文本:聊天、文章、摘要、代碼
- 生成圖像:海報設(shè)計、產(chǎn)品圖、插畫
- 生成音頻/音樂:AI歌手、播報配音
- 多模態(tài)融合:文字轉(zhuǎn)視頻、圖像轉(zhuǎn)語音
商業(yè)價值:
- 內(nèi)容創(chuàng)作工具:AI 寫作、AI 配圖、AI 視頻
- 營銷自動化:文案生成、廣告素材組合
- 編程助手:GitHub Copilot、APEX AI Assistant
這一階段的 AI 就像“有創(chuàng)造力的秘書”,大大提高了內(nèi)容產(chǎn)業(yè)的效率。
編者注:
像本文這樣的科普文章,筆者也是充分用到生成型AI的能力,先提出具體要求讓它幫我生成初稿,然后再反復(fù)校對修改,確保符合自己最初的意圖,相比以前的從零開始模式,效率上要提升很多。
第三階段:Agentic AI(智能體AI)
真正能“自己干活”的 AI 時代來了
如果說 ChatGPT 是“聰明的對話者”,那么 Agentic AI 就是“你可以托付任務(wù)的數(shù)字員工”。
它不僅能理解你的需求,還能自己想辦法完成任務(wù),比如:
- 自動拆解步驟(先查資料 → 再寫報告 → 最后發(fā)郵件)
- 主動調(diào)用各種工具(查天氣、調(diào)用 API、執(zhí)行 SQL、調(diào)用搜索引擎)
- 多輪思考 + 狀態(tài)追蹤(記住你前面說的話、當(dāng)前進(jìn)度)
它具備哪些關(guān)鍵能力?
- 任務(wù)理解 + 拆解 + 執(zhí)行
- 調(diào)用外部工具(API/數(shù)據(jù)庫/搜索等)
- 多輪執(zhí)行 + 上下文記憶
- 多個智能體協(xié)作,完成復(fù)雜任務(wù)
舉幾個典型案例:
- LangChain / AutoGen 智能體:它們是開發(fā)者用來構(gòu)建“能自主執(zhí)行任務(wù)”的 AI 系統(tǒng)框架。
比如讓 AI 自動查找資料 → 匯總成報告 → 發(fā)送通知,甚至可以自己生成代碼并測試運行。 - 企業(yè) AI Copilot:如 Microsoft 365 Copilot,自動總結(jié)會議紀(jì)要、發(fā)郵件、安排日程
- 流程自動化增強:AI 自動登錄 OA 系統(tǒng) → 審批報銷 → 通知員工,像一個自動辦公機器人
商業(yè)價值:
- 數(shù)字化辦公助理:幫你整理文件、寫文案、收集信息
- 智能客服和運營:根據(jù)用戶對話自動查詢訂單、推薦商品
- 業(yè)務(wù)流程自動化:用 AI 替代重復(fù)點擊和操作,提高效率
這階段的 AI 不再只是工具,而是真正“可托付任務(wù)的虛擬員工”。
編者注:
這一階段就有些厲害了,也就是說每個智能體都可以自主決策做實際的事情了,不需要我們?nèi)斯じ深A(yù)就能獲取比較好的結(jié)果。因為智能體通常要涉及到多次的工具調(diào)用,多次的LLM模型交互,所以等待的時間肯定要比直接的生成式AI要久,但是在很多場景下這都不是問題,人們通常是可以接受多花一些時間得到更靠譜更符合自己預(yù)期的結(jié)果。
第四階段:Physical AI(實體型AI)
AI 開始“動手”,從數(shù)字世界走向現(xiàn)實世界!
這是AI能力在現(xiàn)實物理世界中的終極體現(xiàn)——有眼(感知)、有腦(決策)、有身體(執(zhí)行),能直接行動改變物理世界!
注意:不是所有機器人都叫 Physical AI!
許多傳統(tǒng)設(shè)備(如老式掃地機器人、機械臂)只是“預(yù)設(shè)程序驅(qū)動”的自動化產(chǎn)物。
而真正的 Physical AI,必須具備:
- 感知:能看到環(huán)境(如識別寵物/人)
- 決策:能自主判斷、規(guī)劃任務(wù)(如動態(tài)避障)
- 表達(dá):能用語音、圖像反饋清掃狀態(tài)
- 執(zhí)行:能越障、能動態(tài)適配環(huán)境
只有像 Tesla FSD、Atlas、Dyson AI 掃地旗艦款這類設(shè)備,才剛剛具備「感知→決策→執(zhí)行」的閉環(huán)。
我們正處在從 Agentic AI 向 Physical AI 過渡的早期階段。
商業(yè)價值:
- 倉儲自動化、柔性生產(chǎn)
- 生活服務(wù)機器人(陪護(hù)/清潔/配送)
- 實體場景勞動力替代:物流/酒店/醫(yī)療操作
這一階段的 AI,不僅能想,還能做,甚至能替代人類“物理勞動力”。
編者注:
這一階段就更加神奇且令人神往了,需要注意的是,即便是這里提到的所謂新一代掃地機器人等代表形態(tài),也只是純粹為了讓大家更好理解,勉強算是Physical AI前期嘗試的一個例子/雛形而已,真正的Physical AI 時代,機器不但可以在物理世界行動,還能夠深入理解環(huán)境中摩擦、慣性、因果關(guān)系、物體恒存等,甚至在未來,可能要比人類理解的更加深入和透徹,屆時會出現(xiàn)各種各樣的機器人等實體應(yīng)用。
總結(jié):AI 四階段的能力演進(jìn)圖
| 階段 | 關(guān)鍵詞 | 核心能力 | 典型設(shè)備 | 商業(yè)價值 |
|---|---|---|---|---|
| Perception AI | 感知理解 | 識別圖像/語音/文本 | 監(jiān)控攝像頭 | 安防監(jiān)控、醫(yī)療影像輔助 |
| Generative AI | 表達(dá)創(chuàng)作 | 生成文本/圖像/音頻 | ChatGPT | 內(nèi)容創(chuàng)作、營銷自動化 |
| Agentic AI | 自主執(zhí)行 | 拆任務(wù)/調(diào)工具/記狀態(tài) | AI辦公助手 | 智能流程自動化 |
| Physical AI | 實體行動 | 控制物理設(shè)備與環(huán)境 | AI機器人 | 智能制造、無人服務(wù)終端 |
為什么要了解這個框架?
- 產(chǎn)品經(jīng)理 → 定位產(chǎn)品階段,定義能力邊界與商業(yè)模式
- 技術(shù)專家 → 理解LLM+多模態(tài)+Agent+機器人融合路徑
- 行業(yè)用戶 → 預(yù)判哪些“智能能力”將重塑生產(chǎn)力
最后一問:你準(zhǔn)備好迎接 Agentic 和 Physical AI 時代了嗎?
未來 5 年,最有潛力的 AI 創(chuàng)新,正處于 第 3 階段(Agentic)向第 4 階段(Physical)邁進(jìn)的臨界點。具身智能、機器人基礎(chǔ)模型、人形機器人等突破正加速到來!
讓我們一起站上智能新時代的浪尖!
如果這篇框架解析對你有啟發(fā),歡迎點贊、轉(zhuǎn)發(fā),傳播真正“穿透AI迷霧的認(rèn)知坐標(biāo)”。
?? 感謝閱讀,歡迎關(guān)注我的公眾號 「趙靖宇」
浙公網(wǎng)安備 33010602011771號