扎堆做AI瀏覽器,是不是“脫褲子放屁”?
最近AI圈子最熱鬧的,莫過于各大廠爭先恐后地“組團(tuán)”發(fā)布AI瀏覽器。
從早期的manus到arc、微軟、谷歌Chrome、FlowithOS、openai的atlas到各種新銳團(tuán)隊,一夜之間,瀏覽器好像成了AI落地的“唯一真理”。它幾乎什么都能干。
但不知道為什么,我總感覺這事兒有點別扭。用一句老話講,它有點像“脫褲子放屁”—— 一個明明可以走捷徑的動作,非要繞個大圈。
我為什么這么說?
1. 我們的焦慮,催生了“AI監(jiān)工”
那我們先思考一個問題:AI為什么非得在“瀏覽器”里工作?
如果我想在電商平臺買個東西,AI直接調(diào)用API,在后臺完成數(shù)據(jù)交換,然后把訂單結(jié)果顯示給我就可以了。這才是高效的路徑。
那為什么非要多此一舉,讓AI在瀏覽器里“演”給我們看?
答案是:我們不信任它。
我們現(xiàn)在對AI的心理,就像一個剛學(xué)會放手的家長。我們不相信AI能獨立完成任務(wù),我們生怕它買錯了、點歪了、理解錯了。所以我們必須“看(kàn )著它做”。
而對AI瀏覽器來說,我們就是那個“監(jiān)工”角色。我們要求AI必須在瀏覽器這個我們能看懂的GUI(圖形界面)上,一步一步、像個新手一樣“點擊”、“滾動”、“輸入”,來向我們證明它的每一步操作都是對的。
這本質(zhì)上不是技術(shù)問題,就是人類的心理問題。我們創(chuàng)造了一個“AI演員”,而瀏覽器就是它取悅我們的舞臺。
2. “監(jiān)工”的代價:低效與挫敗
我們當(dāng)這個“監(jiān)工”,代價是巨大的。
首先,效率極低。AI為了“表演”給我們看,它消耗的Token(計算資源)根本不是用來“思考”,而是用來“理解GUI”和“描述操作”。它本可以一秒鐘調(diào)用API完成任務(wù),現(xiàn)在非得花三十秒來識別頁面上的內(nèi)容,再模擬人類的點擊,這是巨大的資源浪費。
其次,我們的“監(jiān)工”體驗極差。
這也是最反人性的地方:我們只有監(jiān)督權(quán),卻沒有打斷和優(yōu)化的能力。
就像你坐在一個自動駕駛汽車的副駕,你眼睜睜看著它要往水坑里開,但你手里沒有方向盤。你只能看著它犯錯,等它開進(jìn)水坑里,你再拍著窗戶對它喊:“你錯了!”
這難道不比我們自己開車更累嗎?
如果我們無法在AI操作的中間環(huán)節(jié)介入并修正它,這讓我們的“監(jiān)督”變得毫無意義。
3. 瀏覽器不是終點,只是一個“兼容補(bǔ)丁”
所以,AI瀏覽器絕對不可能是人類與機(jī)器交互的最終形態(tài)。
它只是一個 “兼容歷史的短暫替代品” 。
它的真正使命,不是服務(wù)于我們,而是作為一個過渡的“訓(xùn)練場”,讓AI模型學(xué)會兩件事:
- 學(xué)會理解GUI: 讓模型真正看懂人類這幾十年來建立的這套視覺交互邏輯。
- 建立信任: 通過這段時間的“表演”,讓我們?nèi)祟惵?xí)慣并信任它的能力。
一旦這兩個目的達(dá)到,瀏覽器這個“舞臺”就會被立刻拆除。
4. 未來的交互:GUI的消亡與“指揮者”的崛起
當(dāng)這艘“擺渡船”抵達(dá)彼岸,它將進(jìn)化成一個真正智能的“大副”,不再需要我們來“監(jiān)工”,當(dāng)然也就不再需要AI瀏覽器這種形式。
我理解的AI的終極形態(tài),一定不會是在瀏覽器里幫我們點點點。它可能是一個看不見的、常駐在系統(tǒng)底層的“AI管家”。當(dāng)我們需要它時,我們不再是打開一個“瀏覽器”,而是直接通過語音、文字、視頻,甚至一個念頭來下達(dá)指令。
AI不再需要那個“舞臺”,它直接在后臺完成所有操作,只把最終的“結(jié)果”呈現(xiàn)在我們面前。
而我們?nèi)说膬r值,也將從繁瑣復(fù)雜的“操作”中徹底解放出來,人人都需要進(jìn)化為真正的“指揮者”。未來,真正能駕馭AI的人,不是看它點了多少次鼠標(biāo),而是看他能不能為AI “布置一個好任務(wù)” ,能不能寫出那個直達(dá)問題核心的 “好Prompt” 。
浙公網(wǎng)安備 33010602011771號