人民公園說AI

主播專欄

人民公園說AI主播專欄

豆包手機!GUI Agent是真革命還是開倒車?| 深度對話張和

豆包手機!GUI Agent是真革命還是開倒車?| 深度對話張和
JustSayAI

JustSayAI

豆包做了一個手機助手,也就是 GUI Agent,然後立馬就被微信和淘寶給封殺、設卡、穿小鞋。很多人看熱鬧,覺得這是豆包的滑鐵盧,評論區裡一半的人在吵吵隱私問題,另一半人在嘲笑它操作成功率只有 60 分。但在我看來,字節跳動這是拿著金箍棒把行業給捅了個窟窿,這一棒子下去,不管是想看熱鬧的還是想捂蓋子的,都得被震醒。

騰訊封路,阿里設卡,手機裡沒有中間商可以賺差價

張和最早在小米內部推動 GUI Agent 立項時,哪怕面對重重阻力,邏輯也硬得像塊石頭:既然自動駕駛在人命關天的物理世界裡都能做到 99% 的準確率,那麼在手機這個容錯率極高、全是結構化數據的虛擬世界裡,沒理由做不到 90% 以上。

張和認為,GUI Agent 本質上就是“不會出人命的自動駕駛”。 今天的豆包手機助手,就像 2022 年底剛出來的 ChatGPT,或者早期的特斯拉 FSD,看著笨拙、偶爾幻覺、成功率勉強及格(50-60分)。 但請記住,從 60 分到 90 分的進化速度,往往會快得讓你懷疑人生。只要投入自動駕駛級別的數據集和訓練算力,基於 Transformer 架構,甚至不需要什麼重大理論突破,這事兒就能成。

自動駕駛怕的是封路,而 GUI Agent 也一樣。最大的問題不是模型不夠強,而是騰訊把微信這條路給你封了,阿里把淘寶這條路給你堵了 。這就是典型的“路權”之爭。擁有模型和生態的巨頭們,正在人為地製造斷點。為什麼?去掉中間商!

巨頭互毆的終局,Agent 對 Agent 的談判

未來的終局很清晰:超級 APP(如微信、淘寶)為了護食,會在內部搞自己的 Agent,實現閉環;而操作系統(小米、蘋果)則會把控全局。當 OS 級的 Agent 想要調用淘寶的服務時,它不會再去模擬點擊,而是直接跟淘千問喊話:“嘿,幫我訂水果。”至於那些沒有能力做 AI 的中長尾 APP?對不起,你們只能乖乖接受 OS 的全權代理,甚至連反抗的資格都沒有。工具類 APP 被消滅是必然的,因為用戶只需要結果,不需要過程。

還有一個大餅,未來手機是雲端的虛擬機

其實,這場戰役的終局,反而會讓硬件廠商重新奪回話語權。現在的局面是:軟件廠商(如字節)急著證明自己,試圖越過操作系統直接操作 App;而硬件廠商(如蘋果、小米)則在“扮豬吃老虎”。他們手裡握著系統權限這張王牌,只要時機成熟,隨時可以切斷第三方的路,或者坐收漁翁之利 。

為什麼?因為只有硬件廠商掌握著最底層的傳感器和上下文 。無論是未來的 AI 眼鏡,還是現在的手機,它們本質上正在變成雲端超級大腦的“虛擬機” 。想象一下,你戴著眼鏡,手機揣在兜裡。你對眼鏡下令,眼鏡指揮手機裡的 GUI Agent 在後臺瘋狂操作,最後把結果反饋到你的耳機裡。這時候,手機實際上已經退化成了一臺隨身攜帶的“雲端虛擬機”。

這就解釋了為什麼 OpenAI 非要挖蘋果的設計師做硬件,為什麼今年已經出現了“百鏡大戰”,阿里已經祭出夸克眼睛,我相信豆包遲早也會出硬件。對了,這邊也建議阿里應該立刻、馬上去入股 OPPO 或 Vivo。 

亂拳打死老師傅?GUI Agent的機會在PC

對於創業者,我有句難聽的實話:別在手機端的 C 端 Agent 上浪費時間了,那是巨頭和 OS 廠商的自留地,沒有系統級權限,你連後臺保活都做不到,死路一條。

真正的金礦在 PC 端,在 B 端。去看看那些老舊的、沒有任何 API 接口的稅務系統、政府後臺、企業內網。用 GUI Agent 去接管這些反人類的陳舊系統,幫企業打通數據孤島,這才是創業者能活下來並且賺大錢的生意。

我們現在的狀態,就像是看著馬車伕在罵汽車:“這玩意兒又吵又容易壞,還不認路!”但用戶是誠實的,一旦體驗過“動動嘴就能搞定一切”的快感,沒人會願意再回去用那些傻逼的SaaS軟件。GUIAgent行不行另說,工具類軟件agent化是必然的。

別為舊時代的 App 唱輓歌了。

Best regards,

小蘇

JustSayAI Team

—————

【主播小紅書】:📕叫我小蘇就好啊

【關注頻道】:

▶️Youtube|📺B站|📕小紅書|📻Podcast

【訂閱JustSayAI早晚報】

🌈新朋友!訂閱「JustSayAI早晚報」· 每日兩封 · 一鍵聽報 

🌟老朋友!加入會員獲取JustSayAI早晚報+深度研報+文字專欄