2026 年開局,開源智能體框架 OpenClaw(龍蝦)的爆發(fā),用時僅僅 100 天就在 GitHub 上跨過了 React 耗時十三年才達成的社區(qū)生態(tài)里程碑。
在這場狂潮背后,全球科技圈出現(xiàn)了一個看似 " 返祖 " 的有趣現(xiàn)象:許多原本推崇 "Everything on Cloud(一切皆在云端)" 的開發(fā)者和企業(yè),開始重新購買 Mac Mini、小型工作站和低功耗主機。這些機器被放置在書桌或辦公室的角落,24 小時不眠不休地在本地環(huán)境清洗數(shù)據(jù)、驗證代碼或處理財稅審計。
這一現(xiàn)象級重回端側(cè)的背后,是行業(yè)底層共識的悄然轉(zhuǎn)變:AI 正在從一個單次交互的聊天窗口,逐漸演變?yōu)橐粋€能夠長期運行的生產(chǎn)力工具(Agent)。
但這場由 Agent 狂潮引爆的生產(chǎn)力變革,也正在讓現(xiàn)有的云計算體系面臨新的經(jīng)濟學(xué)與物理學(xué)挑戰(zhàn)。下一代 AI 基礎(chǔ)設(shè)施的競爭,正在從單純的云端數(shù)據(jù)中心,逐漸延伸到物理世界的邊緣端。
負(fù)載特征的變化:云端推理模式開始面臨新壓力
要理解為什么本地算力正在從 " 小眾需求 " 逐漸變成產(chǎn)業(yè)趨勢,必須先理解 Agent 與傳統(tǒng) Chatbot 在運行方式上的根本區(qū)別。
在傳統(tǒng) Chatbot 時代,用戶與 AI 的交互更像 " 一問一答 "。這種模式下,算力占用是離散且短暫的,因此中心化云端 API 按 Token 計費的商業(yè)模式非常高效,企業(yè)支付的只是可控的調(diào)用成本。
但當(dāng)大模型開始進入 Agent 執(zhí)行時代后,整個負(fù)載特征開始發(fā)生變化。
首先,是運行時間被大幅拉長。一個能夠獨立執(zhí)行復(fù)雜任務(wù)的數(shù)字 Agent,為了完成一份市場合規(guī)審計,可能需要長時間運行,并持續(xù)進行多輪檢索、推理和工具調(diào)用。
其次,是上下文長度開始快速增長。Agent 在執(zhí)行任務(wù)過程中,需要不斷維持上下文記憶,并在多個任務(wù)之間來回切換。這意味著,大模型的壓力開始不僅來自 " 算力夠不夠 ",還來自 " 數(shù)據(jù)能不能高效流動 "。
在越來越多 AI 推理場景里,數(shù)據(jù)搬運帶來的消耗,開始變得和計算本身一樣重要。
尤其在邊緣端和桌面端的多模態(tài)推理場景下,模型加載、顯存調(diào)度,以及不同計算單元之間的數(shù)據(jù)交換,正在成為越來越明顯的系統(tǒng)壓力。
這種變化,也正在讓傳統(tǒng)云端 API 的成本結(jié)構(gòu)面臨新的壓力。
隨著 Agent 長時間運行和并發(fā)調(diào)用增加,Token 成本會迅速累積,并逐漸成為企業(yè)必須認(rèn)真考慮的問題。與此同時,在金融、稅務(wù)、政務(wù)等垂直領(lǐng)域,高頻調(diào)用云端還必須面對網(wǎng)絡(luò)延遲和核心數(shù)據(jù)安全的合規(guī)風(fēng)險。
因此," 本地化推理 " 的本質(zhì),是企業(yè)試圖將原本持續(xù)增長的調(diào)用成本,轉(zhuǎn)化為更加穩(wěn)定、可預(yù)測的基礎(chǔ)設(shè)施投入。
當(dāng)然,這并不意味著云會消失。
未來更可能出現(xiàn)的是一種 Hybrid AI(云 + 本地混合)模式:云端繼續(xù)負(fù)責(zé)超大模型訓(xùn)練和復(fù)雜推理,端側(cè)則負(fù)責(zé)高頻、長期、本地化的生產(chǎn)力執(zhí)行。
換句話說,中心化云推理 " 一統(tǒng)天下 " 的格局正在被打破,本地推理的重要性也開始快速上升。
架構(gòu)慣性:為什么傳統(tǒng)巨頭未必擅長端側(cè) Agent?
每當(dāng)談及端側(cè)算力市場的巨大潛力,行業(yè)總會產(chǎn)生一個疑問:如果市場空間足夠大,英偉達等傳統(tǒng)芯片巨頭為什么不迅速全面進入這個賽道?
答案并不只是 " 技術(shù) "。
傳統(tǒng)巨頭并非沒有能力做邊緣芯片,而是它們現(xiàn)有的商業(yè)重心和技術(shù)路線,決定了它們更傾向于優(yōu)先服務(wù)云端的大規(guī)模算力市場。如果把今天的數(shù)據(jù)中心比作 " 高鐵系統(tǒng) ",它追求的是海量、集中式的吞吐效率,那么端側(cè) Agent 更像是 " 私人飛機 " ——它面對的是完全不同的運行環(huán)境。
邊緣端沒有大型機房和無限供電,它要求設(shè)備能夠在極低功耗、有限空間和有限散熱條件下,長期穩(wěn)定運行。這意味著,端側(cè) AI 更看重的是長時間穩(wěn)定運行、更低功耗、更低延遲、更高本地化能力,以及更靈活的硬件擴展。
而這些目標(biāo),與傳統(tǒng)數(shù)據(jù)中心追求的極致吞吐量,并不完全一致。因此,傳統(tǒng)巨頭的技術(shù)演進路線,短期內(nèi)大概率仍會優(yōu)先圍繞數(shù)據(jù)中心場景展開。這也給專注邊緣端架構(gòu)創(chuàng)新的新公司,留出了重要的生存空間。
為什么 Agent 時代天然適合 Chiplet?
然而,算力真正開始向邊緣端下沉后,一個現(xiàn)實問題很快暴露出來:AI 落地場景實在太碎片化了。過去很多高性能芯片,采用的是 " 大芯片單體設(shè)計 " 模式,研發(fā)周期長、成本高,一次流片往往需要投入巨大資源。
但 Agent 時代的問題在于:模型變化太快,場景變化更快。
幾個月前行業(yè)還在圍繞某種模型架構(gòu)優(yōu)化,幾個月后新的推理方式和工作流可能又出現(xiàn)了變化。與此同時,不同行業(yè)對于 AI 的需求也完全不同:政務(wù)系統(tǒng)需要更高的數(shù)據(jù)安全性、工業(yè)設(shè)備需要更低延遲、機器人需要更強實時響應(yīng)、桌面 Agent 更看重低功耗長期運行。
如果每個場景都重新設(shè)計一顆完整芯片,幾乎不現(xiàn)實。為了平衡研發(fā)成本與場景碎片化之間的矛盾,Chiplet(芯粒)架構(gòu)開始重新受到行業(yè)關(guān)注。
Chiplet 的本質(zhì),是將芯片制造從 " 蓋定制別墅 " 變成了 " 拼標(biāo)準(zhǔn)化樂高 "。它把計算、互聯(lián)、加速等不同功能拆分成標(biāo)準(zhǔn)化模塊,再根據(jù)不同場景進行靈活組合。算法變了,可以通過軟件重新優(yōu)化部分模塊;算力需求增加了,可以繼續(xù)擴展計算芯粒;不同產(chǎn)品線之間,也能共享大量底層能力。
這種方式最大的價值,不只是性能。更重要的是,它讓硬件第一次開始具備接近軟件的 " 敏捷迭代能力 "。
原粒半導(dǎo)體:用 Chiplet 和邊緣架構(gòu)重新組織 AI 算力
原粒半導(dǎo)體成立于 2023 年。當(dāng)時整個行業(yè)對于端側(cè) AI 的需求還遠(yuǎn)沒有今天清晰,但公司很早就選擇了 Chiplet 積木式架構(gòu),并開始圍繞邊緣端 AI 的長期運行場景做底層設(shè)計。
核心方向是嘗試讓原本需要服務(wù)器集群承載的大模型能力,以更低成本、更低功耗的形式,下沉到桌面級和邊緣級設(shè)備中。
一個很有意思的細(xì)節(jié)是,作為一家芯片公司,原粒半導(dǎo)體目前只有不到 100 名真人員工,但內(nèi)部已經(jīng)部署了大量基于 AI 的自動化流程,用于處理代碼驗證、數(shù)據(jù)清洗和架構(gòu)優(yōu)化等工作。
某種意義上,這其實是一種非常典型的 "AI Native" 研發(fā)組織形態(tài)。它不僅是在研發(fā) Agent 芯片,也在提前適應(yīng) Agent 時代的公司運行方式。更重要的是,這種內(nèi)部長期運行的真實業(yè)務(wù)環(huán)境,本身也會變成一種持續(xù)的工程驗證。
因為只有當(dāng) AI 真正開始長期參與業(yè)務(wù)流程時,芯片系統(tǒng)在穩(wěn)定性、調(diào)度能力、功耗控制以及長時間運行下的問題,才會真正暴露出來。而這恰恰是很多實驗室 Demo 與真實產(chǎn)業(yè)落地之間最大的區(qū)別。
下一代 AI 基礎(chǔ)設(shè)施的競爭,本質(zhì)上是在重新定義智能算力將如何被分配和使用。
未來的 AI 網(wǎng)絡(luò),很可能不會只有云端那一個集中式 " 大腦 ",而是會像毛細(xì)血管一樣,逐漸進入每一個具體行業(yè)場景和終端設(shè)備。云端仍然重要,但越來越多長期、高頻、低延遲的任務(wù),也會開始向本地設(shè)備遷移。
而當(dāng)邊緣端算力逐漸成熟后,AI 才真正有機會從 " 工具 " 變成一種可持續(xù)運行的新型數(shù)字生產(chǎn)力。
在這個過程中,原粒半導(dǎo)體這樣嘗試用 Chiplet 和邊緣架構(gòu)重新組織 AI 算力的公司,也正在提前展示一種未來 AI 原生公司的運行方式。