過(guò)去兩年,人形機(jī)器人和具身智能持續(xù)升溫,融資、Demo、技術(shù)敘事共同推動(dòng)行業(yè)進(jìn)入高關(guān)注周期。但熱潮向前推進(jìn)的同時(shí),另一個(gè)問(wèn)題也越來(lái)越清晰:工業(yè)場(chǎng)景并不會(huì)因?yàn)橐粋€(gè)新概念的出現(xiàn)而自動(dòng)降低門檻。
直到今年,一批喊出「進(jìn)工廠」的公司真正走到工業(yè)現(xiàn)場(chǎng)后,行業(yè)才更清楚地看到:Demo 能跑通,不等于系統(tǒng)能在工廠里長(zhǎng)期、穩(wěn)定、低故障地運(yùn)行。Figure AI 這樣的明星公司也開(kāi)始從展示技術(shù)想象,轉(zhuǎn)向證明連續(xù)作業(yè)能力。
資本和產(chǎn)業(yè)端的關(guān)注點(diǎn)正在發(fā)生變化:企業(yè)到底有哪些可復(fù)制的落地場(chǎng)景?客戶為什么愿意買單?ROI 能不能算得過(guò)來(lái)?
極客公園最近接觸到的微億智造,正是一家在這個(gè)階段更值得我們研究的公司。
微億智造是一家工業(yè)具身智能公司,從公司早期開(kāi)始將當(dāng)時(shí)的先進(jìn)生產(chǎn)力——有 AI 感知的機(jī)械臂帶進(jìn)工廠。此后,微億智造持續(xù)沿著真實(shí)產(chǎn)線需求升級(jí)具身能力:從感知到執(zhí)行,再進(jìn)一步補(bǔ)上決策與反饋,讓機(jī)器人不只是完成固定動(dòng)作,而是能在復(fù)雜、非標(biāo)、高約束的工業(yè)現(xiàn)場(chǎng)中理解任務(wù)、判斷狀態(tài)并穩(wěn)定作業(yè)。
目前,微億智造的具身智能機(jī)器人已經(jīng)在工業(yè)場(chǎng)景中落地外觀檢測(cè)、焊接、打磨、裝配等環(huán)節(jié),今年以來(lái),也在向最前沿的物流場(chǎng)景的分揀、碼籠、碼垛等任務(wù)上延伸。
在這一波具身智能的浪潮中,很多人看不懂微億智造,以為產(chǎn)品用了機(jī)械臂的形態(tài)就等于不是具身智能。不過(guò),近年來(lái)共識(shí)正在收斂——工業(yè)場(chǎng)景需要最適合它的物理形態(tài),而這并不一定是人形。
2023 年以來(lái),微億智造的訂單規(guī)模持續(xù)增長(zhǎng),研發(fā)投入也不輸許多通用機(jī)器人公司。
2023 年至 2025 年,公司研發(fā)投入分別為 1.78 億元、1.65 億元和 2.35 億元,占各期總收益的比例分別為 41.1%、27.5% 和 29.6%。近三年算力投入從 0.52 億元增至 1.51 億元。
這組數(shù)據(jù)指向的,正是工業(yè)具身智能需求正在被真實(shí)驗(yàn)證的現(xiàn)實(shí)場(chǎng)景:一方面,訂單增長(zhǎng)說(shuō)明工廠端確實(shí)在為這類能力買單;另一方面,持續(xù)高比例的研發(fā)與算力投入,也說(shuō)明微億智造并不是在做傳統(tǒng)自動(dòng)化項(xiàng)目,而是在圍繞感知、決策、執(zhí)行和反饋能力持續(xù)加碼。

01
從 2018 年開(kāi)始,把 AI 引入傳統(tǒng)機(jī)械臂
極客公園:微億智造把自己的產(chǎn)品稱為 " 工業(yè)具身智能機(jī)器人 "。但從外形上看,它似乎仍然是機(jī)械臂、相機(jī)、工裝和產(chǎn)線設(shè)備的組合。比如外觀檢測(cè),傳統(tǒng)機(jī)械臂也能做,工業(yè)具身智能機(jī)器人也能做。兩者到底有什么區(qū)別?
張志琦:是的,兩個(gè)產(chǎn)品都能做外觀檢測(cè),但它們應(yīng)用的技術(shù)不一樣,最后給客戶帶來(lái)的價(jià)值也不一樣。
微億智造 2018 年剛成立時(shí),主要產(chǎn)品其實(shí)更像是傳統(tǒng)自動(dòng)化產(chǎn)品:一個(gè)定焦相機(jī)負(fù)責(zé)拍產(chǎn)品,把圖像采集完之后,再用 AI 模型判斷它屬于哪一類缺陷,最后把不同缺陷的產(chǎn)品分開(kāi)處理。
這雖然也是使用 AI 賦能了檢測(cè),但還不能稱之為工業(yè)具身智能,因?yàn)楸举|(zhì)上,機(jī)器做的每一步仍然是被編程設(shè)定好的。
到 2022 年左右,微億智造接到一個(gè)大客戶項(xiàng)目:為兩米多長(zhǎng)的大型一體化壓鑄件做檢測(cè)和打磨。
這個(gè)零件有近 3000 個(gè)拍攝點(diǎn)位,客戶要求整套流程在 10 分鐘以內(nèi)完成。但傳統(tǒng)機(jī)械臂很難做到——光是按照固定軌跡打磨一遍,就要一個(gè)小時(shí),而熟練工人只需要七八分鐘。
差距不在機(jī)械臂速度,而在判斷能力。人會(huì)先看哪里有問(wèn)題,再只處理有缺陷的位置;傳統(tǒng)機(jī)械臂則只能按預(yù)設(shè)路徑把所有位置走完。這個(gè)客戶此前花了兩年多找服務(wù)商,都沒(méi)能解決。
微億智造后來(lái)重新設(shè)計(jì)了一套「查打一體」的工業(yè)具身智能機(jī)器人。它的基礎(chǔ),是公司從 2018 年到 2020 年逐步做出的飛拍技術(shù),讓機(jī)械臂能夠不停歇地連續(xù)拍攝,在 5 分鐘以內(nèi)拍攝 3000 個(gè)點(diǎn)位。
更關(guān)鍵的是,在這套系統(tǒng)里,點(diǎn)位和軌跡開(kāi)始能由算法自動(dòng)生成。

「看見(jiàn)—判斷—處理」的能力,正是傳統(tǒng)自動(dòng)化和工業(yè)具身智能的分界。
極客公園:如果說(shuō)在檢測(cè)和打磨里,具身智能解決的是 " 先看見(jiàn),再判斷,再處理 " 的問(wèn)題,那么其他場(chǎng)景里,它和傳統(tǒng)機(jī)械臂的差別會(huì)體現(xiàn)在哪里?
張志琦:比如 2024 年我們展示的具身智能裝配機(jī)器人為例,差別變得更加明顯。
在一些簡(jiǎn)單裝配任務(wù)里,我們現(xiàn)在可以做到:人做一遍,機(jī)器人看一遍,然后機(jī)器人理解人是怎么做的,再用雙臂協(xié)同完成整個(gè)裝配過(guò)程。
對(duì)工業(yè)客戶來(lái)說(shuō),示教成本非常關(guān)鍵。在真實(shí)工廠里,因?yàn)槊颗_(tái)設(shè)備安裝時(shí)都有公差,傳統(tǒng)機(jī)械臂需要每臺(tái)設(shè)備都分別示教,沒(méi)辦法符合柔性生產(chǎn)的需求,太麻煩了工廠寧愿選擇直接用人。
但我們現(xiàn)在可以做到通過(guò)一次視覺(jué)示范,讓機(jī)器人理解人是怎么做的,這會(huì)大大縮短客戶導(dǎo)入的時(shí)間。

比如零件已經(jīng)抓到了,你把它拿走,它會(huì)自己再去找;它本來(lái)要沿著一條路徑去取料,你把軌跡擋住,它會(huì)想辦法繞開(kāi)。過(guò)去傳統(tǒng)機(jī)械臂更多是把工程師預(yù)編程的動(dòng)作執(zhí)行出來(lái),而有「大腦」的機(jī)器人,可以根據(jù)現(xiàn)場(chǎng)變化重新做判斷。
我們現(xiàn)在也在做物流行業(yè)的碼籠場(chǎng)景,機(jī)器人能兼容各類箱體和包裹,設(shè)計(jì)放置策略智能分籠。這都是傳統(tǒng)機(jī)械臂做不到的。
02
當(dāng) VLA 撞上 0.1 毫米的工廠現(xiàn)實(shí)
極客公園:做到這些,我們使用的是 VLA 的技術(shù)嗎?普遍印象里,VLA 的技術(shù)才能帶來(lái)泛化性。
張志琦:我們認(rèn)為在工廠現(xiàn)場(chǎng),大體可以分為兩類工種:一類叫技術(shù)工種,一類叫普工。
技術(shù)工種的知識(shí),很多時(shí)候只在老師傅身上,必須到具體現(xiàn)場(chǎng)里才能獲得。比如打磨、焊接、檢測(cè),在技術(shù)工種這一層,我們使用的不是 VLA 架構(gòu),甚至我們認(rèn)為未來(lái)也不一定會(huì)使用 VLA 架構(gòu)。
它可能基于規(guī)則引擎,基于目標(biāo)對(duì)象理解、認(rèn)知、軌跡規(guī)劃和執(zhí)行,甚至在執(zhí)行過(guò)程中形成有效糾偏,不斷優(yōu)化軌跡,就能夠更快速、更高效地實(shí)現(xiàn)。它仍然是 AI 技術(shù),但模型參數(shù)可能不需要太大——百億、大幾十億就能解決問(wèn)題。
微億智造已經(jīng)積累由真實(shí)工業(yè)場(chǎng)景產(chǎn)生的、業(yè)內(nèi)規(guī)模最大的非結(jié)構(gòu)化精標(biāo)數(shù)據(jù)庫(kù),數(shù)據(jù)量超過(guò) 23TB,形成數(shù)據(jù)飛輪?,F(xiàn)在微億智造利用過(guò)往項(xiàng)目類似工藝中積累的海量精標(biāo)數(shù)據(jù)及模型,生成高效的預(yù)訓(xùn)練模型,可以大幅縮短新項(xiàng)目 AI 模型的訓(xùn)練時(shí)間及成本,將部署周期從傳統(tǒng)模式下的數(shù)月壓縮至數(shù)周。
而普工類,比如碼垛、上下料、分揀。普通人來(lái)了都能三十分鐘上崗,只要對(duì)物理世界有認(rèn)知就可以。
我們認(rèn)為需要去開(kāi)始部署端到端的技術(shù),用大量生活數(shù)據(jù)灌出一個(gè)操作泛化性更強(qiáng)的模型,然后再通過(guò)工廠特定場(chǎng)景進(jìn)行一定的模型泛化,再去落地實(shí)現(xiàn)。我們從二三年前開(kāi)始前瞻性地去看 VLA 這樣的技術(shù),今年開(kāi)始項(xiàng)目 POC。
極客公園:我們目前 POC 的項(xiàng)目情況如何?
張志琦:我們目前在 POC 幾個(gè)不同的場(chǎng)景。
物流場(chǎng)景比如無(wú)序碼籠。無(wú)序碼籠指的是箱體大小不一致,要把它碼到一個(gè)大的籠子里,供下一步物流處理。

但我們?cè)谶^(guò)程中也在不斷積累數(shù)據(jù)。客戶也愿意和我們共建這個(gè)場(chǎng)景。我們正在試圖解決的問(wèn)題和通用機(jī)器人公司在工業(yè)領(lǐng)域試圖解決的問(wèn)題是類似的。
甚至我們自己看起來(lái),像無(wú)序碼籠這樣的任務(wù),技術(shù)難度甚至比供料更高,因?yàn)橄渥颖旧硇枰欢ǖ牟呗匀ザ询B,而不是簡(jiǎn)單的把快遞翻面。大箱子鋪底,小箱子找地方插進(jìn)去。如果箱子有破損、異形件、易損件,都需要特殊處理,這里面有大量人的經(jīng)驗(yàn)在起作用,對(duì)感知和決策都提出了更高的需求。
極客公園:會(huì)不會(huì)存在一種情況,VLA 未來(lái)發(fā)展的足夠好,把所有原來(lái)的專用場(chǎng)景的小模型覆蓋的領(lǐng)域都覆蓋掉了?
張志琦:未來(lái)的技術(shù)發(fā)展很難判斷。至少最近三五年內(nèi),不太可能在技術(shù)工種場(chǎng)景里用 VLA 把它替代掉,即使普工場(chǎng)景也很難馬上替代。
原因之一是 VLA 目前的精度不夠,就算強(qiáng)優(yōu)化完,也大概是厘米級(jí),或者幾毫米級(jí)。但像 CNC 上下料這樣的場(chǎng)景,雖然屬于普工范疇,需要的誤差在 0.1 毫米以內(nèi),而且不允許出錯(cuò),那就仍然沒(méi)法用 VLA 做。

我們 2018 年開(kāi)始做的,前面說(shuō)的偏自動(dòng)化設(shè)備的「AI 賦能的智能化產(chǎn)品」,到今天仍然還是有收入。就是因?yàn)槟切﹫?chǎng)景下,原有自動(dòng)化配合簡(jiǎn)單的 AI 能力已經(jīng)能解決好問(wèn)題了,那就應(yīng)該繼續(xù)做。
極客公園:如果 VLA 不是唯一答案,物理 AI 會(huì)不會(huì)是一個(gè)更大的技術(shù)框架?您怎么理解它和工業(yè)具身智能之間的關(guān)系?
張志琦:如果從技術(shù)實(shí)現(xiàn)來(lái)看,業(yè)內(nèi)講物理 AI,很大概率是在講世界模型。也就是讓 AI 能夠理解物理空間、物理場(chǎng)景、物體之間的關(guān)系,以及物理規(guī)則本身。
具身智能更強(qiáng)調(diào)「本體」和「模型」的深度結(jié)合,物理 AI 承載的可能比具身智能更大。它不一定必須綁定某一種機(jī)器人本體。未來(lái)如果世界模型足夠強(qiáng),機(jī)器人本體反而可能沒(méi)有那么重要。
我們認(rèn)為工業(yè)場(chǎng)景會(huì)是物理 AI 相對(duì)更早落地的方向之一。原因很簡(jiǎn)單:工業(yè)場(chǎng)景中的對(duì)象相對(duì)有限、任務(wù)邊界相對(duì)清晰,所以技術(shù)上更容易達(dá)到可用狀態(tài)。
03
競(jìng)爭(zhēng)對(duì)手將是越來(lái)越不像人的人形機(jī)器人
極客公園:今年以來(lái),微億智造的客戶情況有什么變化?
張志琦:客戶在行業(yè)層面一直在擴(kuò)展。新能源汽車、3C 消費(fèi)電子這些原有客戶,每年都持續(xù)下單,包括原有場(chǎng)景的復(fù)制和新場(chǎng)景的落地。
工業(yè)場(chǎng)景,客戶信賴是很重要的??蛻魰?huì)覺(jué)得原來(lái)這個(gè)很好用,就會(huì)問(wèn)這個(gè)新場(chǎng)景還有一堆人,能不能換。我們跟著客戶的需求再往前推進(jìn)。
今年比較欣喜的是海外也開(kāi)始從 0 到 1。未來(lái)兩三年,我們希望海外收入做到 20% 到 30%。一方面,把國(guó)內(nèi)打磨過(guò)的成熟產(chǎn)品通過(guò)海外渠道快速推;另一方面,海外也有自己的需求。有些項(xiàng)目在國(guó)內(nèi) ROI 算不過(guò)來(lái),在海外可能能算過(guò)來(lái)。
極客公園:下一步技術(shù)能力上,更關(guān)注什么部分?
張志琦:下一步是把觸覺(jué)能力進(jìn)一步打通。今天很多項(xiàng)目不太敢碰,核心就在觸覺(jué)。比如插拔、理線,都和觸覺(jué)有關(guān)。
但觸覺(jué)的技術(shù)發(fā)展遠(yuǎn)低于視覺(jué)。把觸覺(jué)加進(jìn)去,整個(gè)模型會(huì)發(fā)生很大變化,甚至不一定是語(yǔ)言模型。
我們的判斷是:觸覺(jué)模型加入后,視覺(jué)仍然會(huì)起重要作用。純觸覺(jué)能做的事情很少,但結(jié)合視覺(jué)判斷后,能做的事情會(huì)多很多。
從去年開(kāi)始,我們已經(jīng)在做觸覺(jué)方面的前沿研究,更多是把觸覺(jué)模型做深度融合。兩套技術(shù)都在看:霍爾和視觸覺(jué)。
極客公園:未來(lái)三年,你認(rèn)為工業(yè)具身智能哪些細(xì)分賽道會(huì)進(jìn)一步爆發(fā)?
張志琦:人多的地方都有機(jī)會(huì)。哪怕具身側(cè)收入每年翻番,我也不覺(jué)得離天花板接近了。技術(shù)還要繼續(xù)提升。
但我覺(jué)得現(xiàn)在還離真正爆發(fā)很遠(yuǎn)。如果真要說(shuō)爆發(fā),那應(yīng)該是工廠里人明顯減少,甚至下降 4/5 還能生產(chǎn)。
以前工廠是把人當(dāng)機(jī)器。質(zhì)檢對(duì)眼睛傷害很大,強(qiáng)光下看產(chǎn)品,20 多歲的小姑娘看兩年,眼睛可能就不行了。拆碼垛這種重體力活,對(duì)人的腰和身體也有不可逆損傷。
極客公園:未來(lái)的競(jìng)爭(zhēng)中,傳統(tǒng)工業(yè)機(jī)械臂公司、微億智造這樣的工業(yè)具身智能公司,以及追求泛化 AGI 的具身智能公司,各自優(yōu)勢(shì)和短板是什么?
張志琦:我們的優(yōu)勢(shì)還是場(chǎng)景理解。很多公司說(shuō)「我也能干」,那就來(lái)試試。具身最好玩的地方就是,是騾子是馬,牽出來(lái)遛遛,客戶買不買單最清楚。

今天我們的競(jìng)爭(zhēng)對(duì)手可能很多還是自動(dòng)化公司。坦白講,自動(dòng)化公司里也有能工巧匠,可以做出一些結(jié)構(gòu)和構(gòu)型,滿足柔性生產(chǎn)需求。
但中長(zhǎng)期看,大概率是做得越來(lái)越不像人的人形機(jī)器人公司。
對(duì)于追求 AGI 的具身智能公司而言,估值核心還是生活場(chǎng)景,但生活場(chǎng)景又太難。走著走著就會(huì)偏向工業(yè),又發(fā)現(xiàn)純?nèi)诵尾皇呛线m架構(gòu),于是開(kāi)始做泛人形。泛人形在生活場(chǎng)景里又有問(wèn)題。
這兩年人形公司已經(jīng)開(kāi)始講,我們的產(chǎn)品叫泛人形。泛人形的問(wèn)題是它還要加個(gè)「人形」,因?yàn)橛腥诵喂镜陌ぃ€得加個(gè)頭。你說(shuō)有啥差異?沒(méi)啥差異。
我覺(jué)得這些都是最早堅(jiān)持全人形結(jié)構(gòu)時(shí),大家講給投資人聽(tīng)的故事。到今天實(shí)操上,大家都會(huì)覺(jué)得有成本。多一個(gè)關(guān)節(jié)、多一個(gè)自由度,計(jì)算算力要求就會(huì)很高。一個(gè)全身四五十個(gè)自由度,要多少算力才能完成?
回到工廠場(chǎng)景里,還是那句話,工廠在意的是能解決問(wèn)題。
極客公園:只做工業(yè)的話,外界會(huì)不會(huì)擔(dān)心你們?cè)谝粋€(gè)個(gè)的項(xiàng)目交付中損耗了精力,沒(méi)有更多的技術(shù)力量往更高的目標(biāo)上去走?
張志琦:這個(gè)擔(dān)心有點(diǎn)多。今天在 AI 技術(shù)投入上,微億和國(guó)內(nèi)絕大多數(shù) AI 公司是比較接近的。我們不是以項(xiàng)目交付為根本,而是以研發(fā)為核心。
我們這一代 AI 公司和上一代 AI 公司相比,最大的差異是:物理 AI 世界里一定有一個(gè)載體。有載體,就有和物理世界的交互,就有反饋機(jī)制,有新的數(shù)據(jù)出來(lái)。所以也一定會(huì)有一批新公司出來(lái)。
極客公園:你覺(jué)得市場(chǎng)宣傳或投資人敘事里,最不靠譜的是什么?
張志琦:以前發(fā)一個(gè)機(jī)械本體、一個(gè)人形外觀,大家就覺(jué)得這家公司能做人形。到今天,二級(jí)市場(chǎng)上這類公司也很多,但再發(fā)一個(gè)人形外觀,大家已經(jīng)不信了。
以前很多演示背后有人遙操,大家還不知道。現(xiàn)在大家慢慢理解,有些是自主,有些是遙操。這個(gè)變化的核心,是大家越來(lái)越認(rèn)識(shí)到 AI 在這里面是核心,也知道有些公司做的是運(yùn)動(dòng)控制,不做大腦。
所以對(duì)我們來(lái)說(shuō),過(guò)去可能吃虧的是外形看起來(lái)像機(jī)械臂。但現(xiàn)在我們更希望大家理解,有腦和沒(méi)腦的機(jī)械臂差別很大。
* 頭圖來(lái)源:微億智造
本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請(qǐng)聯(lián)系極客君微信 geekparkGO