4 月 11 日 -12 日,以 " 推進新能源汽車智能化、綠色化、融合化、國際化發(fā)展 " 為主題的智能電動汽車發(fā)展高層論壇(2026)在北京國家會議中心舉行。來自汽車、能源、交通、人工智能等領(lǐng)域的代表,圍繞全球及中國新能源汽車發(fā)展態(tài)勢、汽車消費促進與擴大、智能網(wǎng)聯(lián)汽車演進方向、人工智能與汽車深度融合、新能源汽車出海及全球協(xié)作、商用車電動化與智能化轉(zhuǎn)型等議題,展開了深入交流與探討。

然而,盡管同質(zhì)化嚴(yán)重,但大模型的深入應(yīng)用還是為行業(yè)帶來了新空間。佘士東回顧了大模型上車的演進路徑,并提出行業(yè)正從傳統(tǒng)的 " 人 - 機交互 " 轉(zhuǎn)向 " 人 - 智 - 體 " 三方服務(wù)關(guān)系,以智能體為中樞,連接用戶與車控、生態(tài)、信息服務(wù),本質(zhì)上是讓機器服務(wù)人而非人適應(yīng)機器。
這一轉(zhuǎn)變帶來了兩個核心變化,首先是人與 " 智 " 的關(guān)系。過去用戶使用語音需要精準(zhǔn)下達指令,比如 " 打開空調(diào) " 或 " 打開二排右側(cè)座椅按摩 ",本質(zhì)上仍是人在學(xué)習(xí)機器的語言?,F(xiàn)在用戶只需陳述感受或事實,比如 " 我冷了 "" 我的孩子有點出汗 " 或 " 孩子睡著了 ",智能體就成了一個能思考、能回憶的類人對象。
更重要的是,一旦智能體擁有了認(rèn)知和記憶能力,就能實現(xiàn)全時主動服務(wù)——不是基于預(yù)設(shè)規(guī)則的場景觸發(fā),而是通過端側(cè)模型 " 看到、聽到、感到 " 甚至 " 想到 ",比如記住用戶前天說過的話,在合適時機主動提供服務(wù)。不過佘士東也坦言,車上交互頻率很低,長城近千萬用戶數(shù)據(jù)顯示平均每小時人車交互僅 4 到 5 次,因此主動服務(wù)必須精準(zhǔn)克制。
其次是 " 智 " 與 " 體 " 的關(guān)系。座艙開發(fā)范式正在發(fā)生根本變化,從設(shè)計交互界面和功能聚合,轉(zhuǎn)向把所有能力 " 原子化 " 以便大模型直接調(diào)用。在車控層面,智能體需要從 " 認(rèn)位置 " 進化到 " 認(rèn)人 ";在生態(tài)層面,長城已接入 6 家音樂軟件、4 家視頻軟件、2 家地圖軟件,并通過小程序?qū)崿F(xiàn)百萬級服務(wù)直接上車,面對極大豐富的生態(tài),用戶不再需要知道用哪個軟件或?qū)W習(xí)層級菜單,只需通過對話,智能體就會在后臺完成一切,實現(xiàn) " 無 app 化 " 的體驗。此外,泛聊天正在成為核心服務(wù)方式,在 AI 加持下問答的邊界已經(jīng)消失。
佘士東預(yù)測,未來車上的大屏可能只是服務(wù)的可視化窗口,人與車的主要溝通方式將變成對話。事實上,過去兩年用戶通過物理按鍵操作屏幕的次數(shù)已經(jīng)降了一個數(shù)量級,從單次旅程二三十次變?yōu)閭€位數(shù)。
這些理念已在長城實現(xiàn)工程落地。首款實現(xiàn) " 原生 AI 艙駕智能體 " 的 V9X 車型將于下周開啟預(yù)售,后續(xù)共有 11 款車型會陸續(xù)搭載 " 人 - 智 - 體 " 交互體驗。佘士東最后用 " 場外的馬拉松 " 來比喻這一進程,認(rèn)為目前仍處于 " 相識、相知 " 的初級階段,智能體剛剛開始認(rèn)識用戶,工程師把基礎(chǔ)知識喂給了模型,這些關(guān)于 " 提供更美好生活方式 " 的課題,行業(yè)尚未真正開始探索,但長城正在這條路上跑出自己的節(jié)奏。
以下為嘉賓演講實錄:
2026 年 4 月 11 日,智能電動汽車發(fā)展高層論壇 ( 2026 ) 正式召開。長城汽車智能化產(chǎn)品副總經(jīng)理 佘士東在會上發(fā)表主旨演講,請根據(jù)下面的速記內(nèi)容,提煉出一些核心觀點整理成文章,內(nèi)容一定要和速記核對準(zhǔn)確,不能有信息錯誤:
大家上午好!長城今年是第 36 年,整個汽車行業(yè)年輕化趨勢非常大,估計在場的應(yīng)該有很多都沒有長城汽車的年齡大。
我們今天雖然是一個年齡很大的車廠,但是在整個 AI 領(lǐng)域,也是有一些自己的實踐和思考。今天借這個機會,跟大家做一個分享。
我今天分享的主題是 "AIUI:‘人 - 智 - 體’座艙智能體交互新范式 "。
最近這兩年,2024、2025 年的車展上陸續(xù)都能看到座艙是高度同質(zhì)化的,上了車之后,基本上是一個 3D 的車,壁紙桌面、導(dǎo)航和智駕分層的桌面都是高度同質(zhì)化的,Dock 欄也放在同樣的位置,也有非常豐富的 APP 生態(tài),高度同質(zhì)化。我們把市面上能采集到的 200 多款不同的交互界面喂大模型之后,大模型給出的結(jié)論 " 相似度 95% 以上 ",其實已經(jīng)進入了一個非常痛苦的局面。車廠在做新東西的時候發(fā)現(xiàn)無米下鍋,已經(jīng)進入這樣一個狀態(tài)。
但是我們又看到一個機會,這個機會也開始陸續(xù)大模型上車,大家也在探索一些從原來的人機交互的時代向新的面向于人服務(wù)的時代,產(chǎn)生了一個巨大的機會變化,也看到了很多有突破性的特別有創(chuàng)意的一些點子。
大模型逐漸深入應(yīng)用。從最早 2022、2023 年,我們也把大模型引入到車?yán)?,其實那個時候大家都知道,讓大模型聊天、回答問題,包括 DeepSeek 上車,我們稱之為后置式大模型的生成內(nèi)容,無論是生成壁紙、路徑規(guī)劃,都是非常初級的階段。今年上半年,包括去年的下半年開始出現(xiàn)了所謂的智能體的語音,也就是可以開始做更廣義的用戶意圖理解,包括上下文場景的理解,還有所謂記憶的引入,開始有了語音智能體,能更好地理解你想做什么。再往后我們也看到了一些自然對話伴隨的智能體,無論是特斯拉在北美的 Grok,以及今年春晚爭搶比較嚴(yán)重的,在搶奪所謂大模型新的路口,我們在車上也看到了類似這樣的趨勢,也在判斷車上將來會不會大模型的語音化作為新的入口。再往后更多會有一些主動服務(wù)的產(chǎn)品。這是整個行業(yè)大概的趨勢。
這個過程中,跟行業(yè)里交流時發(fā)現(xiàn)一個核心的趨勢變化,從原來的人 - 機交互,人去使用車上的這些功能,車給你反饋各種各樣的信息,到人智體這樣一個三方服務(wù)的過程。其實原來人機交互的時代,也不是沒有做,大家都聽過車上有冰箱、彩電、大沙發(fā),但是可能很多人去思考為什么車上的非司機類的服務(wù)變得越來越多,大家開始越來越多地關(guān)注副駕屏,關(guān)注后排的舒適性,關(guān)注后排的娛樂性,這也是整個車從原來的司機跟車之間的人機交互逐漸演變?yōu)槌丝腿藛T跟車之間的交互,這個其實在整個行業(yè)里我們發(fā)現(xiàn)它已經(jīng)走了三年,從 2023 到 2026 年,基本上行業(yè)里邊大概是走這樣一個過程,市面上會越來越多地看到大六座的車型,包括冰箱、彩電、大沙發(fā),越來越多的豪華性的配置上車,其實整體來看基本上還處于一個人機交互的時代。我們看到這樣一個趨勢,就是整個智能體接入之后,在座各位電腦上很多都已經(jīng)裝到了不同形態(tài)的龍蝦,車載領(lǐng)域也會有這樣一個產(chǎn)品形態(tài)出現(xiàn),所謂 " 人 - 智 - 體 " 三方的關(guān)系。一旦車上開始介入了智能體作為中間的一個中介,它就能實現(xiàn)這樣一個體驗,我們識別到可能重點是兩個,當(dāng)然長城汽車在這一點上已經(jīng)做了很多工程落地,包括具體車型的開發(fā),已經(jīng)不是一個理念層的發(fā)現(xiàn),而是實戰(zhàn)上確實通過人 - 智 - 體這樣一個三方的服務(wù),帶來一些具體體驗的提升。
整個 " 人 - 智 - 體 " 服務(wù)的關(guān)系,從原來的人 - 機分成了人和智能體,當(dāng)然這個體更多的車上就是指車控以及生態(tài),還有用戶可能希望通過聊天等獲取一些服務(wù),這是三方的關(guān)系。我們又看到人跟智之間核心的關(guān)系也產(chǎn)生了一些變化,從原來的人去適應(yīng)屏幕上的這些功能按鍵,點擊這些物理按鍵,操作這些功能,甚至現(xiàn)在市面上大多數(shù)的語音仍然是人機交互系統(tǒng),我們在操作一個功能的時候也會非常直白地腦子里去想我要打開空調(diào),我要打開二排右側(cè)座椅的按摩功能,它仍然是一個人在學(xué)習(xí)機器的過程。自然對話的服務(wù)產(chǎn)生的變化是人會回歸到陳述一個自己的感受,陳述一個事實或者直接說自己的意圖。簡單來說他想打開空調(diào)不會說 " 打開空調(diào) ",可能直接說 " 我冷了 ",或者是 " 我的孩子有點出汗 " 或者是 " 我孩子睡著了 " 等一系列的方式,會把整個接收這個語音的對象變成一個能考慮問題、能回憶的一個類人的對象來對話,而不是把它當(dāng)作機器,被動地去接受我們的命令。這是一部分人 - 智之間的關(guān)系產(chǎn)生的變化。智能體一旦擁有了這些東西,逐漸地在跟你對話的過程中,觀察你使用車的過程,它就會傾向于進行全時的主動服務(wù)。當(dāng)然所謂的 " 全時主動服務(wù) " 并不是根據(jù)原來的場景引擎或者是各種任務(wù)編排等功能,并不是簡單地去根據(jù)車上的一些狀態(tài)做觸發(fā),而是它真的能通過端側(cè)的認(rèn)知模型,能看到、聽到、感到,并且還有一個比較特殊的,也是最近突然間爆發(fā)的 Hi Agent,它突然能想到你前天說過的話,我今天是不是應(yīng)該給你提供對應(yīng)的服務(wù),或者是你曾經(jīng)跟我交流過什么,今天是不是對應(yīng)的這個服務(wù)要產(chǎn)生觸發(fā)的一個機會了。所以,全時的主動服務(wù)前置一定是全時的認(rèn)知,這是我們識別到的在 " 人 - 智 - 體 " 三方關(guān)系里最先改變的其實是人跟智之間交互的關(guān)系。而從整個行業(yè)來看,基本上這個趨勢也是非常明確的,大家都在通過一系列大模型上車,端側(cè)算力部署,實現(xiàn)人跟智之間的關(guān)系。但是馬上就會遇到一個問題,我們都知道車上的交互或者是交流實際上比較稀疏,長城汽車近千萬用戶的車聯(lián)網(wǎng)數(shù)據(jù),我們平均分析了一下,大概一個小時人跟車的交互是 4 到 5 次,是非常稀疏的使用過程。即使引入了新的主動服務(wù),它也不會時不時就給用戶蹦出來一個東西,然后非常高頻地進行服務(wù)。
對于智跟體之間的關(guān)系,怎么樣把車上所有的這些功能做一個有效的整合?我們看了一下非常宏觀的行業(yè)分析,從最早的 90 年代的 DOS 系統(tǒng),包括后邊的 Windows 和 GUI 以及后邊的 SOA,給機器提供這些訪問接口,以及最近通過短短一年的時間拋出來一堆新的概念 MCP、A2A、SKILL、CLI,每一個概念出來大家都認(rèn)為它很快要火了,為什么這里邊出現(xiàn)越來越多回到了起點一樣的感覺呢?是因為也是發(fā)現(xiàn)了原來的人跟機之間交互的形式也在逐漸地演變?yōu)橹虚g的智能體跟具體身體之間的交互,這里邊也會產(chǎn)生比較大的變化,在車上也會陸陸續(xù)續(xù)看到有很多 Skills,以及以 CRI 命令行的方式提供的一系列的接口。所以,人機交互越來越友好的趨勢開始到讓機器能夠直接使用機器的過程,座艙的開發(fā)范式也在不斷變化,原來可能考慮我們要設(shè)置音樂界面,要考慮交互的層級,要考慮車控里功能的聚合,到后邊可能更多地是考慮怎么樣把所有的這些能力原子化,可被直接調(diào)用,包括可被直接的大模型訪問,訪問他們的源數(shù)據(jù),訪問他們的能力。這個上面的變化,也是整個座艙的開發(fā)上的一個巨大的變化。
在具體的 " 體 " 的服務(wù)的類別上,我們也產(chǎn)生了一些細(xì)微的變化。從最直接的車控上面,用戶從原來可能直接希望實現(xiàn)功能直接的一一映射,比如我說打開空調(diào),調(diào)到多少度,它就應(yīng)該去執(zhí)行。逐漸變?yōu)橛脩粼絹碓缴俚孛枋鼍珳?zhǔn)的命令,而是更模糊地表達自己的意圖。比如車窗起霧、前面玻璃臟了、我看不到后邊的車等,這種陳述客觀事實的方式,就需要智能體自己了解車的相關(guān)信息,當(dāng)然知道車的這個東西并不只是知道車的狀態(tài),里邊還包括車的相關(guān)的知識。比如我們上車之后說 " 我冷了 ",實際上車上有方向盤加熱、座椅加熱,甚至一些車還有不同位置的環(huán)保式的加熱,比如門板的扶手等都有一些加熱能力,還有空調(diào)的加熱。當(dāng)用戶說 " 冷了 " 的時候,到底它應(yīng)該先開哪個、后開哪個,以及在不同的情況下是否還需要關(guān)掉別的?這種情況下就需要知道車上所有的這些零部件相關(guān)的一些性能參數(shù)。比如方向盤可能加熱是最快的,它十幾秒左右就能讓你感覺到手已經(jīng)不冷,但是你的手背可能是冷的,你的腳可能是冷的,它會有一個漸進式地加熱過程,這都需要對于整個車的配置、性能和功能參數(shù)等這些有非常強的一個了解能力和理解能力,才能實現(xiàn)真正的智車。認(rèn)人也不是原來的只用考慮坐在副駕、后排這樣位置的差分,我們希望帶來的體驗更多的是引入了真正記憶到這個人是誰。
舉個簡單的例子,大家開智能化的汽車有一個日常的體感,比如車上坐了三個人,你會坐在后排右側(cè),如果你想打開座椅加熱會怎么描述這個功能呢?可能腦子里會想," 小魏同學(xué),幫我打開二排右側(cè)座椅加熱 "。它腦子里會有一個復(fù)雜的功能對照的思考過程,我們希望它能演變成一個方式是什么呢?直接說給 mongo 或者說給豆豆打開座椅加熱,會變成由智能體理解這個人坐在哪里,他使用什么樣的方式,你也許看到了他的車窗已經(jīng)處于打開的狀態(tài),是不是先幫她打開車窗,以及出風(fēng)口的方向是不是對準(zhǔn)了這個人,她的身高是不是都介入了一個思考的過程。所以,在認(rèn)人的過程里,也是從原來的功能指向性開始變相面向于人服務(wù)的過程。
當(dāng)然記事可能是用戶對于整個智能體更高的一個要求,比如他會提昨天我聽了那個歌,或者是上周我們?nèi)サ哪莻€地方,或者是昨天我們聊的那個東西,他都會作為一個控制車的上下文或者是背景知識,來更好地提供這樣的服務(wù)和體驗。
我們發(fā)現(xiàn)大模型有自身的學(xué)習(xí)能力,包括它自己在成長的一個過程。比如你介紹了這是吳先生,如果你用對應(yīng)的一個話術(shù)說,給我吳哥或者是給我哥們兒打開這樣一個功能 ",它也是能夠?qū)?yīng)到一個人。所以在語音技術(shù)的體驗上,完全可以做到回歸到用戶自身,完全忽略掉車上到底有什么功能和配置的過程里邊。包括它也會結(jié)合車上不同的亮點的配置,實現(xiàn)一個最優(yōu)的體驗,不是只是你讓它打開空調(diào)的時候它給你開空調(diào),而是同時也會讓你的背部、臀部以及手部變得更溫暖的一些方式,它也會同時給你提供這些對應(yīng)的服務(wù)。
第二個 " 體 " 的服務(wù)是生態(tài)。這里的 " 生態(tài) " 在車上已經(jīng)非常豐富了。長城汽車接了六家不同的音樂軟件,四家視頻軟件、兩家地圖軟件,包括支持全棧的手側(cè)互聯(lián),我們在座的所有人的手機在車上都能實現(xiàn)手側(cè)互聯(lián)。行業(yè)大家一直說在卷,到底卷什么?其實就是堆料,軟件行業(yè)的堆料已經(jīng)做到了基本上大家能夠在手機上使用到的生態(tài)在車上都能看到。更夸張的是我們在車上實現(xiàn)小程序,它的規(guī)模不是像以前一樣可能上二三十個對應(yīng)的生活服務(wù),而是直接百萬級的服務(wù)直接上車。在極大化豐富的生態(tài)情況下,用戶怎么找到他真正想要的?比如他想播一個歌,能不能找到那個最合適的給他播放音樂的人,包括找到到底哪個買的會員,在哪個里邊推薦的時候這個音樂軟件更能了解他個性化的偏好,他日常經(jīng)常使用哪些這個生態(tài),其實都會找到一些變化。包括這些生態(tài)提供的方式,原來可能更多的是一些界面,你點開這個應(yīng)用,一級級操作下去,然后用搜索框、分類列表來使用。但是我們發(fā)現(xiàn)可能在很快的一個未來,就會變成影音的這些內(nèi)容,基本上都是用對話的方式來提供,不再需要關(guān)注一個 app 到底長什么樣,也不需要學(xué)習(xí)這個 app 的功能和層級的這些方式,它會采用你說的話,直接幫你播放,幫你打開。所以,我們提出來 " 流式影音 " 的服務(wù)方式,采用問答的生活服務(wù)的方式,當(dāng)然它也可以接續(xù)后邊支付的能力,比如大家在車上會使用到點餐、點外賣、點咖啡,但是整個過程中,用戶看到實際的數(shù)據(jù)并不是他一直在探索新的東西,用戶實際上在生活里可能點咖啡經(jīng)常點生椰拿鐵,他習(xí)慣性的內(nèi)容實際上已經(jīng)作為車?yán)铽@取生態(tài)服務(wù)的一個方式。我們怎么樣在幾百個不同的咖啡飲品提供的供應(yīng)商的小程序或者是生態(tài)服務(wù)里找到用戶最需要用的那個,可能是未來生態(tài)的一個重要的解決方案,怎么樣以智能體的方式來統(tǒng)籌生態(tài),實現(xiàn)無 app 化的目標(biāo)。
第三,我們識別到整個車上的核心服務(wù),其實就是泛聊天,當(dāng)然這個聊天不是簡單的 " 你問我答 ",而是它真的能夠幫你通過對話的方式解決一些問題。比如在座的一些可能接觸過語音行業(yè),語音里邊在后臺接一兩百個信源非常正常,用戶可能會問股票的價格、新聞、最近茅臺多少錢,以及可能會問類似的,但是在大模型加持或者是 AI 加持的情況下,我們發(fā)現(xiàn)用戶在問答的邊界已經(jīng)沒有了,他在整個問答的過程中,會隨時跳出你給他限定的功能服務(wù)的范圍,他會隨時打破自己的上下文,可能聊著音樂,他馬上會說你幫我播一下,可能會想知道關(guān)于唱歌這個人的一些八卦,包括他前兩天是不是有些新聞,包括他在這個過程中也會直接說我挺喜歡這個人,就會形成一些記憶的內(nèi)容,也可能產(chǎn)生一些常識上的東西,比如之前說了《明月幾時有》這樣一首歌,反過來可能問這首詩誰寫的,以及這個詩人的歷史介紹,包括他所在的朝代等等。將來可能會用聊天的方式,它極有可能會作為用戶的一個核心提供服務(wù)的方式,并且也會作為極大化的服務(wù)承載方式,包括車控服務(wù)的能力,以及生態(tài)的服務(wù)能力,將來有可能都會以聊天的形式來提供服務(wù),車上的大屏可能只是一個服務(wù)的可視化的窗口,比如你想顯示歌詞,想顯示具體屏幕影音的東西,或者你想看一個更大的地圖,它可能是作為一個屏幕的載體,而原有的人機交互,人抬起手來去找某一個功能的事可能極大化地縮減。我們之前看到過去兩年的數(shù)據(jù),用戶用物理按鍵操作整個屏幕的過程已經(jīng)降了一個數(shù)量級,基本上從原來一輛車交互 2 到 30 次,現(xiàn)在使用語音的過程可能變成個位數(shù),整個過程中 " 人 - 智 - 體 " 核心的服務(wù)將來以對話式的方式或者是聊天的方式,極有可能成為一個最主要的跟車之間的交流或者溝通的方式。
除了能自然地聊天之外,其實它也能夠在使用車上的這些生態(tài)的服務(wù),講一些多媒體的不同的 app 里邊的內(nèi)容,也能結(jié)合導(dǎo)航、智駕來操縱整個這輛車上具體的一些體驗。也就是整個智能體在使用這些功能的時候,已經(jīng)完全地智能體服務(wù)化,而用戶不需要在中間過多地介入,非常像我們在使用小龍蝦的體驗,它自己在進化自己,自己在執(zhí)行自己(的命令),人只需要把自己的意圖表達進去就可以了。燈光的這些功能都是在場景下自己去發(fā)現(xiàn)并且生成出來的,當(dāng)然一些原子的功能肯定是通過 SOA 或者是 Skill 的方式打開,它自己會發(fā)現(xiàn)夜間的場景,會發(fā)現(xiàn)它需要轉(zhuǎn)彎,會發(fā)現(xiàn)它需要過窄道。
整個這個體驗我們也是用在了長城 11 款車,車型剛剛準(zhǔn)備發(fā)布,下周會進行預(yù)售發(fā)布會,V9X 車型,后邊一共 11 款車會陸續(xù)搭載類似 " 人 - 智 - 體 " 交互的體驗,我們整個執(zhí)行的過程中發(fā)現(xiàn),它就跟我們在場外看到的馬拉松一樣,剛剛開始,我們現(xiàn)在能做到的也只是相識、相知的階段,也就是我剛開始認(rèn)識人,剛開始知道它非?;A(chǔ)的一些工程師知道的東西,喂給了這個模型,至于更后邊的比如怎么樣能給用戶提供更美好的生活方式,你在推薦餐廳的時候不只是常去推薦一個人均 60、70 塊錢的餐廳,是不是偶爾在節(jié)假日的時候也能推薦一個人均兩三百甚至四五百的,讓你家人可以過一個浪漫周末的東西,更多地去考慮給你帶來一些更美好的生活方式,這樣的一些過程,其實現(xiàn)階段還沒有開始,我們也在探索對應(yīng)的一些實現(xiàn)的方式。包括更多的桌端的介入,比如耳機的介入、家庭陪伴機器人的介入、智能眼鏡的介入,是不是可以做全時的智能體的跟隨,后邊需要走很長一段路。長城汽車可能未來會陸續(xù)地推出三個平臺來做對應(yīng)的整個智能體的演進,下周會發(fā)布 VIS,后邊還有歸元 A、歸元 Q 等等不同平臺,搭載不同算力的端側(cè)性能。我們第一代,也是我們認(rèn)為今年行業(yè)里首個能夠?qū)崿F(xiàn)原生 AI 艙駕的智能體的車型,大家在樓下可以實車體驗一下。
更多原創(chuàng)熱點汽車資訊可關(guān)注 58 汽車微信號:wubache