电竞比分网-中国电竞赛事及体育赛事平台

關(guān)于ZAKER 合作
鈦媒體 1小時前

大模型的有腦和無腦

文 | 沈素明

2022 年底,ChatGPT 橫空出世。

那段時間,全世界都在討論它。寫詩、寫代碼、做數(shù)學題、分析財報、辯論哲學——它什么都能接住,什么都能聊出個所以然。推理能力、語義理解、邏輯分析,讓人驚掉下巴。

人們說:大模型有腦。太有腦了。

這個判斷沒錯。大模型確實有腦。它是一個智商極高、知識極廣、反應(yīng)極快的存在。你給它一個問題,它給你一個答案。你給它一個難題,它給你一個思路。你給它一個模糊的描述,它能猜出你想說什么。

這是大模型的 " 有腦 " 一面。

但大模型還有 " 無腦 " 另一面,不是罵它。是客觀描述。

一、有腦:推理與語義

大模型的有腦,體現(xiàn)在兩個核心能力上。

第一,推理能力。

你給它一個邏輯題,它能一步一步推出來。你給它一個因果關(guān)系不明確的問題,它能幫你拆解出可能的路徑。你給它一個 A 和 B 的矛盾,它能找出矛盾點在哪里。

這不是背答案。它沒見過你的問題,但它能推。這是真正的推理能力。雖然這個推理和人腦的推理機制不同,但效果上,它確實能完成從前提推導出結(jié)論的過程。

第二,語義理解。

你說 " 預(yù)算有點緊 ",另一人說 " 資源不太夠 ",大模型知道你們在說同一件事。它不認字面,認意思。它能把不同的話、不同的詞、不同的表達方式,歸結(jié)到同一個語義空間里。

這是大模型最核心的能力。它不是關(guān)鍵詞匹配,而是真正的 " 理解 " ——雖然這個理解和人的理解不一樣,但它能跨過詞語的表象,捕捉到你真正想說的東西。

這兩樣加在一起,構(gòu)成了大模型的 " 有腦 "。它像一個通才型的天才,什么都能聊,什么都能接,什么都能給你一個像模像樣的回答。

二、無腦:無狀態(tài)與無記憶

但有腦的另一面,是無腦。

大模型有推理能力,但它沒有目標。你讓它推什么它就推什么,它不會自己說 " 我覺得你應(yīng)該先推這個 "。

大模型有語義理解,但它沒有身份。它不知道 " 我是誰 ",不知道 " 我在和誰說話 ",不知道 " 我們之前聊過什么 "。每一次對話,對它來說都是第一次。

大模型有海量知識,但它沒有記憶。不是 " 記性不好 ",是根本沒有 " 記憶 " 這個概念。你關(guān)掉對話框,它就忘了。你說了什么、你關(guān)心什么、你是什么樣的人——這些信息在對話結(jié)束的那一刻,就消失了。

更準確地說,大模型是一個 " 無狀態(tài)函數(shù) "。

你可以想象一下:森林里有一只猴子。你叫它一聲,它跳過來,按照你的指令做了一件事,然后跳走了。下一個叫它的人,它不認識,它按照新的指令做新的事。它不記得上一只猴子跟它說了什么,也不關(guān)心下一只猴子是誰。

大模型就是這只猴子。它跳過來、跳過去,響應(yīng)每一個調(diào)用者的每一個請求。響應(yīng)完了,飄走,下一個調(diào)用來了,再跳過去。

這就是大模型的 " 無腦 " 一面。你說它有腦,對。你說它無腦,也對。它是同一個東西的兩面。這個 " 有腦又無腦 " 的特征,是大模型最根本的特征。理解了這一點,就理解了所有 AI 產(chǎn)品的底層邏輯。

三、微調(diào):給大模型裝 " 專業(yè)腦 "

有人會問:那微調(diào)呢?微調(diào)之后的大模型,是不是就不一樣了?

是的。微調(diào)是另一條路。

微調(diào)是什么?是用特定領(lǐng)域的數(shù)據(jù),對預(yù)訓練的大模型做進一步訓練。比如,用海量的醫(yī)療數(shù)據(jù)微調(diào),大模型就變成了 " 醫(yī)療大模型 ";用法律數(shù)據(jù)微調(diào),它就變成了 " 法律大模型 "。

微調(diào)改變的是大模型的 " 能力邊界 "。微調(diào)之后的大模型,在特定領(lǐng)域的知識和能力會大幅提升。它知道醫(yī)療術(shù)語、診斷邏輯、治療方案;它知道法律條文、判例邏輯、訴訟流程。

從這個意義上說,微調(diào)讓大模型長出了 " 專業(yè)腦 "。它不再是那個 " 什么都懂一點但不深 " 的通才,而是變成了一個在特定領(lǐng)域有深度的專家。

但微調(diào)解決的是 " 專業(yè)能力 " 問題,不是 " 記憶 " 問題。

微調(diào)之后的大模型,知道你的公司叫什么、你的產(chǎn)品是什么、你的行業(yè)有什么特點。但它仍然記不住昨天你跟它說了什么。它仍然是無狀態(tài)的,仍然每次對話都是從頭開始。

微調(diào)改的是模型的權(quán)重,不是模型的架構(gòu)。架構(gòu)決定了它是無狀態(tài)的,這個改不了。所以,微調(diào)和不微調(diào)的大模型,在 " 記憶 " 這個維度上沒有區(qū)別。它們都無腦——不是笨,是記不住。

四、長上下文:更大的工作內(nèi)存,但不是長記憶

2024 年到 2025 年,大模型行業(yè)有一個重要進展:上下文窗口的大幅擴展。從最初的幾千年,到幾萬、幾十萬,甚至百萬級別。你可以一次性把一本書、一份年報、一個完整項目的所有文檔都塞進去。

這解決了一個真實的問題:單次對話內(nèi)的連貫性。2023 年的大模型,聊長了會忘記前面說了什么,因為上下文窗口太小?,F(xiàn)在這個問題基本解決了。但長上下文解決的是 " 這次對話能裝多少東西 ",不是 " 下次對話還記得你 "。你把一個項目的全部資料塞進上下文,大模型在這次對話中可以基于這些資料回答問題。但對話結(jié)束,關(guān)掉頁面,下次再來,這些資料就沒有了。你得重新塞一遍。

長上下文是 " 更大的工作內(nèi)存 ",不是 " 長期存儲 "。它讓一次對話能處理更多信息,但它不解決 " 跨對話的記憶 " 問題。你上個月跟它聊過什么,它不記得。你半年前做過什么決定,它不知道。你的管理風格、你的戰(zhàn)略底線——這些東西,長上下文幫不了你。

所以,長上下文解決的是單次對話內(nèi)的連貫性,這個很重要。但它和跨對話的記憶是兩回事——前者讓一次聊天不跑偏,后者讓每次聊天都認得你。兩者都需要,但解決的是不同的問題。

五、記憶系統(tǒng):讓大模型從 " 無腦 " 變 " 持續(xù)有腦 "

那怎么解決 " 記不住 " 的問題?

答案不在大模型本身,在大模型外面。

行業(yè)里有一個基本共識:大模型本身不做長期記憶。記憶要放在外面。什么叫放在外面?就是在調(diào)用大模型的時候,把歷史對話、用戶信息、上下文狀態(tài),一起打包塞給大模型。大模型看到這些信息,就知道 " 哦,之前聊過這些 ",然后基于這些信息做推理。

這不是大模型在記憶,是外部系統(tǒng)在記憶,然后喂給大模型。

這套外部系統(tǒng),一般被稱為 " 記憶系統(tǒng) " 或 " 記憶層 "。它要做什么?

第一,記住用戶是誰。

每一次用戶進來,系統(tǒng)要知道他的身份、他的歷史、他的偏好。這不是一句 " 你好,xxx" 就完了,而是要能夠把用戶的所有歷史數(shù)據(jù)——對話、決策、結(jié)論——關(guān)聯(lián)到同一個身份下。這叫用戶體系。沒有這個,所有的記憶都是散的。

第二,記住用戶說了什么。

不是記流水賬。如果只是把每一句話原封不動存下來,那叫日志,不叫記憶。真正的記憶,是要提取出用戶的思維軌跡——他是怎么分析問題的,他傾向于哪種解決方案,他在什么情況下會猶豫。這叫語義記憶。它需要把對話內(nèi)容轉(zhuǎn)化為可檢索、可理解、可推理的結(jié)構(gòu)化信息。

第三,記住時間線。

管理不是單點決策,是連續(xù)選擇。你今天做的決定,是基于三個月前的判斷。你現(xiàn)在的糾結(jié),可能半年前就有過苗頭。一個好的記憶系統(tǒng),要把用戶的每一次決策都放在時間軸上看。你什么時候啟動了一個項目,中間在哪拐了彎,什么節(jié)點做出了關(guān)鍵判斷——這些要串起來。這叫時間記憶。

第四,記住用戶的 " 底色 "。

這是最深的一層。經(jīng)過長期的使用,記憶系統(tǒng)要能慢慢 " 長 " 出一個東西——用戶的行為模式、決策偏好、風險容忍度、戰(zhàn)略底線。這些東西不是用戶說一遍就能記住的,需要長期的使用、不斷的校準。而且,用戶自己可能都說不清楚自己的 " 底色 ",需要通過行為來反推。這叫戰(zhàn)略記憶。

有了這四層記憶,大模型就不再是 " 無腦 " 的了。因為它每次被調(diào)用時,外部系統(tǒng)會把所有相關(guān)的記憶都喂給它。它看到的不只是用戶當前的問題,還有用戶的歷史、用戶的身份、用戶的底色。

它給出的回答,就不再是通用的、泛泛而談的,而是針對這個人、這個場景、這個階段的具體情況。這就是 " 持續(xù)有腦 " ——不是大模型自己有腦,是外部記憶系統(tǒng)讓它看起來有腦,而且是有針對性的腦。

六、對管理者特別重要

講到這里,你可能會問:這套東西,對普通人也適用啊,為什么特別提管理者?因為管理者的工作,有幾個特點,對記憶的要求特別高。這是 CerebrateX 作為 AI 管理專家,成為領(lǐng)導力神器必須回答的。

第一,長周期。

一個戰(zhàn)略決策的影響,可能持續(xù)一年、三年、五年。一個項目的生命周期,可能跨越多個季度。管理者在這么長的時間跨度里,很容易忘記當初為什么那么定、中間經(jīng)歷了什么調(diào)整、自己當時是怎么判斷的。

記憶系統(tǒng)可以把這些全部串起來。當你迷失在復(fù)雜的推演中,它可以告訴你:你當初的出發(fā)點是什么,你是從哪一步開始偏離的。當你做一個新決策時,它可以告訴你:你三個月前做過一個類似的判斷,當時的邏輯是什么,結(jié)果怎么樣。

第二,高密度。

管理者每天要處理大量信息。市場數(shù)據(jù)、團隊反饋、客戶需求、競爭對手動向——這些東西交織在一起,很容易讓人信息過載。人腦的短期記憶容量是有限的,塞多了就會漏。

記憶系統(tǒng)可以幫你記住那些 " 不需要時刻在腦子里但需要時能調(diào)出來 " 的信息。你不用費力去記,你只需要知道,需要的時候它能給你。

第三,一致性要求高。

管理者的最大敵人之一,是前后矛盾。今天說 A,明天說 B,團隊會混亂。但管理者也是人,會有情緒波動、會有短期壓力、會有信息盲區(qū)。在這些情況下,很容易做出與自己一貫原則相悖的決定。

記憶系統(tǒng)可以在這里扮演 " 校準器 " 的角色。當你要做一個與自己過往邏輯不一致的決定時,它會提醒你:你之前不是這么想的,現(xiàn)在變了嗎?如果變了,是因為什么?如果沒變,你為什么又要這么做?

這就是為什么 " 記憶 " 對管理者來說,不只是 " 方便 ",而是 " 必要 "。沒有記憶,就很難保持一致性。而一致性,是領(lǐng)導力的根基之一。

七、最后

大模型有腦。這一點,所有人都知道。

大模型無腦。這一點,很多人沒有意識到。

微調(diào)給它裝了專業(yè)腦,長上下文給它擴大了工作內(nèi)存。但這兩樣,都沒有解決那個根本問題:它記不住你。長上下文讓一次對話不跑偏,但跨對話的記憶,是另一回事。

真正讓大模型從 " 無腦 " 變 " 持續(xù)有腦 " 的,是外面那套記憶系統(tǒng)。用戶體系、語義記憶、時間記憶、戰(zhàn)略記憶——四層疊加,才能讓大模型在每一次對話中都知道你是誰、記得你說過什么、理解你的底色、校準你的判斷。

這件事,技術(shù)上很難。它需要從底層架構(gòu)開始設(shè)計,需要大量的研發(fā)投入,需要長期的迭代打磨。不是接個 API、套個殼就能搞定的。

相關(guān)標簽

覺得文章不錯,微信掃描分享好友

掃碼分享

熱門推薦

查看更多內(nèi)容

企業(yè)資訊

查看更多內(nèi)容