帶多模態(tài)的 Agent 模型,真就了不起。
一句話,十幾分鐘,仿寫一個(gè)網(wǎng)頁版 MacOS 界面。



它能感知現(xiàn)實(shí)場景,讀屏并操作 GUI,從視覺參考里寫代碼,端到端導(dǎo)航 App,還能結(jié)合網(wǎng)頁知識回答視覺問題。
以前很多模型擅長單點(diǎn)能力,看圖歸看圖,寫代碼歸寫代碼,瀏覽網(wǎng)頁歸瀏覽網(wǎng)頁。
Qwen3.7-Plus 想把它們放進(jìn)同一個(gè)循環(huán)。
這也是 "Hybrid"(混合)的含義。
官方展示里,最突出的是一個(gè)長程 App 研發(fā)任務(wù)。
團(tuán)隊(duì)基于 Qwen3.7 構(gòu)建的 Hybrid-Agent 系統(tǒng),連續(xù)穩(wěn)定運(yùn)行超過 11 小時(shí),自動(dòng)完成一個(gè)英語詞匯學(xué)習(xí) App 的完整研發(fā)周期。
覆蓋需求文檔生成、自動(dòng)編碼、安裝部署、測試用例創(chuàng)建、GUI 自動(dòng)化測試、多場景并行測試、產(chǎn)品文檔更新,以及自主版本演進(jìn)。
10000+ 行代碼,1000+ 次 Agent 調(diào)用。
另一個(gè)桌面應(yīng)用開發(fā)案例是復(fù)刻了原生 macOS Stocks App。
智能體先和原生應(yīng)用交互,理解 UI 布局和功能細(xì)節(jié),再生成 SwiftUI 源碼,接入真實(shí)行情 API,自動(dòng)編譯并啟動(dòng)復(fù)刻應(yīng)用。
它還做了 10 項(xiàng)功能驗(yàn)證,包括實(shí)時(shí)行情加載、股票選擇和切換、多周期視圖切換、搜索過濾、詳細(xì)統(tǒng)計(jì)面板展示等。
這 10 項(xiàng)都通過了。
Qwen3.7-Plus 的基準(zhǔn)測試環(huán)境配置有詳細(xì)披露:
Terminal Bench 2.0 使用 Harbor/Terminus-2 harness,5 小時(shí)超時(shí),12 核 CPU/24GB 內(nèi)存,溫度 1.0,最大 token 數(shù) 80K,上下文 256K,取 5 次運(yùn)行均值,每輪開頭預(yù)置一個(gè) think token 讓模型自行決定是否啟動(dòng)深度思考;
Kernel Bench L3 每個(gè)測試樣本在獨(dú)立 Docker 容器中運(yùn)行,配備一塊 H100 80GB GPU,限制 500 次工具調(diào)用,連續(xù) 100 輪無改進(jìn)則提前停止,并使用 GPT-5.4 檢測潛在的作弊行為。
結(jié)果如何?
代碼任務(wù),各家模型表現(xiàn)已經(jīng)非常接近,只有長程代碼任務(wù)還能拉開一點(diǎn)差距。
通用智能體任務(wù),Qwen 3.7 Plus 基本也在第一梯隊(duì)。
到了多模態(tài)任務(wù),就是 Qwen 3.7 Plus 的強(qiáng)項(xiàng)了。

在多輪對話的消息中保留每一輪的思考內(nèi)容,官方推薦在智能體任務(wù)中開啟此功能。
模型兼容 OpenAI 規(guī)范的 chat completions 和 responses API。
在跨框架泛化方面,Qwen3.7-Plus 在 Claude Code、OpenClaw、Qwen Code 等不同 Agent 框架中均能穩(wěn)定運(yùn)行,無需為特定框架做適配。
不過還是有大量開發(fā)者希望能繼續(xù)像 Qwen 之前的模型一樣開放權(quán)重,在本地部署。

「AI 產(chǎn)品知識庫」是量子位智庫基于長期產(chǎn)品庫追蹤和用戶行為數(shù)據(jù)推出的飛書知識庫,旨在成為 AI 行業(yè)從業(yè)者、投資者、研究者的核心信息樞紐與決策支持平臺。

科技前沿進(jìn)展每日見