亚洲爆乳中文字幕无码专区网站-黄页网站视频-暖暖 免费 高清 日本 在线-97亚洲熟妇自偷自拍另类图片-国产av久久久久精东av

EN

明略科技大模型再獲世界級突破!Mano以72B參數獲 OSWorld 榜單Specialized 模型第一

2025-11-11

明略科技(2718.HK)自研大模型 Mano 再獲世界級突破!

據 OS-World E2E官方榜單最新數據(截至 2025 年10 月),明略科技自研的 GUI 智能體大模型 Mano 以 54.0% 的任務成功率刷新紀錄,位列 Specialized 模型第一、模型總榜第二,僅次于 Anthropic 最新發布的 Claude 4.5。

明略科技大模型再獲世界級突破!Mano以72B參數獲 OSWorld 榜單Specialized 模型第一
Mano以72B參數在OSWorld-Verified 榜單的 Foundation E2E GUI 評測總榜位列第二。

與今年9月首次提交的數據相比,Mano 的參數規模從 7B 擴展至 72B(約 720 億),任務完成率從40.1% 提升到 54.0%,性能實現了顯著提升。這也標志著專用智能體在真實操作任務中的執行能力達到新高度。

明略科技大模型再獲世界級突破!Mano以72B參數獲 OSWorld 榜單Specialized 模型第一
Mano以72B參數在OSWorld-Verified 榜單的 Foundation E2E GUI & Specialized Model 評測中位列第一。

從語言到行動:智能體的下一階段

OSWorld 是目前全球最具權威的“操作智能”評測體系,涵蓋 10 類應用、369 個跨應用任務。它要求模型在真實的桌面和瀏覽器環境中執行連續操作——例如打開電子表格、搜索信息、整理數據、完成填報。這類任務遠比問答生成復雜,因為每一步都需要模型既理解內容,又理解“界面結構”,并能在多次操作中保持邏輯連貫。

在此前的測試中,即便是頂級的通用大模型,在 OSWorld 上的成功率也常停留在 30%–40% 區間。而 Mano 72B 的最新成績——54.0% 的端到端任務成功率——不僅刷新了中國模型的最高紀錄,也讓“專用智能體”第一次在這個“AI 操作考場”中站上了前列。

這背后的技術路線也與傳統語言模型截然不同。明略科技在最新版技術報告《Mano Technical Report》(報告鏈接:https://arxiv.org/abs/2509.17336)中系統闡述了其方法:模型的訓練并不是基于單純的文本對話,而是在高保真的模擬電腦環境中反復嘗試與學習。可以理解為,Mano 被放進了一個巨大的虛擬操作系統,在其中學習如何移動光標、點擊按鈕、識別菜單、輸入數據,并通過反復試錯掌握任務完成的最佳路徑。

技術原理:讓模型在“真實環境”中學習

Mano 的訓練框架包含三個階段:監督微調(SFT)、離線強化學習(Offline RL) 和 在線強化學習(Online RL)。簡單來說,SFT 階段相當于“老師教范例”,模型學習基礎操作方法;離線強化學習階段讓模型通過過去的任務經驗學會“舉一反三”;而在線強化學習階段則是在真實環境中持續練習、發現新策略。

明略科技還引入了一個名為 “Think–Act–Verify” 的執行閉環:模型在操作時,會先判斷當前界面狀態(Think),再執行具體動作(Act),最后驗證結果是否正確(Verify)。如果執行出錯,模型會自動調整步驟重新嘗試。這讓 Mano 在面對復雜、多變的操作場景時,能夠實現自我修正和容錯。

舉個通俗的例子:當你讓智能體“下載一份財務報表”時,通用大模型可能只會給出一段操作說明,而 Mano 會真的打開瀏覽器、登錄賬戶、識別下載按鈕、選擇正確的日期范圍,并在出現錯誤提示時重新登錄、重試。這種能力的獲得,正是通過強化學習與高保真訓練環境協同實現的。

根據論文數據,Mano 在加入在線強化學習后,模型平均任務完成率提升了約 14 個百分點,尤其在多步驟任務(multi-turn task)中表現穩定。研究團隊指出,這種“在環境中學習”的方式,是實現操作智能的關鍵:模型不再依賴靜態語料,而是通過持續交互獲得反饋,從而具備“學習如何行動”的能力。

專用智能體的競爭力

長期以來,大模型的性能評估主要集中在語言理解、知識問答或內容生成任務上。而 GUI 智能體的出現,讓 AI 的邊界從“文字世界”延伸到了真實的操作系統中。與通用大模型相比,專用智能體的核心優勢在于——它們不追求覆蓋所有知識,而是致力于在特定任務上實現更高的執行深度與穩定性。

Mano 的成績正是這一趨勢的體現。通過結構化的任務數據、針對性的強化學習和驗證機制,模型在界面識別、動作規劃和過程穩定性方面表現出了持續進步。OSWorld 官方評述指出,這一成果“展示了專用智能體在真實任務執行中的潛力,也標志著多模態智能體研究的工程化進展。”

對明略科技而言,Mano 不僅是一項研究成果,也正逐步成為企業智能系統的底層技術。公司正在探索如何將 Mano 的操作智能嵌入到數據分析、營銷自動化、合規管理等具體場景,使模型能在實際業務流程中承擔“數字助理”的角色。研究團隊同時提到,未來的方向包括提升推理效率、減少交互步長,并推動端側輕量化部署,讓智能體在普通硬件環境中也能穩定運行。

從 7B 到 72B,從 40.1% 到 54.0%,Mano 的進化歷程不僅是一次參數增長,更是一種能力遷移——從語言理解到操作智能的跨越。明略科技技術團隊在報告中表示,未來 Mano 將繼續優化推理效率與任務泛化能力,并探索端側部署與行業級落地路徑,使智能體能力真正融入企業生產流程。當模型不再只“輸出答案”,而是真正“完成任務”,人工智能才開始具備通往真實世界的執行力。

報告鏈接:https://arxiv.org/abs/2509.17336

榜單鏈接:https://os-world.github.io/

信息填寫

*手機號碼:

請選協議

主站蜘蛛池模板: 亚洲成av人片在线观l看福利1| 羞羞影院午夜男女爽爽影院网站| 人人妻人人澡人人爽人人精品电影 | 亚洲韩国日本高清一区| 亚洲精品久久久久avwww潮水| 亚洲男人的天堂在线va| 久久综合亚洲欧美成人| 日本一区二区在线播放| 日本欧洲亚洲高清在线| 中文字幕av高清片| 国产内射老熟女aaaa∵| 亚洲成av人影院在线观看| 国产精品日日做人人爱 | 国产精品99精品久久免费| 国内揄拍国内精品少妇| 国产a三级久久精品| 国产片av在线观看精品免费| 精品国品一二三产品区别在线观看| 午夜亚洲影院在线观看| 国产麻豆精品久久一二三| 西西人体444www高清大胆| 亚洲国产婷婷六月丁香| 麻豆人妻| 日日碰狠狠躁久久躁96| 日韩精品射精管理在线观看| 无遮挡粉嫩小泬久久久久久久| 久久久久人妻一区精品色| 国产精品无码永久免费888| 亚洲国产精品自在在线观看| 亚洲AV无码乱码A片秀色直播 | 成人性生交大片免费看96| 国产亚洲精品线视频在线| 国产精品ⅴ无码大片在线看 | 亚洲欧美国产国产一区二区三区 | 少妇太爽了在线观看| 无码丰满熟妇浪潮一区二区av| 国产在线乱码一区二区三区| 欧美搡bbbbb搡bbbbb| 精品国产杨幂在线观看| 在线观看国产成人av片| 任你干在线精品视频网2|