網易首頁 > 網易號 > 正文申請入駐

大模型高考放榜：為什么最能考試的是訊飛星火？

2026-06-26 11:21:36　來源: 多鯨

上海舉報

分享至

高考查分季，大模型也迎來了一年一度的「高考大考」。

今年高考結束后，新京報、澎湃新聞、觀察者網、羊城晚報等媒體陸續圍繞大模型高考表現展開測評。從數學單科到中英文作文，從全科總分到解題過程盲評，訊飛星火多次進入頭部位置。

多項測評中的連續靠前，構成了一種交叉驗證。訊飛星火的優勢不只體現在某一道題、某一篇作文或某一個科目，而是體現在數學推理、作文表達、英語應用文和全科綜合能力上的穩定表現。

為什么在越來越多高考測評中，訊飛星火都能考得靠前？這種考試能力，又如何轉化為真實教育場景中的產品價值？

大模型高考測評正在從熱鬧走向細分。

早期，大模型參加高考更多是為了驗證「能不能做題」。如今，隨著頭部模型能力快速提升，單純完成答案已經不再稀奇。更關鍵的問題變成了，模型能不能按照高考評分標準得分，能不能在復雜題目中保持推理完整，能不能在作文中準確審題、形成判斷，能不能在全科任務中保持穩定發揮。

從今年多項測評結果看，訊飛星火的表現具有較強一致性。

在新京報的數學測評中，6款主流大模型挑戰2026年新高考I卷數學卷。訊飛星火以148分位列第一，Kimi、DeepSeek、智譜、MiniMax、ChatGPT分列其后。基礎題部分，各模型差距并不明顯，真正拉開分數的是解答題和壓軸題。評卷專家提到，訊飛星火推理過程較為清晰，字符規范，在部分題目中還能給出不同解法。尤其在數形結合和幾何性質分析上，表現優于其他模型。

新京報6款主流大模型2026年新高考I卷數學卷測評結果

這說明，大模型數學能力的競爭，已經不只是能不能算出結果，而是能不能把過程講清楚。高考數學評分并不只看最終答案，過程分、推導邏輯和表達規范同樣重要。部分模型即便得出結果，也可能因為步驟跳躍、關鍵推導缺失，或引入高中階段不宜使用的高等數學方法而被扣分。訊飛星火在這類細節上的穩定表現，體現出更貼近真實閱卷標準的解題能力。

作文測評則提供了另一種觀察角度。

在澎湃新聞的上海卷作文測評中，9款國內外主流大模型圍繞「科技改造世界時，也改造著我們的想象」這一題目寫作。最終，訊飛星火以65.5分排名第一。專家在評語中提到，訊飛星火立意新穎，辯證思維完整，素材有縱深，語言兼具理性與文采。相比一些模型常見的模板化表達，訊飛星火在審題、立意、論證層次和語言表達上更容易獲得高分。

澎湃新聞9款主流大模型上海卷作文測評結果

觀察者網組織的中英文作文盲評也指向類似結論。語文新課標I卷作文中，訊飛星火選擇「冷板凳」作為切口，完成從失意、被忽視到沉潛、深耕的認知轉變，既貼合題目中「理解發生變化」的要求，也體現出成長印記。英語新課標I卷應用文寫作中，訊飛星火準確處理了「socializing」等語法細節，并在短篇幅內完成觀點排序、理由說明和句式組織，最終與GPT同處第一梯隊。

觀察者網組織的中英文作文盲評結果

如果說數學考驗的是復雜推理和過程規范，作文考驗的就是審題能力、表達能力和評分標準適配能力。訊飛星火在兩類任務中都能進入頭部位置，說明高考場景中的優勢并不局限于某一個科目。

羊城晚報教育發展研究院的全科測評，則把這種能力放到更完整的考試框架中檢驗。測評采用2026年高考試題，對8款國內外主流大模型進行橫向測試，并按照歷史類和物理類兩條路線統計總分。最終，訊飛星火X2在歷史類總分中排名第一，在物理類總分中與Claude并列第一，成為唯一同時進入歷史類、物理類「700分俱樂部」的國產大模型。

全科測評的意義在于，不能只靠單科優勢取勝。語文、數學、英語、物理、歷史、政治、化學、生物、地理等科目，對模型能力的要求并不相同。語文考驗長文本理解和表達組織，數學和物理考驗建模與推理，英語考驗語言應用，政史地考驗材料解讀和結構化表達。真正決定總分排名的，是模型能不能在不同學科、不同題型和不同評分標準中保持均衡。

從多項測評看，頭部模型之間的差距正在變小，真正拉開差距的關鍵，不再是某一道壓軸題或某一篇作文，而是全科穩定性和場景適配能力。訊飛星火在數學、作文、英語和全科總分測評中多次靠前，反映的是語言理解、數理推理、規范表達和綜合分析能力的共同成熟。

這也是為什么，高考正在成為觀察教育大模型能力的重要窗口。高考成績不是唯一標準，但高考試題集中體現了當前教育評價體系對知識、思維、表達和遷移能力的要求。大模型能否在這些測評中取得穩定成績，背后考驗的是對真實教學和考試場景的理解。

與很多通用大模型不同，訊飛星火并不是先有模型、再尋找教育場景，而是在長期扎根教育場景后，逐步形成了面向真實教學需求的大模型能力。

科大訊飛在教育領域已經深耕22年，AI技術深度應用于全國6萬余所小學和中學，在真實課堂教學中完成億萬次師生交互，積累了大量課堂、作業、測評、教研和學情數據。這些數據并不是抽象語料，而是來自真實教育現場。學生如何理解一道題，老師如何講解一個知識點，課堂中哪些環節容易卡住，作業錯誤背后對應怎樣的能力短板，這些長期沉淀共同構成訊飛星火教育能力的重要基礎。

這類積累，使訊飛星火對教育的理解不只停留在「答對題」，而是更接近「理解學生為什么錯、老師應該如何教、學習路徑應該如何調整」。

在產學研合作上，科大訊飛也持續強化教育大模型的專業底座。例如，科大訊飛與中國教育科學研究院聯合研發基于問題鏈的高中數學助手和科學智能導師，在100多個區縣試點中，84.3%的教師反饋相關應用有效助力教學模式創新、啟發學生深度思考。科大訊飛還與華南師范大學胡小勇教授團隊共同研發問課大模型，開展全國千人同課試點，85%的教師認可循證「問課」分析精準有效，為教研提質提供支撐。

在新高考背景下，命題越來越強調素養導向，呈現「無情境不入題、無思維不命題」的特征。傳統刷題模式正在失效，題目不再只是知識點的機械復現，而是把知識放到真實情境、跨學科任務和復雜材料中，考查學生的理解、遷移、探究和表達能力。

這對大模型提出了更高要求。一個真正適合教育場景的大模型，不僅要會調用知識、生成答案，還要能拆解問題、識別關鍵條件、組織推理步驟，并用符合教學規律的方式表達出來。

因此，訊飛進一步構建以「教學思維鏈」為驅動的教育深度推理大模型。教學思維鏈強調的不只是模型內部推理能力，而是將知識理解過程、思維形成路徑、問題解決邏輯呈現出來，使AI能夠在教學和學習場景中承擔更接近助教、學伴和教研助手的角色。

這也是訊飛星火高考成績領先的重要原因。訊飛星火不是簡單地更會刷題，而是更接近教育場景中對「會做題」的真實要求。讀得懂題，拆得開題，講得清過程，知道學生可能在哪里出錯，也能用循序漸進的方式引導理解。

從這個角度看，訊飛星火高考成績靠前，并不是因為更會應試，而是因為更理解教育。這也是教育AI與通用AI最大的區別。

對于教育行業來說，大模型高考成績的真正價值，不在榜單本身，而在于這些能力能否進入課堂、進入學校、進入家庭，最終轉化為真實的教學效果和學習效果。

這一點，已經成為全球AI教育領域的共識。

聯合國教科文組織在《生成式AI教育指南》中強調，教育場景中的AI應用應堅持以人為中心，關注安全、公平和教學設計。美國教育部也提出，教育AI不能把教學判斷完全交給機器，教師仍應參與教學設計、學習評價等關鍵環節，確保技術真正服務于學生成長，而不是替代教育本身。

因此，教育AI不能只追求模型越來越強，而必須回答三個更現實的問題。教師愿不愿意用，學生能不能真正學會，學校能否放心部署。

過去一年，全球AI教育產品的發展也在印證這一趨勢。

全球AI教育產品正在從單點工具走向完整學習鏈路。Quizlet、Gauth等產品不再只是提供搜題、閃卡或簡單問答，而是在向AI輔導、知識圖譜、錯因分析和個性化學習系統延伸。

早期AI教育產品更多解決「能不能答」的問題，而現在，行業重點正在轉向「能不能教」。AI輔導不再直接給答案，而是通過蘇格拉底式引導、語音講解、實時板書、圖像識別、動畫演示等方式，把答案轉化為學習過程。通用大模型與垂直小模型結合、多模態交互、自適應學習，也正在成為教育AI產品的重要方向。

國際教育產品的發展進一步驗證了這一方向。Khan Academy推出的Khanmigo，不是一個答案機器人，而是通過追問、提示和分步引導，啟發學生繼續思考。斯坦福大學與Saga Education聯合開展的Tutor CoPilot研究則發現，AI并非替代教師，而是幫助教師提出更好的問題、給予更有效的反饋，尤其能夠提升普通教師的教學支持能力。Duolingo Max的實踐也進一步說明，在教育場景中，生成內容只是第一步，真正決定產品價值的，是反饋是否促進理解，解釋是否符合學生認知水平，學習是否真正發生。

這些案例共同說明，全球AI教育正在從模型能力競爭走向產品能力競爭。

高考測評驗證的是模型是否具備知識理解、推理和表達能力，而教育產品考驗的，是另一套更加復雜的能力。能否把正確答案轉化為學習過程，把一次反饋轉化為持續改進，把教師經驗轉化為可復制的教學支持，把模型能力真正融入教、學、練、測、評的完整閉環。

這一趨勢，也正在國內教育產業中不斷落地。以科大訊飛為例，依托22年深耕教育積累的數據、教研能力和真實課堂反饋，科大訊飛圍繞教、學、考、評、管構建起覆蓋校園和家庭的教育產品體系，將大模型能力應用于智慧課堂、智能批改、英語學習和AI學習機等產品應用。無論是課堂中的啟發式教學、作業中的錯因診斷，還是家庭學習中的精準學與互動輔導，共同目標都不是替學生完成學習，而是幫助學生更高效地學習，幫助教師更高效地教學。

從這個意義上看，高考成績只是教育AI的一次能力驗證。真正決定行業競爭格局的，是能否把模型能力持續沉淀為教育產品能力。未來，教育AI競爭的不只是模型參數，也不只是榜單排名，而是誰能夠真正理解教育規律，把技術轉化為課堂效率、學習效果和教育公平。

換句話說，高考能夠證明一個大模型會考試，但真正能夠決定未來的，是它是否真正懂教育。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.