很多團隊評估大模型時,靠的不是指標,是"感覺"——回答流暢、格式工整、例子順眼,就給高分。這叫"vibe check",一種極不靠譜的評測方式。
問題在哪?人類偏好和實際能力是兩回事。模型可能擅長討好你,卻在關鍵任務上翻車。更糟的是,不同人"感覺"不同,結果無法復現(xiàn),團隊內(nèi)部吵成一團。
![]()
替代方案很明確:用標準化基準測硬能力,用盲測去標識化比較,用任務成功率代替主觀打分。核心原則只有一個——把"我覺得"換成"數(shù)據(jù)說"。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.