桌推,很多安全員一提這兩個(gè)字就皺眉。有人說(shuō)形式主義,有人說(shuō)考的都是嘴皮子功夫,還有人干脆一句話:這玩意兒沒(méi)用。
我不這么看。
桌推當(dāng)然有問(wèn)題,而且問(wèn)題不少。但要說(shuō)它完全沒(méi)價(jià)值,那也有點(diǎn)情緒化了。
桌推的價(jià)值里我覺(jué)得有一個(gè)是目前其他考核替代不了的:
在具有心理壓力的環(huán)境下,逼你開(kāi)口說(shuō)“法言法語(yǔ)”。
在民航系統(tǒng)里干久了就知道,一個(gè)人懂不懂規(guī)則,很多時(shí)候不是看他腦子里有沒(méi)有,而是看他嘴里能不能說(shuō)出來(lái)。真正的突發(fā)事件現(xiàn)場(chǎng),沒(méi)有時(shí)間給你慢慢翻手冊(cè)。
判斷—表達(dá)—指令。
這三件事幾乎是同步發(fā)生的。而桌推其實(shí)練的就是這個(gè)能力。
但今天不聊桌推考核這事本身,這個(gè)話題太有爭(zhēng)議性,能寫(xiě)一萬(wàn)字都停不下來(lái)。我想聊的是另一件事。
桌推的評(píng)分方式。
現(xiàn)在的評(píng)分模式,說(shuō)白了很傳統(tǒng)。
兩三個(gè)考官,一群考生。
考生回答,考官打分。
看起來(lái)很正常,但里面有問(wèn)題。
人類的評(píng)分是不穩(wěn)定的
不是因?yàn)榭脊俨粚I(yè),而是因?yàn)槿祟惖拇竽X本來(lái)就不適合干這種高強(qiáng)度重復(fù)評(píng)分的活。
心理學(xué)有個(gè)很經(jīng)典的數(shù)據(jù)。在人連續(xù)做同一種判斷任務(wù),45分鐘以后,人類判斷準(zhǔn)確率平均下降20%左右。如果任務(wù)復(fù)雜一點(diǎn),下降幅度會(huì)更大。
桌推考試什么場(chǎng)景?
考官一坐就是一整天,幾十個(gè)考生輪流說(shuō),同樣的題型反復(fù)聽(tīng)。
哪怕再敬業(yè)的考官,注意力都會(huì)波動(dòng)。這是神經(jīng)系統(tǒng)決定的,不是態(tài)度問(wèn)題。
更現(xiàn)實(shí)一點(diǎn),一天如果考60個(gè)人。5人一組每次回答20分鐘。考官至少要聽(tīng)240分鐘。
不是純聽(tīng),還要判斷,還要記分。差不多至少四個(gè)小時(shí)高強(qiáng)度認(rèn)知任務(wù)。
你覺(jué)得評(píng)分會(huì)穩(wěn)定嗎?
希望不大。
人類的評(píng)分天然有主觀性
哪怕評(píng)分表寫(xiě)得再細(xì)。比如一個(gè)典型的桌推題,得分點(diǎn)可能是五個(gè)。
是否性質(zhì)判斷準(zhǔn)確
是否引用對(duì)了法條
是否完整提出了處置措施
是否符合流程
表達(dá)是否清晰
問(wèn)題來(lái)了。
考生如果回答順序亂一點(diǎn)呢?或者說(shuō)話不太流利呢?或者用了不同表述呢?
有的考官會(huì)給分,有的不會(huì)。這不是誰(shuí)對(duì)誰(shuí)錯(cuò),是人腦在做“語(yǔ)義匹配”。而人腦做語(yǔ)義匹配,本質(zhì)上是模糊算法。所以每次桌推考試之后,總會(huì)有一些聲音。
“這分怎么打的?”
“為什么他能過(guò)我不能?”
“是不是看人下菜?”
很多時(shí)候其實(shí)不是有壞人在里面,只是評(píng)分系統(tǒng)本身不穩(wěn)定。
還有一個(gè)很有意思的現(xiàn)象
其實(shí)有不少考官是在幫考生找得分點(diǎn)。不是故意放水,是人的共情機(jī)制在起作用。
當(dāng)你面對(duì)一個(gè)緊張的考生,看著他努力表達(dá),你的大腦會(huì)自動(dòng)去理解他的意思。于是就會(huì)出現(xiàn)一個(gè)現(xiàn)象。
考生說(shuō)了一大堆,考官在腦子里翻譯:
“哦,他其實(shí)是想表達(dá)這個(gè)。”
然后給分。
這叫善意解釋原則,法律界很常見(jiàn)。但在考試?yán)铮@就會(huì)帶來(lái)一個(gè)奇怪的副作用。
考生開(kāi)始“掃射式回答”。
不管題目問(wèn)什么,先把自己知道的都說(shuō)一遍。法條、程序、職責(zé)、注意事項(xiàng)。
像機(jī)關(guān)槍一樣掃一圈,賭一個(gè)概率。只要踩中兩個(gè)得分點(diǎn),就不虧。于是考試慢慢變成了一種策略游戲。
誰(shuí)會(huì)說(shuō),誰(shuí)會(huì)拖時(shí)間,誰(shuí)會(huì)堆答案。
有時(shí)候反而得分比真正理解問(wèn)題的人還高。
這事兒你要說(shuō)完全沒(méi)有。
那是自欺欺人。
解決方案是AI
問(wèn)題說(shuō)完了,解決方案其實(shí)也不復(fù)雜。
AI評(píng)分。
桌推用AI評(píng)分的技術(shù)門檻其實(shí)不高,桌推考試評(píng)分本質(zhì)上只有兩件事。
語(yǔ)音識(shí)別+語(yǔ)義識(shí)別。
現(xiàn)在的語(yǔ)音識(shí)別準(zhǔn)確率是多少?普通話環(huán)境下,主流模型識(shí)別率已經(jīng)在95%以上。再配個(gè)行業(yè)詞庫(kù),像“非法干擾行為”“客艙失壓”“應(yīng)急處置程序”這種術(shù)語(yǔ)之后,識(shí)別率更高。
語(yǔ)義識(shí)別更簡(jiǎn)單,因?yàn)樽劳频拇鸢钙鋵?shí)是結(jié)構(gòu)化的。
一個(gè)題目,對(duì)應(yīng)幾個(gè)關(guān)鍵語(yǔ)義節(jié)點(diǎn)。
舉個(gè)例子。
題目:發(fā)現(xiàn)旅客攜帶疑似危險(xiǎn)物品。
關(guān)鍵語(yǔ)義節(jié)點(diǎn)可能是:
報(bào)告機(jī)組
控制現(xiàn)場(chǎng)
防止擴(kuò)散
依法處置
引用相關(guān)法規(guī)
AI只需要做一件事,判斷這些語(yǔ)義有沒(méi)有出現(xiàn),出現(xiàn)幾個(gè),順序?qū)Σ粚?duì),邏輯是否沖突,然后打分。
AI會(huì)不會(huì)誤判?
當(dāng)然會(huì)。
但關(guān)鍵不是“有沒(méi)有誤差”,關(guān)鍵是誤差是否穩(wěn)定。人類評(píng)分的誤差是隨機(jī)的。
今天高,明天低。這個(gè)考官松一點(diǎn),那個(gè)考官嚴(yán)一點(diǎn)。
而AI的誤差是可量化的。
模型訓(xùn)練一萬(wàn)次,測(cè)試一千次。誤差率多少,一清二楚。而且還能不斷優(yōu)化。
這就是算法的優(yōu)勢(shì),穩(wěn)定。
再說(shuō)一個(gè)很多人忽略的點(diǎn)
其實(shí)好的點(diǎn)子很多,但不一定都能落地。
因?yàn)槟阋淖円粋€(gè)事物的時(shí)候,背后會(huì)牽扯出很多千絲萬(wàn)縷的利益和現(xiàn)有資源的配置問(wèn)題。這些都會(huì)影響你點(diǎn)子到底能不能落地執(zhí)行。
但AI評(píng)分這事其實(shí)很好落地,就是因?yàn)樗皇莾?yōu)化了考核方式,而不會(huì)去觸碰其他更復(fù)雜的東西。
現(xiàn)在考官在桌推里的角色是兩個(gè):監(jiān)考+評(píng)分。
如果引入AI評(píng)分,監(jiān)考依然需要考官。
而關(guān)于評(píng)分,考官會(huì)退到第二道防線,成為現(xiàn)場(chǎng)異議的最終裁決者。
如果考生對(duì)AI評(píng)分有異議,可以申請(qǐng)復(fù)核,由考官進(jìn)行最終判斷。
這其實(shí)更合理,人類更適合做復(fù)雜判斷,不適合做重復(fù)勞動(dòng)。
從系統(tǒng)角度看,這件事還有個(gè)好處
數(shù)據(jù)沉淀。
每一場(chǎng)桌推考試都會(huì)產(chǎn)生大量語(yǔ)音數(shù)據(jù)。如果全部結(jié)構(gòu)化存儲(chǔ),幾年下來(lái)會(huì)形成一個(gè)巨大的訓(xùn)練庫(kù)。
能干什么?能干很多。
比如分析考生的表達(dá)結(jié)構(gòu),分析常見(jiàn)錯(cuò)誤,優(yōu)化題庫(kù)設(shè)計(jì)。甚至可以反過(guò)來(lái)改進(jìn)培訓(xùn)。
這才是系統(tǒng)思維。
考試不是終點(diǎn)。
是數(shù)據(jù)入口。
當(dāng)然,現(xiàn)實(shí)一定會(huì)有阻力
有人會(huì)說(shuō):
AI不懂現(xiàn)場(chǎng),AI沒(méi)有經(jīng)驗(yàn),AI不理解語(yǔ)境。
聽(tīng)起來(lái)很有道理,但邏輯上有個(gè)漏洞。
桌推本來(lái)就不是現(xiàn)場(chǎng)。它本來(lái)就是一個(gè)結(jié)構(gòu)化表達(dá)考試。如果一個(gè)答案需要靠“理解語(yǔ)氣”才能得分,那說(shuō)明評(píng)分標(biāo)準(zhǔn)本身就有問(wèn)題。
考試應(yīng)該測(cè)能力。
不是測(cè)考官的理解力。
現(xiàn)在很多行業(yè)都在做AI評(píng)分。雅思口語(yǔ),托福口語(yǔ),客服質(zhì)檢。這些系統(tǒng)每天處理的語(yǔ)音量,比桌推考試大幾個(gè)數(shù)量級(jí)。技術(shù)早就成熟了,民航如果連這種規(guī)模的應(yīng)用都不敢嘗試。
那就有點(diǎn)保守過(guò)頭了。
最后說(shuō)句可能不太討喜的話
很多制度之所以幾十年沒(méi)變。不是因?yàn)樗顑?yōu),只是因?yàn)楦乃娜诵枰袚?dān)責(zé)任。
而不改,是沒(méi)有責(zé)任的,這叫制度慣性。
但技術(shù)一旦成熟,這種慣性遲早會(huì)被打破。桌推評(píng)分這件事,其實(shí)就是個(gè)小切口。它不改變培訓(xùn)體系,不改變考試結(jié)構(gòu),甚至不改變?nèi)藛T配置。
只是把評(píng)分這一步,從人腦換成算法。優(yōu)化一個(gè)節(jié)點(diǎn),系統(tǒng)效率就會(huì)提升一截。
說(shuō)了這么多,其實(shí)核心就一句話。
讓機(jī)器干機(jī)器該干的事,讓人干人該干的事。
全文完,如果覺(jué)得不錯(cuò)請(qǐng)關(guān)注與三連。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.