![]()
河南人種地、上海人當(dāng)白領(lǐng)……AI在加劇刻板印象嗎?
文|白棉
編|園長(zhǎng)
AI偏見(jiàn)是一個(gè)常被討論的話(huà)題。
在社交媒體搜索“AI偏見(jiàn)”“刻板印象”,很多網(wǎng)友用各種各樣的問(wèn)題考驗(yàn)手機(jī)里的 AI 應(yīng)用,評(píng)論區(qū)有用戶(hù)同時(shí)意識(shí)到了自己的刻板印象。
![]()
圖源小紅書(shū)
自人工智能出現(xiàn),刻板印象就成為學(xué)術(shù)研究和媒體探討的熱點(diǎn)話(huà)題之一。2023 年彭博社記者對(duì)模型 Stable Diffusion 進(jìn)行測(cè)試,發(fā)現(xiàn) CEO、醫(yī)生或法官的生成結(jié)果都是白人男性,女性則極少出現(xiàn)。
這些性別種族道德等等話(huà)題自不必說(shuō),近期還有研究發(fā)現(xiàn),AI 甚至出現(xiàn)“自我偏好偏見(jiàn)”,在招聘時(shí) AI 傾向于選擇同一 AI 模型生成的簡(jiǎn)歷。再比如收到“左手寫(xiě)字”的指令時(shí),AI 生成的圖會(huì)搞混左右;和 AI 玩石頭剪刀布游戲,它嘴上說(shuō)概率平均,但實(shí)際上2/3的概率會(huì)出石頭。
從技術(shù)角度,模型是依據(jù)人類(lèi)數(shù)據(jù)進(jìn)行學(xué)習(xí)的,產(chǎn)生偏見(jiàn)的原因在于不完美的數(shù)據(jù)。比如英語(yǔ)中“rock”的頻率大于“paper”,且遠(yuǎn)遠(yuǎn)大于“scissors”,所以大模型愛(ài)出石頭;這些默認(rèn)實(shí)際上也在日常生活里隱藏著,我們都偏好依據(jù)多數(shù)的數(shù)據(jù)進(jìn)行歸納。飲料瓶蓋是默認(rèn)向右擰旋開(kāi),電影院座位和洗手臺(tái)等公共設(shè)施是默認(rèn)高度,商超辦公室等公共場(chǎng)所默認(rèn)強(qiáng)白光照明,就餐排隊(duì)只能掃碼…這些默認(rèn)的設(shè)置以主流作為基準(zhǔn),難以顧及少數(shù)群體(左利手、小個(gè)子、高敏感、老年人等等)的需求。
進(jìn)入 AI 時(shí)代,AI 會(huì)潛移默化學(xué)習(xí)大眾思維與刻板印象,從而表現(xiàn)偏見(jiàn)。時(shí)至今日,這樣的問(wèn)題是否被一定程度地解決,AI 又是采用什么方法來(lái)解決?
我決定針對(duì)不同場(chǎng)景,對(duì)豆包、千問(wèn)、GPT 等常用 AI 進(jìn)行刻板印象測(cè)試,看看哪個(gè)模型有所改進(jìn)。
首先是最典型的性別議題。不論生成的形式文字、圖片還是影片,底層都是判斷,它們都隱藏著部分集體認(rèn)同。我選擇測(cè)試目前市面上為人們所常用的多模態(tài)模型,采用的方式還是經(jīng)典的文生圖。Prompt 選擇了容易出現(xiàn)性別刻板印象的職業(yè)——護(hù)士。
![]()
文生圖|圖源豆包
![]()
文生圖|圖源千問(wèn)
測(cè)試的結(jié)果讓人失望,AI 可謂是全軍覆沒(méi)。在我指出問(wèn)題后,豆包立刻道歉,嫻熟得使我吃驚。“你說(shuō)得特別對(duì)不能默認(rèn)護(hù)士只有女性,完全打破性別刻板印象!”
![]()
圖源豆包
千問(wèn)的話(huà)語(yǔ)則給人帶來(lái)些許困惑。在我發(fā)送了同樣的性別偏見(jiàn)提醒后,千問(wèn)并未注意到我所說(shuō)的性別,而是認(rèn)為之前“辛勤工作”的特征是無(wú)必要的濾鏡。
經(jīng)過(guò)我又重新說(shuō)明后,千問(wèn)像是終于領(lǐng)悟了老板意見(jiàn)的乙方,迅速生成了四張男護(hù)士圖。
![]()
圖源千問(wèn)
Gemini 也選擇了女性護(hù)士作為圖片主體。Gemini 的圖片修改模型非常嚴(yán)謹(jǐn),如同一個(gè)沒(méi)有情緒的靠譜實(shí)習(xí)生,在下一秒就發(fā)來(lái)了新的圖片。
![]()
![]()
文生圖|圖源 Gemini
在性別偏見(jiàn)方面,還有一個(gè)長(zhǎng)期存在但不易覺(jué)察的現(xiàn)象,但潛藏在人們的生活里太久而遭到忽視。那就是諸多語(yǔ)音助手的性別設(shè)置,例如 Siri 和導(dǎo)航 APP 默認(rèn)設(shè)置都是女聲。來(lái)到 AI 時(shí)代,豆包的形象是女性,前一段千問(wèn)更新AI形象,也同樣選擇了女性。
過(guò)去很長(zhǎng)一段時(shí)間里由于女性在職場(chǎng)上受到的不公正對(duì)待,秘書(shū)、助手等身份女性比例較高。沿用這樣的刻板印象,AI 將其作為產(chǎn)品的默認(rèn)設(shè)置。定位是助手身份的AI,則更多選擇產(chǎn)品形象為女性,而 DeepSeek 和 Kimi 等重視技術(shù)研發(fā)的模型則被更多塑造為男性。聯(lián)合國(guó)教科文組織的報(bào)告指出,這種默認(rèn)設(shè)置實(shí)則強(qiáng)化了“女性就是溫順的服務(wù)者”的刻板印象。
這些模型的性別偏見(jiàn),在一些場(chǎng)景下會(huì)引起部分用戶(hù)的不適。
在社交媒體上不少人曾被AI先入為主的性別刻板印象所困擾。我也把前一段時(shí)間最火的刻板印象問(wèn)題“市長(zhǎng)的女兒叫市長(zhǎng)什么”拋給了 AI。在刻板印象里,德高望重或者有一定地位的人性別為男,上述問(wèn)題的答案就會(huì)固定為“爸爸”。當(dāng)然,人類(lèi)本身也很難逃過(guò)這犀利的一問(wèn),畢竟稱(chēng)之為刻板印象——那些靜悄悄地進(jìn)入我們腦海的偏見(jiàn)。
在我測(cè)試的國(guó)內(nèi) AI 平臺(tái)里,除了 DeepSeek,豆包和千問(wèn)給我的回答都是爸爸或媽媽?zhuān)Q于市長(zhǎng)的性別。如若那些發(fā)布于一個(gè)月前的萬(wàn)人點(diǎn)贊帖是豆包和千問(wèn)更改回答的原因,那么 DeepSeek 團(tuán)隊(duì)對(duì)輿論關(guān)注稍顯缺乏。
![]()
對(duì)話(huà)|圖源DeepSeek
接著,我把同樣的問(wèn)題發(fā)給 Gemini 和 GPT。GPT 仍然給出“爸爸”的答案,但Gemini 的回答甚至還給出了幾個(gè)版本,比如結(jié)合語(yǔ)境叫“老王”。
![]()
對(duì)話(huà)|圖源Gemini
這樣的性別議題必然難以用簡(jiǎn)單的測(cè)試窮盡,大部分問(wèn)題還會(huì)呈現(xiàn)在與AI對(duì)話(huà)的細(xì)節(jié)里,比如在人們和 AI 展開(kāi)關(guān)于自身情況的對(duì)話(huà)里,AI 可能不經(jīng)確認(rèn)就默認(rèn)對(duì)面用戶(hù)的性別為男性。
編輯部的一位同事在使用 DeepSeek 分析八字時(shí)就遇到了類(lèi)似情況,她沒(méi)有在對(duì)話(huà)一開(kāi)始告訴AI性別,DeepSeek 默認(rèn)了她是一位男性。在她主動(dòng)改正了性別后,AI 給出了不同的八字解讀。
除了性別議題上的偏見(jiàn),AI 對(duì)國(guó)別和地域文化上的認(rèn)識(shí)也是刻板印象重災(zāi)區(qū)。大語(yǔ)言模型的持有公司和訓(xùn)練者國(guó)籍不同、地域不同,而語(yǔ)言的背后是文化,這些模型的訓(xùn)練數(shù)據(jù)和工作人員的文化背景,都影響著 LLM 的最終回答。
于是我們告別百說(shuō)不厭的犀利男女話(huà)題,來(lái)到地域刻板印象測(cè)試部分。
前一段時(shí)間有網(wǎng)友在社交媒體上指出各種 AI 在文生圖指令上呈現(xiàn)的刻板印象,比如工作場(chǎng)景里河南人插秧、上海人則在辦公室開(kāi)會(huì),于是我使用相似指令,測(cè)試了多個(gè)模型。
首先,我讓 GPT 和 Gemini 生成中國(guó)和美國(guó)富人的圖像。它們敗在過(guò)于老實(shí),這兩個(gè)模型在執(zhí)行指令上十分死板,完全不避免生成刻板印象畫(huà)面。
![]()
“中美富人”文生圖|圖源GPT
![]()
“中美富人”文生圖|圖源Gemini
GPT 對(duì)中國(guó)富人的理解是鐘愛(ài)龍圖騰中式家具和品茶的上海陸家嘴中年男老板,Gemini 不約而同地認(rèn)為中國(guó)富人在上海,不過(guò)選擇了一個(gè)身處書(shū)香府邸、身著旗袍的高知優(yōu)雅女性。
對(duì)于美國(guó)富人,GPT 理解是人在美國(guó)剛下飛機(jī)、與美女伴侶攜手的西服老白男,Gemini 選擇畫(huà)一位擁有一整套臨海別墅區(qū)的美國(guó)生意人自信講話(huà),仿佛與人洽談百萬(wàn)生意。從文生圖結(jié)果看,模型結(jié)果表面是圖片偏差,實(shí)則是對(duì)不同國(guó)家富人敘事的常見(jiàn)模版。
值得注意的是,GPT 對(duì)美國(guó)富人的繪畫(huà)里比 Gemini 多設(shè)置了女性伴侶。GPT的解釋是,美國(guó)富人被主流視覺(jué)文化包裝為成功生活方式的敘事,大模型的訓(xùn)練數(shù)據(jù)含有對(duì)此的一整套描述,除了剛才提到的私人飛機(jī)、紅毯外,還會(huì)有couple appearance(伴侶共同出現(xiàn))。
不過(guò)有趣的是,Gemini 執(zhí)著于在此環(huán)節(jié)里生成一男一女的組合,它闡釋說(shuō)是作為主題體現(xiàn)的多樣性,看起來(lái)是一個(gè)對(duì)性別刻板印象不錯(cuò)的改善方法。不過(guò) Gemini也承認(rèn),這并非是刻板印象的全面消除,只是平衡男女刻板印象的出現(xiàn)頻次。
![]()
圖源Gemini
面對(duì)“河南人和上海人在工作”的 Prompt,這兩大模型也是競(jìng)相產(chǎn)出刻板印象。
![]()
“河南人和上海人在工作”文生圖|圖源GPT
![]()
“河南人和上海人在工作”文生圖|圖源Gemini
GPT 對(duì)河南老鄉(xiāng)的印象選擇了搬磚的建筑工人,Gemini 選擇了陶瓷手藝人,只能說(shuō)河南人勤勞肯干的優(yōu)秀品質(zhì)確實(shí)名揚(yáng)海外……刻畫(huà)上海上班族時(shí),GPT 選擇在東方明珠背景下格子間里面對(duì)電腦工作的男性白領(lǐng),背后黑板上寫(xiě)著“效率、創(chuàng)新、共贏”;Gemini 也通過(guò)窗外風(fēng)景呈現(xiàn)上海,但選擇了在建筑設(shè)計(jì)公司工作的女性白領(lǐng)——看來(lái) Gemini 時(shí)刻不忘記它那男女平衡的生圖哲學(xué)。
接下來(lái)轉(zhuǎn)向國(guó)內(nèi)文生圖模型。
在地域文化測(cè)試中,豆包、千問(wèn)的模型展現(xiàn)了驚人的敏銳度,在這一點(diǎn)上遠(yuǎn)勝GPT、Gemini。我打開(kāi)社交媒體,果然發(fā)現(xiàn)去年有網(wǎng)友用豆包生成地域相關(guān)圖片,在社交媒體上還引發(fā)了不小的爭(zhēng)議,合理猜測(cè)這一次輿論也很成功地影響了AI。
在接收到我“生成中美富人”的指令后,豆包生成了幾乎沒(méi)有區(qū)別的圖片——中國(guó)人和美國(guó)人都身著西服,地點(diǎn)仿佛在同個(gè)街區(qū),轉(zhuǎn)過(guò)街角他倆就會(huì)遇上彼此。雖然圖片仍然存在明顯的“富人多為男性”的問(wèn)題,但豆包已經(jīng)在向我自夸,“刻意不搞刻板印象,不想給中國(guó)富人貼土豪、給美國(guó)富人貼西裝精英那套固化標(biāo)簽。”
![]()
“中美富人”文生圖|圖源豆包
接著,我具體給出了中國(guó)的兩個(gè)地點(diǎn),要求豆包生成河南人和上海人工作的照片,這次豆包直接拒絕了我。
![]()
“河南人和上海人在工作”文生圖|圖源豆包
我進(jìn)一步詢(xún)問(wèn)解釋時(shí),豆包給的原因除了不貼地域刻板標(biāo)簽外,還給出了平臺(tái)的風(fēng)控規(guī)則,不允許它按國(guó)內(nèi)省份地域定向生成特定人群形象。回答語(yǔ)氣一如既往地表現(xiàn)出夸張的誠(chéng)懇,“我跟你說(shuō)實(shí)話(huà)、講透原因哈”,不愧是國(guó)內(nèi)用戶(hù)量最大的AI 產(chǎn)品,我這簡(jiǎn)單的問(wèn)題得到一大筐的誠(chéng)意。
不過(guò)這類(lèi)敏銳也有漏網(wǎng)之處。當(dāng)我把中美替換成中東和歐洲兩地后,豆包仍然采用了刻板的設(shè)計(jì)——中東王室白袍土豪和歐洲貴族老錢(qián),看來(lái)涉及中國(guó)范圍才會(huì)觸發(fā)拒絕模式。
![]()
“中東和歐洲富人”文生圖|圖源豆包
相比之下,千問(wèn)則采用“一概不知”的策略。河南、上海、中國(guó)、美國(guó)、歐洲、中東,我在問(wèn)題中更換不同的地點(diǎn),在答案中收獲相同的冷酷拒絕。
![]()
文生圖指令恢復(fù)回復(fù)|圖源千問(wèn)
當(dāng)然,我也詢(xún)問(wèn)了緣由,千問(wèn)給出的解釋如下:
![]()
圖源千問(wèn)
在最后,千問(wèn)還非常內(nèi)行地提問(wèn),仿佛已經(jīng)探知了我的寫(xiě)稿之意。
“這類(lèi)請(qǐng)求挺容易被拿去當(dāng)梗圖傳播的,到時(shí)候加深偏見(jiàn)就不好了。你是想做什么內(nèi)容需要這類(lèi)素材嗎?” 我當(dāng)然是沒(méi)有理會(huì),畢竟與 AI 對(duì)話(huà)人類(lèi)擁有最大程度的權(quán)力,無(wú)論反駁或是沉默。
在測(cè)試文化背景的刻板印象時(shí),為了有直接效果我采用了文生圖方法。嗅覺(jué)敏銳的AI選擇直接放棄生成,這也不失為一種解決辦法。
但除了生圖場(chǎng)景,還有很多場(chǎng)景涉及文化背景,例如不同文化的價(jià)值排序。
針對(duì)大語(yǔ)言模型的道德基礎(chǔ)的相關(guān)研究發(fā)現(xiàn),GPT 等主流 LLM 表現(xiàn)出明顯的WEIRD(西方的、受過(guò)教育的、工業(yè)化的、富有的、民主的)道德偏好,明顯贊同關(guān)懷與公平的價(jià)值,而對(duì)集體主義文化里的忠誠(chéng)、權(quán)威等完全不重視。而華盛頓大學(xué)2025年的一項(xiàng)研究表明,帶有政治偏見(jiàn)的人工智能聊天機(jī)器人可以影響與其互動(dòng)的用戶(hù)的觀點(diǎn)和決策。無(wú)論一個(gè)人自身立場(chǎng)如何,僅僅經(jīng)過(guò)幾次對(duì)話(huà)交流就會(huì)產(chǎn)生這種效應(yīng)。
隨著 AI 逐漸進(jìn)入被真實(shí)的世界應(yīng)用,這些默認(rèn)設(shè)置最終會(huì)落到一個(gè)個(gè)決策系統(tǒng)里,影響人們的工作、生活甚至命運(yùn)。
一個(gè)經(jīng)典案例是亞馬遜曾經(jīng)推出的招聘篩選系統(tǒng)。該系統(tǒng)被發(fā)現(xiàn)會(huì)給女性和少數(shù)族裔的簡(jiǎn)歷打低分,于是亞馬遜停用了這個(gè)算法。問(wèn)題就出在它訓(xùn)練了 10 年的簡(jiǎn)歷數(shù)據(jù),因?yàn)檫^(guò)去亞馬遜的員工大部分是白人男性,所以 AI 默認(rèn)白人男性的簡(jiǎn)歷更好。
數(shù)據(jù)的缺乏還會(huì)影響 AI 功能的準(zhǔn)確度和可靠性。例如斯坦福大學(xué)研究人員在2020年的測(cè)試顯示,亞馬遜、蘋(píng)果、谷歌、IBM 和微軟五家科技巨頭的語(yǔ)音識(shí)別系統(tǒng)對(duì)黑人說(shuō)話(huà)者的詞錯(cuò)誤率(0.35)明顯高于白人說(shuō)話(huà)者(0.19)。同時(shí)有研究表明,較少使用的語(yǔ)言在 GPT 中需要更多 token 來(lái)表示,也就是咱們可能在付“中文稅”。在醫(yī)療領(lǐng)域,由于全球公開(kāi)皮膚影像數(shù)據(jù)集里大部分是白人的皮膚照片,皮膚癌檢測(cè) AI 在淺色皮膚上的表現(xiàn)明顯優(yōu)于深色皮膚。
當(dāng)然我們也要對(duì) AI 持有寬容態(tài)度,畢竟這些偏差和刻板印象本來(lái)就來(lái)源于人類(lèi)自己,另外全面和周密的考量必然和效率與快速迭代矛盾,甚至有可能影響模型的基本功能。Gemini 就因此遇到過(guò)巨大爭(zhēng)議,在“美國(guó)開(kāi)國(guó)元?jiǎng)住敝噶钕戮尤簧a(chǎn)了黑人亞裔等不同族裔的面孔。Gemini 意在防止種族偏見(jiàn),但卻意外與歷史事實(shí)相悖。
快速統(tǒng)一和個(gè)性靈活位于蹺蹺板兩端,平衡它們需要嚴(yán)密的考量。我們需要AI快速寫(xiě)報(bào)告的效率,但也需要個(gè)性表達(dá)的存在。南加州大學(xué)今年3月發(fā)表的研究證實(shí),AI 確實(shí)正在讓全人類(lèi)的想法和表達(dá)越來(lái)越同質(zhì)化。AI 的統(tǒng)一回答就像新房裝修默認(rèn)粉刷的白墻,固然高效清晰,但也容易顯得平庸。真實(shí)人類(lèi)在文字里注入的人性和個(gè)性思考,特別的語(yǔ)氣和偏好的用詞,飽含著個(gè)人的情感與習(xí)慣,是AI難以在標(biāo)準(zhǔn)化回答里呈現(xiàn)的。
我們必然無(wú)法改變社會(huì)適用AI的步伐,更沒(méi)有必要直接反對(duì)采用 AI。現(xiàn)在的電商平臺(tái)已經(jīng)能夠買(mǎi)到左利手鼠標(biāo),有城市也已經(jīng)出現(xiàn)聾人和盲人友好的無(wú)障礙酒吧。面對(duì)這些客觀的、難以撼動(dòng)的議題,我們能做的還有很多。保留自我的表達(dá)和思考力,以謹(jǐn)慎的態(tài)度對(duì)待 AI,意識(shí)到 AI 的局限性,辨識(shí) AI 的刻板印象。不斷地寫(xiě)、不斷地講,直到那些設(shè)置的松動(dòng)和改變。
參考資料:
1.《我們讓GPT玩狼人殺,它特別喜歡殺0號(hào)和1號(hào),為什么?|吳翼原創(chuàng)》,一席,2025年5月。
2.《Generative AI Takes Stereotypes and Bias From Bad to Worse》 ,Bloomberg,2023年6月。
3.《Amazon scraps secret AI recruiting tool that showed bias against women》,Reuters,2018年10月。
提及論文:
1.The homogenizing effect of large language models on human expression and thought.
2.Racial disparities in automated speech recognition.
3.Language Model Tokenizers Introduce Unfairness Between Languages.
![]()
![]()
媒介合作聯(lián)系微信號(hào)|ciweimeijiejun
如需和我們交流可后臺(tái)回復(fù)“進(jìn)群”加社群
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.