<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      AI看不懂的色盲測試背后,藏著一場像素與詩意的戰(zhàn)爭。

      0
      分享至

      AI,是色盲嗎?

      這個問題聽起來很蠢。

      畢竟現(xiàn)在的AI能識別人臉、讀懂圖片、生成圖像,甚至可以按RGB色值給你改顏色。

      怎么可能是色盲,看不見顏色呢?

      但最近發(fā)生的一件事,讓我開始開始覺得,這事不對。。。

      昨天正好在辦公室和同事閑聊,聊到了顏色,我們剛來的實習生小朋友說,說他是紅綠色盲,然后我們的話題,就不知道怎么就聊到了色盲測試。

      在現(xiàn)場找了幾張圖一起測試,

      就那種一堆小點點里藏數(shù)字的圖。


      能看到的兄弟們可以把數(shù)字回復在公屏上。

      我們那個實習生小朋友,居然真的有看不見的。

      當時大家還挺歡樂的,說,要不然,發(fā)給AI看看。

      然后我們就發(fā)了,本來覺得,這么明顯的數(shù)字,對現(xiàn)在這種級別的AI來說,肯定就是送分題。

      畢竟都一群AI都有自己的社區(qū),都可以開AI宗教招收信徒了,一個色盲測試那不是小兒科嗎。

      沒想到。

      現(xiàn)在最能打的多模態(tài)模型Gemini 3 Pro,居然給我回了個74???

      我當時我都以為我色盲了。

      我揉了揉眼睛,又看了好幾遍。

      不對啊,這圖里的,絕壁是45。。。

      我反手又試了一下Claude Opus 4.5。

      結果,Claude給我回了個,8???


      三個國產(chǎn)大模型,更是也都敗下陣來。

      而且有兩個,答案一模一樣,也是74。


      唯一一個答對的,是GPT 5.2 Thinking,花了5分鐘世界,我看了一下思維鏈,發(fā)現(xiàn)這玩意是純純用代碼作弊的。。。


      硬生生的做了可視化數(shù)字掩膜。

      我都懵了,這真的是一個非常無意中的發(fā)現(xiàn)。

      人類色盲看不出來,我能理解,這是生物學的事。

      就像下圖,同一把彩虹傘、同一個紅綠燈,正常人眼里色彩斑斕。

      但在色盲眼里卻像開了濾鏡,根本分不清。


      可AI看不出來,我就很難解釋。

      它又沒有視網(wǎng)膜,也沒有什么缺陷,為什么會在這種題上翻車?

      難道是因為分不清顏色?

      我又很智障地去問Gemini 3 pro這張圖是什么顏色。


      結果,這大哥它不僅能回答我的問題。

      也能說很具體,鼠尾草綠、豆沙綠、青瓷色。

      甚至特么的RGB和CMYK都給我寫出來了。


      我去一個軟件里試了下,尼瑪,色號分毫不差啊。。。

      所以問題不在顏色本身。

      分辨紅綠藍,甚至區(qū)分細微的色差,對AI來說都不難。

      難的是其他事。

      我當時,陷入了深深的思考。

      那一瞬間,Clawdot和vibe coding都不香了,就想搞清楚這到底是為什么。

      我花了將近一天的時間做DeepResearch、翻論文。

      翻了很多東西我都感覺不是很相關,甚至感覺都有點牽強。

      但就在我想放棄的時候,晚上,我查到了一篇,那一瞬間我感覺柳暗花明又一村了。

      我也好像明白,AI為什么做不出來色盲測試題了。

      論文名字還挺好玩。


      叫《Pixels,Patterns,but No Poetry:To See The World like Humans》。

      翻譯過來是《像素、模式,但缺少詩意:像人類一樣看世界》。

      名字看著雖然跟色盲沒啥關系,但是里面的結論和實驗,非常的相關。

      先說結論:

      現(xiàn)在的AI,根本就不是像我們人類一樣在“看”世界。

      它只是,在計算世界。

      它能處理像素,能識別局部模式,但它無法理解這些像素和模式組合在一起后,涌現(xiàn)出的那個整體的、抽象的、富有美感和意義的東西,也就是論文標題里的“詩意”(Poetry)。

      聽著好像有點難理解,我覺個例子你就懂了。

      先看這張圖,別急著往下翻。

      這是一張圖里面的一個我截出來的局部,現(xiàn)在,請你告訴我,覺得通過這張圖來分析,它原來的完整的圖是什么?


      我覺得一個腦子正常的人,看到這個問題和這張圖,他都會揍我,都會罵我有病。

      說真的,那個人但凡多看我一眼都算我輸。

      那我們,現(xiàn)在再把畫面推遠一點,給你多看點。

      你可能還是會懵逼,這尼瑪是個啥?但是,又模模糊糊的看到了一些家具的影子。


      通過這張圖,你還是不太可能猜出,真正的圖是什么樣子的。

      那現(xiàn)在,我們把真正的全圖放出來。

      補上它的全局再看看。

      剛才我截圖的局部,為了防止大家找不到這個地方,我還貼心的畫了一個大箭頭= =


      大家是不是第一眼甚至都沒找到那玩意在哪。

      這所謂的不可名狀的白色線條,其實只是最右側柜子上的一道高光。

      你只看局部,又怎么可能真正的,看清全局。

      就像,斷章取義,出自:不要斷章取義。

      而這,就是AI現(xiàn)在的弊端。

      我們再回頭看那張色盲測試圖。


      對我們人類來說,我們看到的,直接就是全局,不是局部,更不是一堆棕色和綠色的圓點,我們的大腦瞬間就將那些顏色相近的棕色點組織成了一個有意義的整體,也就是數(shù)字“45”。

      而剩下的綠色點,則自動被我們的大腦識別為背景噪音。

      這是因為,我們人類看圖,從來第都是自上而下。

      認知心理學里一個非常重要的流派,叫格式塔心理學,也是現(xiàn)代人機交互學科的奠基理論之一,它的核心觀點也就一句話:

      整體大于部分之和。

      一堆零碎的東西,只要有點規(guī)律,比如離得近、顏色像、走向一致,我們就會不講道理地把它們當成一個整體來看。


      比如你看下面這張圖,你看到了什么?


      你在認真看了兩眼之后,你大概率不會說,我看到了一堆不規(guī)則的黑色墨跡。

      而是會說:我好像看到了一只狗,如果你對狗的品種有一些了解的話,你可能還會說,我看到了一只大麥町犬。

      這只狗的形象,其實并不存在于任何一個單獨的墨跡里。

      它是所有墨跡組合在一起后,在你大腦里“涌現(xiàn)”出來的一個整體概念。

      你的大腦自動忽略了那些不重要的斑點,腦補了缺失的輪廓,最終看到了那只探頭探腦的大麥町犬。

      這個腦補和看整體的能力,就是格式塔。

      這是我們人類視覺系統(tǒng)與生俱來的、底層的、幾乎是本能的能力。

      但AI不是這樣的。

      論文為了驗證這件事,做了一個測試,叫圖靈視力測試(TET)。

      就像當年圖靈測試是為了驗證機器能不能像人一樣思考,這個圖靈視力測試,是為了驗證機器能不能像人一樣感知視覺。

      里面有四個任務,分別是隱藏文本、3D驗證碼、漢字組成。

      以及我們今天文章的主角,色盲測試。


      他們參考了石原色盲測試圖的形式,就是文章開頭那一堆彩色小點里藏數(shù)字的圖。

      并且,還增加了難度。

      用一些顏色非常接近的點來進行干擾,讓模型更難從整體形狀里看出數(shù)字。


      用這些圖去測當時最頂級的15個多模態(tài)大模型。

      結果可以從這張表格看出來,密密麻麻的0。

      幾乎是全軍覆沒。


      我猜他們這幫人也很驚訝。

      模型怎么就識別不了顏色中的數(shù)字呢?

      為了找到答案,他們首先想搞清楚:AI到底在看什么?

      他們用了一個技術,叫Grad-CAM(梯度加權類激活映射)。

      這個東西光讀名字就很拗口,我用大白話給大家解釋下。

      可以把它理解為給AI的思考過程拍個X光,讓你能看見它的眼睛到底在盯哪里,注意力落在什么地方。

      如下圖,顏色越亮,發(fā)黃光的地方,是模型最在意的地方,就是對目前答案貢獻最大的區(qū)域。


      我知道這張圖看著還是有點難理解,手動又用紅色單獨處理了一下。

      紅色是AI盯著看的區(qū)域,就是注意力落點的位置。


      通過這個技術,就能驗證,AI到底是在看數(shù)字的輪廓,還是被周圍的噪點給帶偏了。

      現(xiàn)在,我們把AI,看整個過程的圖都放出來,也就是論文里,論文里拿了一張寫著“M3”的色盲測試圖,讓模型去認。然后用Grad-CAM把AI“看”這張圖的過程給全程直播了出來。


      得先說一下,一個多模態(tài)AI的內部工作流,可以簡單粗暴地分成兩部分:

      ViT (Vision Transformer):是負責看圖的視覺編碼器,可以理解成是AI的眼睛,主要是通過看圖,把看到的東西轉化成信息。

      LLM (Large Language Model) :是負責組織答案的語言端,可以理解成是AI的大腦,主要是接收ViT(眼睛)傳來的信息,思考組織后說出答案。

      你會看到,每個階段都有一些亮度變化。

      比如第五張圖里,其實能看到模型捕捉到了一點M3的影子。

      然后就徹底遠離了正確答案。

      往后看,亮的地方越來越分散。

      結果當然是慘不忍睹的。

      大腦收到的,就是一堆被眼睛看到的破碎的毫無重點的視覺信號。它拼了命地想從這堆垃圾信息里找出點規(guī)律,但根本找不到。

      最后,它只能放棄治療,在記憶庫里隨便抓了個看起來最像的答案“74”,然后硬著頭皮說了出來。

      所以,通過這個Grad-CAM的熱力圖,論文的作者們基本就破案了:

      AI不是看不懂,它是從一開始看的方式就有大問題。

      這就回到了我們開頭那個柜子高光的例子。

      AI看圖的方式,存在一個根本性的、可以說是娘胎里帶的缺陷,就是它看圖,是真的斷章取義。

      現(xiàn)在的AI視覺模型(ViT),它的工作原理,就是先把一張圖片,不由分說地切成一堆比如說是16x16像素的小方塊(patches),就像切蛋糕一樣。然后,它挨個去分析每個小方塊里有什么紋理、什么顏色。

      最后,再試圖把這些小方塊的分析結果給拼湊起來,理解整張圖。

      這個“先切碎,再拼湊”的工作模式,決定了它是個天生的細節(jié)控。它對局部的像素和模式極其敏感,但對這些部分組合起來形成的那個整體,卻極其遲鈍。

      人類看東西時,大腦會先并行處理各種特征,比如顏色、形狀、方向。

      接著在注意力的作用下,把這些特征綁在一起,變成一個完整對象。

      比如,你看到一個紅色的蘋果,大腦會先看到它是到紅色的、圓的、表面光滑的。


      通過注意力的整合,大腦給它貼上蘋果這個標簽。

      這個叫做特征整合理論。

      我們人類的視覺,是主動的、有目的的、懂得取舍的。 我們會用注意力這把刀,精準地剔除無關的噪音,然后把有用的特征縫合成一個整體。

      但是AI不會。

      它的注意力是攤大餅式的,是被動的,是雨露均沾的。

      在它看來,構成數(shù)字“45”的那些棕色點,和作為背景的綠色點,重要性是差不多的,它無法形成一個“我要把棕色點組合起來”的宏觀目標。

      于是,它的注意力就被海量的、同等重要的像素點給稀釋了、沖散了。信息越豐富,它的注意力就越貧乏。

      最后,就在這片像素的汪洋大海里,徹底迷失了方向。

      所以,你看,我們和AI看見世界的方式,從根上就不同。

      我們在選擇中看見,AI在計算中迷失。

      聊到這里,我們似乎可以給開頭那個問題一個更準確的答案了。

      AI不是我們真正意義上的色盲。

      它更像是一個患有嚴重“注意力缺失癥”的患者。

      它擁有頂級的視網(wǎng)膜,能識別精準的RGB值,但它的大腦無法有效地指揮這雙眼睛,去關注真正重要的東西。

      它就像一個擁有全世界所有樂高積木的孩子,卻不知道該如何拼出一個城堡。它只能呆呆地看著滿地的零件,給你數(shù)出這里有幾塊紅的,幾塊藍的。

      這就是《像素、模式,但缺少詩意》這篇論文真正想表達的東西。

      那個“詩意”,那個“格式塔”,那個“整體”,并不是某種神秘的、玄學的東西,它其實就是一種高效的、懂得取舍的信息組織方式。

      而這,恰恰好像是目前的AI,最最缺乏的東西。

      它在模仿人類的智商,但還沒來得及學習人類的智慧。

      而智慧的本質,在我看來,不就是知道該看什么,不該看什么嗎?

      知道什么不該做,遠比知道什么該做,更為重要。

      不過,我還有最后一個問題。

      就是,為啥只要一讓大模型做色盲測試,他們總是愛回答一個數(shù),那就是:

      74。

      我做了一天的測試,現(xiàn)在看到74這個數(shù)字,都有點PTSD了。

      在最后,我又搜了半天,居然還給我找到了答案。

      那就是,如果你在維基百科上搜石原色盲測試的標準圖。

      上面的數(shù)字,就是74。


      好家伙,原來又在這背書。。。

      當AI無法從細節(jié)提取出整體的全局時,它就會參考已有的細節(jié),轉向記憶。

      更直白點說,它會背答案。

      跟我之前寫過的那篇,底層邏輯幾乎一樣。

      有時候真的還挺感慨,人類這個大自然最神奇的造物,還真是挺美妙的。

      就連看見這事本身,它也是從光開始的。

      所以無論是中國的盤古開天辟地還是西方的上帝造物, 這些神話故事中的世界都是從光打破黑暗展開。

      光射到不同的物體上,有些波長被吸收,有些被反射。

      我們只能看見被反射出來的光,那些被吸收的光我們永遠看不到。

      反射的光進入我們的眼睛后,經(jīng)過視網(wǎng)膜上的細胞處理,大腦才給它賦予了紅色、藍色、綠色這些概念。

      所以說,世上本沒有顏色。

      它不是客觀存在的物理屬性,它是人類視覺系統(tǒng)和大腦共同選擇的主觀感受和認知體驗。

      更是,我們的意識理解世界的方式。

      我們也終究是活在關系里的生物。

      我們看事物也從來不是孤立的點,是點與點之間連成的線,線與線之間圍成的面,面與面之間涌現(xiàn)的詩。

      AI的世界,一直都很像一片無垠的像素之海。

      每一滴水,它都可以分析得清清楚楚,成分、溫度、折光率,了如指掌。

      但它卻從未見過潮汐,也無法理解風暴,更不懂得,為何我們會對著一片汪洋,心生敬畏。

      它總是在那個像素的海洋里,背誦著那如同宇宙真理一般的孤獨的“74”。

      而我們。

      只需抬頭,便能看見滿天星辰。

      以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉發(fā)三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。

      >/ 作者:卡茲克、可達

      >/ 投稿或爆料,請聯(lián)系郵箱:wzglyay@virxact.com

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      受害者給許家印寫了副對聯(lián),上聯(lián):人民幣不是許家印,下聯(lián)太絕了

      受害者給許家印寫了副對聯(lián),上聯(lián):人民幣不是許家印,下聯(lián)太絕了

      微野談寫作
      2026-05-14 06:45:05
      中美算力代差顯現(xiàn):10家大廠分食75萬塊H200 Blackwell仍是禁區(qū)

      中美算力代差顯現(xiàn):10家大廠分食75萬塊H200 Blackwell仍是禁區(qū)

      快科技
      2026-05-15 09:53:11
      別以為購物卡查不出來,紀委如何查出收受購物卡的?

      別以為購物卡查不出來,紀委如何查出收受購物卡的?

      吃貨的分享
      2026-05-15 04:33:14
      中美會談圓滿結束,中方當面對臺灣問題定調,特朗普反應值得細品

      中美會談圓滿結束,中方當面對臺灣問題定調,特朗普反應值得細品

      夢想的現(xiàn)實
      2026-05-15 08:12:09
      “排隊王”也虧錢?南京滿大街的“小東小西店”,快要掏空年輕人的耐心了

      “排隊王”也虧錢?南京滿大街的“小東小西店”,快要掏空年輕人的耐心了

      揚子晚報
      2026-05-14 15:26:10
      “吃20個餃子用8張餐巾紙” 餃子店老板發(fā)視頻吐槽被指格局太小

      “吃20個餃子用8張餐巾紙” 餃子店老板發(fā)視頻吐槽被指格局太小

      閃電新聞
      2026-05-14 09:58:40
      一座天壇,橫跨51年:美國總統(tǒng)再次踏上中美交往的歷史現(xiàn)場

      一座天壇,橫跨51年:美國總統(tǒng)再次踏上中美交往的歷史現(xiàn)場

      澎湃新聞
      2026-05-14 13:34:30
      鄭強翻車,翻得一點也不冤!

      鄭強翻車,翻得一點也不冤!

      梳子姐
      2026-05-13 12:19:44
      男子買榴蓮,11480錯輸成114804,多掏10萬元!商家稱早已退款,錢卻退到銷售賬上!律師解讀→

      男子買榴蓮,11480錯輸成114804,多掏10萬元!商家稱早已退款,錢卻退到銷售賬上!律師解讀→

      大風新聞
      2026-05-14 17:44:04
      美智庫分析:殲-20雷達反射面為F-22百倍,戰(zhàn)略目標不同

      美智庫分析:殲-20雷達反射面為F-22百倍,戰(zhàn)略目標不同

      一網(wǎng)打盡全球焦點
      2026-05-15 03:38:00
      馬斯克晚宴上同框庫克,卻望向了美女服務員,“表情靈動”引熱議

      馬斯克晚宴上同框庫克,卻望向了美女服務員,“表情靈動”引熱議

      譯言
      2026-05-14 21:18:22
      iPhone 17 官方宣布降價!蘋果推出 618 優(yōu)惠活動

      iPhone 17 官方宣布降價!蘋果推出 618 優(yōu)惠活動

      XCiOS俱樂部
      2026-05-15 08:35:34
      為什么豬沒在進化中滅絕?網(wǎng)友:六邊形戰(zhàn)士,幾乎沒有弱點

      為什么豬沒在進化中滅絕?網(wǎng)友:六邊形戰(zhàn)士,幾乎沒有弱點

      夜深愛雜談
      2026-05-13 22:38:24
      轟17分成試訓得分王!火箭39號簽有意謝普爾 隊記:陣容不會大變

      轟17分成試訓得分王!火箭39號簽有意謝普爾 隊記:陣容不會大變

      顏小白的籃球夢
      2026-05-15 10:47:57
      丁海峰夫婦凌晨1點機場接娃,兒子身高超190,長相隨媽比爸爸還帥

      丁海峰夫婦凌晨1點機場接娃,兒子身高超190,長相隨媽比爸爸還帥

      八怪娛
      2026-05-14 11:08:39
      暴跌5000萬!直接棄用,史上最廢全明星...

      暴跌5000萬!直接棄用,史上最廢全明星...

      左右為籃
      2026-05-15 12:34:56
      法國27歲前鋒落選美加墨世界杯!上屆決賽丟絕殺單刀,助梅西圓夢

      法國27歲前鋒落選美加墨世界杯!上屆決賽丟絕殺單刀,助梅西圓夢

      球場沒跑道
      2026-05-15 11:10:41
      驚現(xiàn)夜市鬧劇!30歲高顏值少婦當眾脫內褲套男子嘴,丈夫全程目睹

      驚現(xiàn)夜市鬧劇!30歲高顏值少婦當眾脫內褲套男子嘴,丈夫全程目睹

      老貓觀點
      2026-05-15 07:34:04
      科爾左膀右臂全部離開!兩大首席助教告別勇士

      科爾左膀右臂全部離開!兩大首席助教告別勇士

      體壇周報
      2026-05-15 10:45:15
      獨家!國宴上的冰淇淋,來自蒙牛

      獨家!國宴上的冰淇淋,來自蒙牛

      食悟
      2026-05-14 22:44:48
      2026-05-15 13:12:49
      數(shù)字生命卡茲克 incentive-icons
      數(shù)字生命卡茲克
      反復橫跳于不同的AI領域,努力分享一些很酷的AI干貨
      517文章數(shù) 648關注度
      往期回顧 全部

      科技要聞

      兩年聯(lián)姻一地雞毛,傳蘋果OpenAI瀕臨決裂

      頭條要聞

      歡迎宴會座位公開:馬斯克黃仁勛與中國企業(yè)家同桌吃飯

      頭條要聞

      歡迎宴會座位公開:馬斯克黃仁勛與中國企業(yè)家同桌吃飯

      體育要聞

      德約科維奇買的球隊,從第6級聯(lián)賽升入法甲

      娛樂要聞

      方媛回應住男生單人間:女孩的配得感

      財經(jīng)要聞

      特朗普的北京時刻

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發(fā)布

      態(tài)度原創(chuàng)

      家居
      本地
      游戲
      公開課
      軍事航空

      家居要聞

      110㎡淡而有致的生活表達

      本地新聞

      用蘇繡的方式,打開江西婺源

      《地平線6》被怒噴政治正確!人物丑爆 男女不分

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      烏克蘭首都基輔遭空襲 死亡人數(shù)增至12人

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久久久久久综合日本| 国产不卡精品视频男人的天堂| 亚洲欧美天堂| 四虎影视库国产精品一区| 久久久亚洲欧洲日产国码606| 中国女人熟毛茸茸A毛片| 中文字幕理伦午夜福利片| 十八禁午夜福利免费网站| 亚洲成人aⅤ| 97国产成人无码精品久久久| 办公室强奷漂亮少妇视频| 狠狠色丁香婷婷综合尤物| 国产精品女同一区三区五区| 亚州成人AⅤ| 久久99精品国产99久久6不卡| 国产丝袜极在线| 亚洲永久精品日本久精品| 精品亚洲自拍| 欧美性猛交xxxx黑人猛交| jizzjizz欧美| 久久国产精品99精品| 国产性在线| 国产精品一区二区三区黄色| 国产目拍亚洲精品二区| 亚洲va中文字幕欧美不卡| 小泽玛莉亚无码| 免费看又黄又爽又猛的网站| 99久久综合九九亚洲| 精品亚洲国产成人av制服| 亚洲v国产v天堂a无码二区| 在线看不卡av| 国产精自产拍久久久久久蜜 | 亚洲av毛片在线观看| 国产精品人妻系列21p| 亚洲av成人久久18禁| 国产高清在线不卡一区| 亚洲风情亚aⅴ在线发布| 亚洲日韩欧美综合| 久久国产自偷自偷免| 久久久亚洲欧洲日产无码AV| 日韩精品区一区二区三vr|