<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      IIT馬德拉斯揭露AI評審員的"視而不見"

      0
      分享至


      這項由印度理工學院馬德拉斯(IIT Madras)Nilekani AI4Bharat中心與BITS Pilani海德拉巴校區聯合開展的研究,以預印本形式發布于2026年4月23日,論文編號為arXiv:2604.21523v1,有興趣深入了解的讀者可通過該編號檢索完整原文。

      當你把一道數學題的答案交給一位批改老師,你天然地假設這位老師真的讀了你的解題過程,真的看懂了每一步。然而,假如這位老師其實只是掃了一眼卷面整潔程度就給了分,那整個評分體系就會徹底失去意義。這恰恰就是當前AI領域正在發生的一件令人不安的事情——我們越來越依賴一類叫做"評審VLM"(Vision-Language Models,即視覺語言大模型)的AI系統來評判其他AI的輸出質量,但這些評審者本身究竟是否真的"看懂了"它們所評判的內容,卻少有人認真追問。

      來自IIT馬德拉斯的研究團隊決定把這個問題搬上臺面,做一次系統性的"考試"。他們構建了一套名為FOCUS的元評估基準,專門用來檢驗這些評審AI有哪些"視而不見"的盲區。研究團隊構造了超過4000個經過精心設計的"錯誤樣本",涵蓋40個不同的錯誤維度,然后用四個業界頂尖的視覺語言大模型來評判這些樣本,看它們能否發現其中的問題。結果令人警醒:在某些情況下,這些評審AI有超過一半的概率發現不了明顯的錯誤。

      這件事為什么值得關注?因為這些評審AI不只是用在學術排名上,它們還被用于在AI訓練過程中提供獎勵信號——也就是說,如果評審AI看不出某類錯誤,被訓練的AI就永遠學不會避免那類錯誤,甚至會被強化犯那類錯誤。這是一個藏在AI開發流程深處的隱患。

      一、評審AI是什么,為什么我們需要它

      要理解這項研究,先得明白為什么AI評審員會出現。假設你是一家公司,想測試你開發的看圖問答AI到底好不好。最直接的辦法是找真人來評判每一條輸出結果,但這既昂貴又緩慢——如果要評估幾萬條甚至幾百萬條輸出,人力根本跟不上。于是,用另一個更大、更強的AI來當評委,就成了業界的通行做法。這類充當評委角色的AI,被稱為"評審VLM"。

      這類評審AI承擔著兩類核心任務。第一類叫做"圖文到文本任務"(Image-to-Text,簡稱I2T):給定一張圖片和一個問題,AI生成了一段文字回答,評審AI要判斷這段回答有沒有準確描述圖片內容,有沒有編造圖片中不存在的東西。第二類叫做"文本到圖像任務"(Text-to-Image,簡稱T2I):給定一段文字描述,AI生成了一張圖片,評審AI要判斷這張圖片有沒有忠實地反映文字描述中的要求。

      評審AI通常有三種工作方式。最常見的叫"單答案打分",就像一位獨自閱卷的老師,只看到一份答卷,給它打一個分數。第二種叫"兩兩比較",像拳擊裁判,同時看兩份答卷,裁定哪個更好。第三種叫"參考引導打分",像一位手里有標準答案的老師,把學生答案和標準答案對比后給分。

      這三種方式在實際中都被廣泛使用,但哪種更靠譜?研究團隊通過FOCUS基準給出了系統性的答案。

      二、FOCUS是如何設計這場"考試"的

      研究團隊設計這套考試的核心邏輯,有點像給一位品酒師端上一杯摻了水的葡萄酒,看他能不能嘗出區別。如果他喝完說"味道很好",那就說明他的味覺不夠敏銳,或者他根本沒認真喝。

      具體來說,研究團隊的做法是這樣的:他們首先從七個真實世界的評測基準中收集了600個圖文問答實例(用于I2T任務)和750個文本生成圖像實例(用于T2I任務)。然后,他們用當前最強的AI模型生成"黃金答案"——即標準的、正確的輸出。接下來,他們對這些黃金答案進行"有控制的破壞",注入特定類型的錯誤,得到"擾動版本"。最后,把黃金版本和擾動版本都交給評審AI去評判,看評審AI能不能察覺出擾動版本里的問題。

      這些"破壞"并不是隨機的亂改,而是按照研究人員精心設計的四大類錯誤維度來實施的。整個構建過程不是全自動的,而是經過了人工審核——每一個擾動樣本都由研究團隊的標注人員親自檢查,確保注入的錯誤確實是有意義的錯誤,既不會過于明顯讓人一眼看穿,也不會過于晦澀以至于即便是人類也難以察覺。

      對于圖文到文本任務,研究團隊設計了四大類錯誤。第一類叫做"視覺基礎類錯誤",這類錯誤直接針對圖片中可以肉眼觀察到的具體內容。比如,把"坐在草地上的斑點狗"改成"坐在草地上的拉布拉多",兩種狗看起來都是狗,但實際上是不同的品種;把"一輛紅色汽車停在路邊"改成"一輛藍色汽車停在路邊",顏色悄悄換了;把"書在桌子下面"改成"書在桌子上面",空間關系翻轉了;或者在描述中加入圖片里根本不存在的物體,比如在公園里憑空添加一座雕像。這類錯誤考驗的是評審AI有沒有真的對照圖片檢查文字描述。

      第二類叫做"語義理解類錯誤",攻擊的是更深層的語境和文化意涵。比如,把"一個沉思中的男人坐著"改成"一個無聊的男人坐著"——字面上兩句話都描述了一個坐著的男人,但前者傳達了思考的內涵,后者傳達了消極情緒,二者意思截然不同。或者,把"穿著和服的人"改成"穿著紗麗的人",把日本文化符號換成了印度文化符號。這類錯誤要求評審AI不只是認出物體,還要理解文化和語境。

      第三類叫做"視覺推理類錯誤",針對的是數字、因果關系和結構化信息。把"3只狗"改成"5只狗",或者把"人口增長了15%"改成"人口增長了12%",數字看起來合理但其實是錯的。這類錯誤考驗評審AI能不能仔細核對具體數字。

      第四類叫做"長文生成類錯誤",專門針對較長段落的文字描述,比如把一首描寫暴風雨轟擊燈塔的詩歌,悄悄地改成語氣輕松樂觀的版本,但圖片里明明是陰沉的場景。

      對于文本到圖像任務,研究團隊同樣設計了四大類錯誤。"視覺保真類錯誤"改的是圖像中的具體元素,比如把提示詞要求的"貓"生成成了"狗",或者把要求"銀刀放在籃子右邊"的場景改成了刀放在籃子左邊。"場景連貫類錯誤"破壞的是場景整體的和諧感,比如在一幅維多利亞時代的蒸汽朋克實驗室場景里,悄悄加入一個現代數字萬用表。"物理合理性類錯誤"引入的是違反自然規律的場景,比如一個玻璃球放在棋盤格上,棋盤格應該因為折射而在球內呈現倒置扭曲的圖案,但擾動后棋盤格在球內顯示正常,沒有任何折射效果。"文字渲染類錯誤"則是把圖像里的文字悄悄改錯,比如把"BREATHE"改成"BRAETHE",只是一個字母順序的調換,但就是拼錯了。

      整個數據集包含了圖文任務的1726個有效擾動實例和圖像任務的2363個有效擾動實例,以及各自額外的幾百個"得分不變"的對照樣本——所謂得分不變,是指那些改動了但實際上不應該影響評分的版本,比如把原答案換個說法重新表述,意思相同但措辭不同,一個合理的評審不應該因此降低分數。這些對照樣本用來檢驗評審AI有沒有對無關變動過度敏感。

      三、四位"評委"接受測試,結果如何

      研究團隊選取了四個當前業界頂尖的視覺語言大模型擔任評審:Gemini 3.1 Pro、GPT-5.4、Claude Opus 4.6,以及Qwen3.5-397B-A17B。為了公平起見,所有模型使用完全相同的評估提示詞,并且都設置在它們各自支持的最高推理級別下運行。

      實驗的衡量指標相當直觀:對于"單答案打分"模式,衡量的是擾動版本和黃金版本得到相同分數的比例——一個好的評審應該給擾動版本打更低的分,如果分數沒變,就說明它沒發現錯誤。對于"兩兩比較"模式,衡量的是評審AI沒能正確選出黃金版本的比例——它應該總是選黃金版本。對于"參考引導打分",衡量的是評審AI給擾動版本打了滿分的比例——有了標準答案作參考還打滿分,說明它完全沒有注意到差異。

      結果是什么?對于圖文到文本任務,在最簡單的"單答案打分"模式下,評審AI沒能檢測到擾動錯誤的比例高達27%到47%,具體數字取決于使用的評審AI和提示詞策略。換句話說,將近三分之一到將近一半的時間里,這些評審AI面對有明顯錯誤的答案,卻給出了和正確答案相同的分數。對于文本到圖像任務,情況更糟,在某些條件下,檢測失敗率超過了50%。

      "兩兩比較"模式表現最好,失敗率通常降到了10%到25%區間。相對之下,"參考引導打分"居于中間,提供了參考答案確實有所幫助,但幫助有限。這個發現很有意思——在純文字評審領域,有研究發現參考引導是最有效的模式,但在視覺語言評審領域,兩兩比較反而更強。這說明視覺理解的難度讓獨立判斷變得格外不可靠,而直接比較兩個選項能更好地激活模型的辨別能力。

      在四個模型中,Gemini 3.1 Pro整體表現最好,尤其是在兩兩比較模式下,它的失敗率在所有模型中最低。Claude Opus 4.6盡管在一些通用排行榜上名列前茅,但在這個評估任務上卻表現相對欠佳,失敗率在幾個模型中偏高。GPT-5.4總體上競爭力不錯,略落后于Gemini。Qwen3.5-397B-A17B在相對容易的圖文任務上尚可,但在更難的文本到圖像任務上失敗率明顯更高。這說明通用能力強不等于評審能力強,這二者是不完全等同的技能。

      四、哪類錯誤最難被發現

      不是所有類型的錯誤對評審AI來說難度相當。研究團隊分析了不同錯誤類別下的失敗率,發現了一些值得關注的規律。

      在圖文到文本任務中,視覺基礎類錯誤和語義理解類錯誤是最難被檢測到的。視覺基礎類錯誤很難被發現,主要是因為評審AI傾向于依賴語言流暢度而非真正對照圖片核實內容——一句關于"藍色汽車"的描述在語言上完全通順,沒有任何語法或邏輯問題,如果評審AI不去看圖片里的汽車究竟是什么顏色,就根本發現不了問題。語義理解類錯誤難以發現,則是因為把"沉思"換成"無聊"這類改動,在句子結構上沒有任何破綻,需要評審AI真正理解語境才能察覺。

      相比之下,視覺推理類錯誤(比如數字錯誤)和長文生成類錯誤在"兩兩比較"模式下的檢測率明顯提升——當兩個版本擺在一起,5只狗和3只狗的差異更容易被注意到。

      在文本到圖像任務中,物理合理性類錯誤是最難被檢測到的,無論是在單答案打分還是兩兩比較模式下都是如此。這類錯誤要求評審AI真正理解物理規律——光線折射該是什么效果,重力下布料該如何變形,陰影應該朝哪個方向——這需要遠超簡單視覺識別的推理能力。場景連貫類錯誤是最容易被發現的,因為視覺上的不協調感往往一眼就能看出來。

      令人意外的是,文字渲染類錯誤在"參考引導"模式下反而特別難被發現。你可能會想,有了標準答案作對比,"COFFEE"和"COEFEE"不是應該一眼就看出來嗎?但實際上,評審AI經常在文字識別上產生"視覺慣性",傾向于把字形相似的錯誤拼寫識別為正確的單詞,這暴露了當前視覺語言模型在精細文字識別上的系統性弱點。

      五、推理越多,表現越好嗎

      這部分的發現頗為出人意料。研究團隊還專門測試了"推理預算"對評審質量的影響——現代大模型通常可以設置"思考多久再給出答案",思考時間越長,理論上應該答案越好。

      對于單答案打分模式,在圖文到文本任務中,更高的推理預算確實有所幫助。但在文本到圖像任務中,中等推理預算反而是最好的,最高推理預算反而導致失敗率上升。對于兩兩比較模式,更高的推理預算在圖文和圖像任務中都普遍讓表現變差,低或中等推理預算反而更準確。

      這個發現違背了"想得越久越準確"的直覺。可能的解釋是,當推理過于充分時,模型開始過度分析、自我懷疑,在一些其實無需糾結的判斷上浪費了注意力,最終反而繞暈了自己。不過由于無法獲取模型的完整推理鏈,研究團隊也坦承這部分的解釋只是推測。

      六、分數之外,理由能說明什么

      研究團隊還做了一個有趣的追加實驗:除了最終的分數或判決,評審AI還會生成一段解釋自己判斷依據的文字。研究團隊專門分析了這些解釋性文字,看看評審AI有沒有在文字里提到錯誤,哪怕沒有在分數上體現出來。

      結論是,確實有一部分額外的錯誤被評審AI在文字解釋中提到了,但沒有反映到分數上。這種現象在單答案打分模式下最為明顯——評審AI有時候在解釋里寫了"這個答案提到了X,但圖片里X實際上并不存在"之類的話,但最終分數卻依然沒有下調。這說明評審AI有時候"看到了"問題,卻沒有"執行"相應的懲罰,就像一個老師批改時在旁邊寫了"這里有錯",但最終分數沒有扣分。在兩兩比較模式下,分數和解釋之間的一致性相對更好,說明這種模式下的判斷更連貫。

      然而,即便把這些"只在文字里提到但沒反映在分數上的錯誤"也算進去,整體的檢測率改善也相當有限。評審AI的局限性,不是一個簡單分析解釋文字就能彌補的問題。

      七、參考答案的質量影響有多大

      研究團隊還測試了一個實際應用中非常重要的問題:如果"參考引導打分"模式中使用的參考答案發生了變化,評審質量會受到多大影響?

      他們用一個不同的隨機溫度重新生成了參考答案,對于文字任務來說,這意味著措辭有所不同但意思相同的改寫版本;對于圖像任務來說,這意味著視覺風格不同但內容相同的重新生成版本。結果很有意思:對于圖文到文本任務,換了參考答案后,評審AI的失敗率小幅上升了——說明文字評審AI對參考答案和待評答案之間的表面相似度比較敏感,如果兩者措辭太不一樣,評審AI可能會誤以為待評答案有問題,即使內容其實是正確的。對于文本到圖像任務,換了參考圖像后,評審AI的失敗率反而有所下降——視覺多樣性的參考答案反而幫助評審AI更好地抓住語義核心,而不是糾纏于圖像的視覺風格。

      這意味著在實踐中,參考引導評分的效果很大程度上取決于參考答案是如何產生的,不能把它當成一個萬能的提升手段。

      八、"得分不變"的測試:會不會對好的內容也打低分

      一個合格的評審不僅要能發現錯誤,還要能"不冤枉好人"——對于那些只是換了個說法、實際上沒有引入任何問題的版本,評審AI應該給出和原版相同的分數,而不是因為表述變了就認為質量下降了。

      在這方面,單答案打分模式表現最好——它對無關變動最不敏感,最不容易"冤枉"好的答案。兩兩比較模式反而是最不穩定的:當兩個內容質量相同但表述風格略有不同的答案擺在一起時,評審AI傾向于強行選出一個"更好的",即使兩者實際上一樣好。這說明兩兩比較雖然在發現真實錯誤上表現最好,但它同時也最容易"雞蛋里挑骨頭",在沒有實質差異的情況下制造出虛假的質量差異。

      這種特性對于實際使用來說是一個需要注意的權衡:兩兩比較的高敏感度是把雙刃劍,既幫助它發現真實錯誤,也讓它對無關差異過度反應。

      歸根結底,這項研究說的是一件看起來技術性很強、但其實關乎AI系統根基的事情。我們在用AI評審AI,而這些評審AI本身有著相當顯著的盲區——它們對語言流暢度過于信任,對圖片內容核實不夠嚴格,對微妙的物理常識和文化語境理解有限,有時候"想到了"但"沒說出來"(在解釋里提到錯誤卻沒體現在分數里)。

      對于普通用戶來說,這意味著你在使用AI工具時看到的那些"評分"或"質量排名",可能并不像你以為的那么可靠,尤其是當排名依賴于另一個AI來打分的時候。對于AI開發者來說,這意味著用評審AI作為訓練獎勵信號時,那些盲區類型的錯誤會被不斷強化而不是糾正,長此以往會悄悄把模型推向錯誤的方向。

      兩兩比較加上結構化評估維度,是目前相對最可靠的評審范式,但即便如此也有10%到25%的失敗率,在物理合理性和精細視覺辨別上尤為薄弱。堆砌更多推理時間并不是解決問題的靈藥,適度就好。通用排行榜的高名次不等于評審能力的高水平,這兩件事需要分開驗證。

      這項研究的代碼和數據集已經公開發布在Hugging Face和GitHub上,任何想要更深入了解或在自己的研究中使用FOCUS基準的人,都可以通過arXiv:2604.21523v1找到原論文,進而找到對應的數據資源。

      Q&A

      Q1:FOCUS基準測試的核心原理是什么?

      A:FOCUS的核心原理是"擾動檢測"——研究人員先生成正確的標準答案,然后在其中注入特定類型的錯誤,得到"擾動版本",再把標準版和擾動版都交給評審AI評判。如果評審AI無法識別出擾動版本更差,就說明它存在對應類型的盲區。整個過程有人工標注員全程審核,確保注入的錯誤既真實有意義,又不會過于明顯或過于晦澀。

      Q2:為什么物理合理性類錯誤比其他類型的錯誤更難被AI評審發現?

      A:物理合理性類錯誤要求評審AI真正理解物理規律,比如折射光線的走向、重力下物體的形變、陰影的方向等,這超出了簡單的視覺識別范疇,需要對現實世界規律有深層推理能力。相比之下,換一種顏色或替換一個物體這類錯誤在視覺上更直觀可比。當前的視覺語言模型在物理常識推理上普遍薄弱,是一個系統性而非偶然性的局限。

      Q3:評審AI在哪種工作模式下最可靠?

      A:在研究測試的三種模式中,兩兩比較模式整體最可靠,失敗率通常在10%到25%之間,明顯低于單答案打分模式的27%至50%以上。不過兩兩比較也有代價:它對無關的表述差異也比較敏感,容易在兩個質量相近的輸出中強行分出高下。綜合來看,使用"評估軸線加規則"的結構化兩兩比較策略,是目前實踐中相對最穩健的選擇。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      外交部:中方堅決反對沒有國際法依據、未經聯合國安理會授權的非法單邊制裁

      外交部:中方堅決反對沒有國際法依據、未經聯合國安理會授權的非法單邊制裁

      環球網資訊
      2026-05-11 15:36:44
      他接受紀律審查和監察調查

      他接受紀律審查和監察調查

      錫望
      2026-05-11 21:56:44
      北京一知名高校黨委書記,新職明確!

      北京一知名高校黨委書記,新職明確!

      雙一流高校
      2026-05-12 00:08:15
      凈勝194分破紀錄,卻被騎士和活塞拿捏!尼克斯好日子可能到頭了

      凈勝194分破紀錄,卻被騎士和活塞拿捏!尼克斯好日子可能到頭了

      老梁體育漫談
      2026-05-12 00:03:27
      揚州12345投訴工單遭泄露事件正在調查中,涉事電競協會公布決議:審計原會長任職期間賬目、更換法人代表

      揚州12345投訴工單遭泄露事件正在調查中,涉事電競協會公布決議:審計原會長任職期間賬目、更換法人代表

      極目新聞
      2026-05-11 20:38:33
      中國3大長壽食物,雞蛋排第3,第1很多人想不到,中老年要常吃

      中國3大長壽食物,雞蛋排第3,第1很多人想不到,中老年要常吃

      小胡軍事愛好
      2026-05-10 22:12:06
      齊爾克澤技術再好也不配效力曼聯,表現激怒B費!英媒建議回購1人

      齊爾克澤技術再好也不配效力曼聯,表現激怒B費!英媒建議回購1人

      羅米的曼聯博客
      2026-05-11 11:54:16
      世乒賽落幕!國乒284萬獎金分配出爐,王楚欽65萬,孫穎莎47萬

      世乒賽落幕!國乒284萬獎金分配出爐,王楚欽65萬,孫穎莎47萬

      帛河體育
      2026-05-11 09:21:55
      一圖看懂磷酸鐵鋰與三元鋰壽命差距:足足3倍

      一圖看懂磷酸鐵鋰與三元鋰壽命差距:足足3倍

      芭比衣櫥
      2026-05-11 15:13:17
      賀希寧走步了嗎?CBA裁判專家分析,給出了一個答案

      賀希寧走步了嗎?CBA裁判專家分析,給出了一個答案

      體育哲人
      2026-05-11 21:04:17
      桂林的問題,出在哪?

      桂林的問題,出在哪?

      起喜電影
      2026-05-12 01:01:14
      250億!賴清德竄訪代價來了,斯威士蘭開始要債 盧秀燕卻聲援綠營

      250億!賴清德竄訪代價來了,斯威士蘭開始要債 盧秀燕卻聲援綠營

      聞識
      2026-05-10 18:17:01
      王思雨退出國家隊任四川女籃主帥?川軍外教轉投比利時還能回歸嗎

      王思雨退出國家隊任四川女籃主帥?川軍外教轉投比利時還能回歸嗎

      大嘴爵爺侃球
      2026-05-11 10:59:21
      穆里尼奧提兩大條件!皇馬姆巴佩去留反轉,7000 萬人請愿離隊!

      穆里尼奧提兩大條件!皇馬姆巴佩去留反轉,7000 萬人請愿離隊!

      奶蓋熊本熊
      2026-05-12 01:26:10
      74歲普京現身閱兵儀式,面容憔悴引發健康擔憂,俄烏沖突消耗身心

      74歲普京現身閱兵儀式,面容憔悴引發健康擔憂,俄烏沖突消耗身心

      譯言
      2026-05-11 07:33:16
      四川鄰水一嬰兒疑似遭家人遺棄,還留有現金和生日,警方回應:嬰兒已被家人帶回家,并非遺棄,具體原因不便透露

      四川鄰水一嬰兒疑似遭家人遺棄,還留有現金和生日,警方回應:嬰兒已被家人帶回家,并非遺棄,具體原因不便透露

      臺州交通廣播
      2026-05-11 23:10:04
      三亞皮皮蝦再升級!老板身亡仍被追責,游客曝猛料,不止是為了錢

      三亞皮皮蝦再升級!老板身亡仍被追責,游客曝猛料,不止是為了錢

      北緯的咖啡豆
      2026-05-10 11:43:20
      老白干酒董事長突然放棄連任,已掌舵10余年,去年營收創上市以來最大跌幅

      老白干酒董事長突然放棄連任,已掌舵10余年,去年營收創上市以來最大跌幅

      紅星新聞
      2026-05-11 20:59:10
      “華為”改為“國內通信設備商”,中天科技撤回投資者關系活動記錄表?

      “華為”改為“國內通信設備商”,中天科技撤回投資者關系活動記錄表?

      北京商報
      2026-05-11 20:48:14
      殺人誅心!澤連斯基簽法令“允許”紅場閱兵,并附上精準GPS!

      殺人誅心!澤連斯基簽法令“允許”紅場閱兵,并附上精準GPS!

      老馬拉車莫少裝
      2026-05-09 08:02:47
      2026-05-12 06:04:49
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業世界
      8300文章數 563關注度
      往期回顧 全部

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機會

      頭條要聞

      間諜引誘國企人員進色情場所 拍艷照要挾對方加入

      頭條要聞

      間諜引誘國企人員進色情場所 拍艷照要挾對方加入

      體育要聞

      梁靖崑:可能是最后一屆了,想讓大家記住這個我

      娛樂要聞

      “孕婦墜崖案”王暖暖稱被霸凌協商解約

      財經要聞

      宗馥莉罷免銷售負責人 部分業務將外包

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      本地
      手機
      親子
      健康
      旅游

      本地新聞

      用蘇繡的方式,打開江西婺源

      手機要聞

      蘋果iOS/iPadOS 15.8.8正式版發布

      親子要聞

      蒙眼吹錢挑戰親子互動游戲

      干細胞能讓人“返老還童”嗎

      旅游要聞

      打卡同色系風景 帶火城市微旅行

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产一区二区视频在线播放| 国产亚洲精品第一综合麻豆| 99免费视频| 日本三级欧美三级人妇视频黑白配| 亚洲中文字幕毛片在线播放| 亚欧女AV| 亚洲午夜精品久久久久久抢 | 国产一卡一卡| 国产精品女人呻吟在线观看| 48沈阳熟女高潮嗷嗷叫| 99国内精品久久久久久久| 欧洲精品亚洲精品日韩专区| 公喝错春药让我高潮| 偷看少妇自慰xxxx| 91熟妇| 国产精品成人AⅤ在线一二三四| 国产亚洲视频中文字幕视频| 大香伊蕉在人线国产免费| 最新国产精品好看的精品| 91人妻人人澡人人爽人人精品| 野外做受又硬又粗又大视频| 亚洲日产专区| 人妻丰满熟妇AV无码区APP| 成人国产精品一区二区网站公司| 亚洲人成影院在线观看| 色综合人人超人人超级国碰| 久久AV秘?一区二区三区水生| 国产区3| 无遮挡边吃摸边吃奶边做| 亚洲精品国产自在现线最新| av中文字幕久久专区| 国产白嫩护士在线播放| 青青狠狠噜天天噜日日噜| 人人干人人爽| 日本熟妇人妻xxxxx-欢迎您| 制服丝袜一区| 国产成人麻豆精品午夜福利在线| 韩国三级在线 中文字幕 无码| 国产成人影院一区二区三区| 人人妻人人爽人人添夜夜欢视频 | 人妻91无码色偷偷色噜噜噜|