<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      讓AI給林黛玉找個外國平替?大模型的文科推理有多離譜?

      0
      分享至


      追問快讀:如果你讓大模型給林黛玉找一個外國文學里的平替,它能給出令人信服的答案嗎?這個腦洞的背后其實是當下人工智能最核心的軟肋——“類比推理”能力。

      人類可能很容易舉一反三,列出一些合適的人物。但在對大模型的眾多批判中,人們常說它只是記住了海量訓練數據中的模式,并沒有進行真正的抽象思考。

      本文總結了近兩年多項關于大模型類比能力的前沿研究。科學家們發現,無論是做理科的數字矩陣,還是做文科的故事類比,只要給題目換個馬甲(比如使用虛構字母表或重寫故事表述),大模型的準確率就會斷崖式下跌,表現甚至不如7歲的兒童。看似無所不知的AI,距離真正讀懂人類復雜的隱喻與類比,依然任重道遠。

      當下想要找到些“普通人類擅長,而大模型不擅長”的任務,似乎越來越難了。“類比”可能就是這樣的任務,這不只是人工智能的“阿克琉斯之踵”,更顯露出不同大模型間以及大模型與人類之間的本質差異。

      在《表象與本質》一書中,認知科學家侯世達(Douglas Hofstadter)指出:

      類比不僅僅是語言或邏輯的工具,更是思維的基本單位。

      我們日常語言中充滿了類比和隱喻,就如同“充滿”一詞本身。類比能夠激活創造力。例如,愛因斯坦將引力場類比為一個重物被放入蹦床后造成的表面彎曲,這啟發他提出了廣義相對論。類比還能解釋難以理解的現象。就像為人所熟知的類比“意識就像冰山”,通過將意識與冰山聯系起來,人們可以直觀地推斷出意識在水面下的深度和復雜性。

      那么,大語言模型是否也具有類比能力?

      在機器學習中,類比體現為“0嘗試推理”,即不給大模型可供學習的示例,而是讓大模型自行根據題目進行推理。為了驗證大模型能否進行類比推理,Webb等人(2023)設計并使用了三種類比推理任務——字符串類比、數字矩陣和故事類比,以此測試GPT3面對不同類型任務的推理能力。通過這套測試,研究人員認為他們證明了GPT-3具有類比推理能力[1]。

      但是,更進一步的問題是,這些大模型會不會只是在回憶訓練數據,而并非真正的類比呢?當面對更變化多樣的問題時,大模型能否具有穩定的類比能力?


      大模型能讀懂題目“馬甲”下的本質嗎?

      為了檢測模型是否依賴表面特征或捷徑,而非真正的抽象推理,圣塔菲研究院的Lewis & Mitchell,基于Webb等人設計的基本轉換和泛化類型,設計了更進一步的變體測試[2]。

      他們給題目套一些“馬甲”,在不改變本質的同時,讓題目看起來不同;然后用新的測試對GPT-3(text-davinci-003)以及近期更新的大模型GPT-3.5(gpt-3.5-turbo-0613)、GPT-4(gpt-4-0613)進行類比能力測試,包括字符串、數字矩陣和故事類比實驗。這類研究中,最常用到的是侯世達于1985年提出的“字符串類比”*。

      * 字符串類比:a b c d → a b c e; i j k l → ?

      其中,第一部分是"源轉換",第二部分是"目標",任務是以類似于源轉換的方式轉換目標字符串。

      2023年,Webb等人提出了六種轉換類型(如序列擴展、后繼、前驅等)和多種泛化類型(如字母到數字、分組、更長目標等)的組合。他們為每種問題類型生成了大量問題,并將這些問題給到GPT-3(text-davinci-003)以及57名UCLA本科生進行測試。結果發現,人類參與者的準確率表現出很大的差異,但總體而言,GPT-3在大多數問題類型上的表現甚至優于平均人類表現[1]。

      但是,這項研究中所使用的字母表均為標準英文字母表及其固有順序,測試中大模型表現出來的“類比能力”是否可能依賴表面特征走了“捷徑”?為此,Lewis & Mitchell保留了基本轉換和泛化類型,又進一步創建了兩類變體[2]:

      - 虛構字母表:隨機打亂2-20個字母的順序,創建28種不同的打亂字母表

      - 符號字母表:用非字母符號完全替代字母,創建9種不同的符號字母表

      研究人員對真實的拉丁字母表,隨機選取1-3對進行替換,然后分別給人類和GPT-3、GPT-3.5、GPT-4進行了測試。


      ?圖1. Lewis & Mitchell給受試人類和大模型的類比問題示例. 圖源:[2]

      結果顯示,當字母表的替換次數增加后,不論是GPT3、GPT3.5或到GPT4,其回答準確性都有下降,且都顯著低于在線招募的人類受試者[2]。


      ?圖2:不同字母表替換次數下,GPT模型和人類被試者的準確性對比. 圖源:[2]

      Mitchell團隊還做過一項嘗試,他們讓42名兒童(7-9歲)、62名成人以及4種大模型(Anthropic的Claude-3.5、Google的Gemma-2 27B、Open AI的GPT-4o和Meta的Llama-3.1 405B),接受拉丁字母表、希臘字母表和符號列表三種條件的字符串類比任務[3]。


      ?圖3:不同類型的字母推理問題. 圖源:[3]

      結果顯示,大模型面對類比問題時,準確性就會顯著下降,表現甚至不如兒童。就拿GPT-4o和Claude-3.5來說,在拉丁語字母表上,其平均準確性要高于兒童并接近成人;但當題目換成希臘字母,準確性就會顯著下降;而到了符號時,其準確性甚至不如孩童。而其他開源模型如Llama-3.1 405B和Gemma-2 27B,其準確性下降更為明顯[3]。



      ?圖4:不同大模型和人類在三類字符串類比中的表現對比. 圖源:[3]

      上述結果說明,當實驗引入“異構”字母表時,人類甚至兒童仍然能夠解決問題,而大模型則會出錯。一個能夠真正理解和類比的系統,應該在變化的情況下也能保持高性能——這正是GPT系列大模型不具備的能力。

      讀者也許會好奇,其他推理大模型能否回答這樣的問題。筆者簡單嘗試了一下,在DeepSeek官方的全尺寸R1及V3模型,以及阿里通義千問的QwQ 32B推理模型中,對于多次替換后的虛構字母表,模型能夠正確回答,并給出符合人類思考過程的推理過程的。

      但當DeepSeek模型變為蒸餾Qwen或lamma的32B、14B、8B或1.5B尺寸時,筆者有限的幾次觀察發現,模型都呈現出過度思考的特征,即會在思考過程中嘗試眾多過于復雜的模式,展示數萬token的繁雜思考過程,最終仍然給出了錯誤的回答。筆者還遇到在思考過程中,已經發現正確答案,但又在接下來的思考過程中,大模型將其否決的案例。

      筆者認為,基于強化學習的大模型能否進行類比,還需要進一步的定量研究,以考察不同尺寸模型的準確度。例如,對于模型將問題過度復雜化的傾向,可以根據思考過程,對模型的錯誤進行進一步的分類,以此或可創建出一個評估一般思維能力的考核指標。

      此外,還可以組合字符串類比的6個變種,設計更多的題目,例如在字母表中包含數字、英文字母、漢字及符號,這樣的改變或許對人類不會影響準確性,但可能會導致大模型的準確度下降。同時,還需要考察推理模型對于這類問題的思考時所用的token數量,從而減少計算成本。


      大模型能理解推理規則嗎?

      除了字母表推理,還可以使用數字矩陣類問題(分析數字模式以確定缺失的數字)。數字矩陣測試的設計思路源于經典的瑞文漸進矩陣測試(Raven's Progressive Matrices),這是一種廣泛用于測量抽象推理能力的非語言智力測試。相比之前字母表類比中改變問題的表現形式,數字矩陣問題通過組合規則,考察了大模型所謂的推理能力是真正的抽象理解還是模式匹配。

      這類問題中,涉及的基礎規則有4種,題目由這些基礎規則組合而成:


      研究者對原始數字矩陣測試進行了兩個關鍵變化:空白位置變化(將空白位置變為矩陣的其他位置,如[1,3]或[2,2])和規則復雜度變化(設計了不同復雜度級別的矩陣問題,從簡單到復雜)[2]。


      ?圖5:涉及到多個規則的數字矩陣推理問題以及將數字換為符號的數字矩陣推理問題. 圖源:[2]

      結果顯示,僅改變空白位置這一表面特征,就導致GPT模型表現大幅下滑。盡管GPT-4在標準測試中接近人類表現(83% vs 87%);但在變體測試中,GPT-4的表現下降幅度(26%)遠大于人類(4%)[2]。這意味著,即使是最先進的模型也表現出對格式變化的高度敏感性,同樣表明了大模型的推理能力不那么魯棒。


      ?圖6:數字矩陣推理問題的準確度. 圖源:[2]

      在數字矩陣問題中,當缺失數字的位置改變時,GPT 模型的表現顯著下降。這表明了大模型不僅不理解題目考察的是什么,更沒有理解進行類比所依賴的規則。其在單一規則或原始字母表上的優異表現,依賴于題目與示例之間在的表面相似性,而非更深層次的因果推理。

      與之類似的,還包括下面的矩陣變換問題。一項研究通過簡化版ARC(抽象與推理語料庫)任務對比了不同年齡人類(兒童與成人)和大型語言模型的視覺類比推理表現,結果同樣發現人類在復雜任務中顯著優于大模型,而大模型常依賴復制或矩陣組合策略,缺乏抽象概念理解能力[4]。



      ?圖6: 給人類和大模型的視覺類比推理問題示例,以及不同推理規則對應題目的大模型與人類的準確度對比. 圖源:[4]


      在基于常識的文科推理上,

      大模型表現如何?

      上述兩類類比問題都可以算是“理科題目”,對于“文科生”的大模型,或許確實有些難了。相比之下,故事類比則主要考察大模型基于常識的類比能力。

      這類題目通常給出1個幾句話組成的短故事,然后要求參與者判斷故事1和故事A或B哪一個更為相似,即識別短故事之間的相似性,并從多個選項中選擇最符合類比關系的答案。


      ?圖7:相似故事的類比判斷,題目的故事是一個吃不到葡萄說葡萄酸的騾子版本,故事A將主角換成了一個女孩,而在故事B中,主角沒有獲得相似的東西,是由于不喜歡而非拿不到. 圖源:[2]

      在Lewis & Mitchell的研究中,他們嘗試了兩種變體:一是隨機打亂答案選項的順序,二是保持核心關系不變,但重寫故事的表述方式[2]。

      在故事類比中,GPT-4 傾向于更頻繁地選擇第一個給出的答案作為正確答案,而人類則不受答案順序的影響。此外,對于大模型,將故事用不同的話重述,也會降低在故事類比問題上的準確性[2]。


      ?圖8:文字類比問題上大模型的表現差異. 圖源:[2]

      故事類比更接近自然語言處理的實際應用場景,但研究結果卻表明即使在語言模型的"主場"上,它們的類比推理能力仍然缺乏真正的靈活性和魯棒性,過度依賴于表面特征與特定的答案格式,而非深層理解抽象關系。

      為此,筆者也設想了一種判別方式,例如對比大模型和人類回答這類問題的準確性。可以生成很多組類比問題,并招募讀過相關小說的普通人,以獲取大眾認知中的一般性回答,然后對比不同大模型和人類回答的差異性。

      通過設置不同的細分問題,可以考察大模型與人類在類比能力方面的相似度及價值觀對齊情況。

      - 跨文體類比能力:在風格差異較大的作品間,如中文的金庸武俠或《紅樓夢》與英文的《哈利波特》,大模型的類比準確性能否達到人類水平?

      - 角色理解差異:大模型在處理男性和女性角色類比時,是否存在準確性差異?

      - 群體偏好特征:大模型的類比偏好是否更接近特定人群(如不同性別、年齡段的人群)?

      - 邏輯遞推性:大模型的類比是否具有傳遞性特征(即當A>B且B>C時,是否必然推導出A>C)?


      ?圖9:大模型能夠在跨越文學作品進行類比嗎?本文作者與DeepSeek對話截圖,其中前一道基本不會存在爭議的人物類比,以及后一道可能存在回答差異的人物類比題目。

      除了上述假想的對復雜人物性格的類比,還有研究測試了大模型在無預設條件下將抽象概念(如pull、flee)與空間符號(上下左右)進行類比推理的能力,結果顯示,大模型和人類的相似性不算高[5]。不過考慮到這項研究強行要求將抽象概念(給定單詞)和方位對應缺少現實意義,這里就不詳細論述。


      ?圖10:大模型對抽象概念和人類類比的準確性評估.圖源:[5]


      提升大模型類比能力,還任重道遠

      基于以上研究發現,我們大致可以得到一個結論:聲稱大語言模型已具備一般推理能力或許為時過早。

      盡管早期研究中大模型在特定任務上表現良好,但當測試難度提升時,它們的表現就不穩定了。一個模型在一組特定任務上表現良好,并不意味著它具有魯棒性。之前有研究表明,在面對數學應用題時,只是更換題目中的人名,大模型的解答準確度都會明顯下降,而增加無關的背景論述時,模型的性能下降則更加明顯[6]。

      這一發現對于在教育、法律和醫療等關鍵決策領域應用人工智能敲響了警鐘,人工智能可以是一個強大的工具,但它還不能取代人類的思考和推理。例如,在教育領域,大模型生成的比喻確實能為教學提供幫助;然而,如果缺乏專業人士的審核與修正,這些類比可能存在潛在風險。


      ?Micha Huigen

      因此,研究人員需要開發和實施穩健性測試,以適應問題或情況中細微變化的能力。新的穩健性測試應包括一組公認的標準化任務,用以評估 AI 系統以及人類如何適應新情況。在實踐中,大模型常會遇到之前分析數據中未曾遇到的新情況和挑戰,而穩健性測試將為用戶提供衡量大型語言模型可信度的方式。

      與此同時,24年的機器學習頂會ICLR的一項研究展示了另一個發展方向:通過類比推理框架,讓大模型自動生成新的規則來應對未知場景[7]。這種基于提示詞工程的方法在多個測試基準上都取得了顯著性能提升,表明提升大模型的類比能力不僅是評估其穩健性的重要維度,更是增強模型泛化能力的關鍵路徑。這兩種方法相輔相成,共同推動著大模型向更可靠、更智能的方向發展。

      展望未來,大模型類比思維的研究,或可從中國傳統中汲取靈感。中國古典文學中的對聯與律詩,本質上就是一種精妙的類比系統,其中蘊含著嚴謹的對應規則和豐富的語義關聯。通過這些結構化的語言數據集對大模型進行微調,可能為增強其類比推理能力開辟新途徑。

      就像中文指令微調數據集 COIG-CQIA,為了提升模型在編程及數學問題上的表現,也曾使用了中文互聯網社區數據“弱智吧”的標題作為訓練指令。這些來自不同領域的實踐表明,結構化的類比思維模式,無論是傳統文學還是現代網絡社群數據集,都可能成為提升人工智能認知能力的重要工具。

      畢竟,類比思維的本質是通用的


      [1] Taylor Webb, Keith J. Holyoak, and Hongjing Lu. Emergent analogical reasoning in large language models. Nature Human Behaviour, 7(9):1526–1541, 2023.

      [2] Lewis, Martha & Mitchell, Melanie. (2024). Evaluating the Robustness of Analogical Reasoning in Large Language Models. 10.48550/arXiv.2411.14215.

      [3] Stevenson CE, Pafford A, van der Maas HLJ, Mitchell M. (2024). Can large language models generalize analogy solving like children can? arXiv.2411.02348v1.

      [4] Opie?ka GJ, Rosenbusch H, Vijverberg VP, Stevenson CE. Do large language models solve ARC visual analogies like people do? [Internet]. arXiv.org. 2024 May 13 [cited 2025 Apr 2]. Available from: https://arxiv.org/pdf/2403.09734v2

      [5] Wicke, P., Hirlimann, L., & Cunha, J. M. (2024). Using Analogical Reasoning to Prompt LLMs for their Intuitions of Abstract Spatial Schemas. Retrieved from https://analogy-angle.github.io/assets/Wicke.pdf

      [6] Mirzadeh S I, Alizadeh K, Shahrokhi H, Tuzel O, Bengio S, Farajtabar M. GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models. *arXiv preprint arXiv:2410.05229*. 2024.

      [7] Yasunaga M, Chen X, Li Y, Pasupat P, Leskovec J, Liang P, Chi EH, Zhou D. Large language models as analogical reasoners. In *International Conference on Learning Representations (ICLR)* 2024.





      關于追問nextquestion

      天橋腦科學研究院旗下科學媒體,旨在以科學追問為紐帶,深入探究人工智能與人類智能相互融合與促進,不斷探索科學的邊界。如果您有進一步想要討論的內容,歡迎評論區留言,或后臺留言“社群”即可加入社群與我們互動。

      關于天橋腦科學研究院

      天橋腦科學研究院(Tianqiao and Chrissy Chen Institute)是由陳天橋、雒芊芊夫婦出資10億美元創建的世界最大私人腦科學研究機構之一,圍繞全球化、跨學科和青年科學家三大重點,支持腦科學研究,造福人類。

      Chen Institute與華山醫院、上海市精神衛生中心設立了應用神經技術前沿實驗室、人工智能與精神健康前沿實驗室;與加州理工學院合作成立了加州理工天橋神經科學研究院。

      Chen Institute建成了支持腦科學和人工智能領域研究的生態系統,項目遍布歐美、亞洲和大洋洲,包括、、、科研型臨床醫生獎勵計劃、、等。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      讓中國孩子列隊通過符拉迪沃斯托克廣場,這個情況絕不正常!

      讓中國孩子列隊通過符拉迪沃斯托克廣場,這個情況絕不正常!

      阿龍聊軍事
      2026-05-09 19:08:47
      中方一錘定音給特朗普最高禮遇,普京通告全球:中俄關系獨一無二

      中方一錘定音給特朗普最高禮遇,普京通告全球:中俄關系獨一無二

      快看張同學
      2026-05-13 09:52:25
      25歲失業女子高調征婚,要男方180有肌肉刪光異性月薪過萬并上交

      25歲失業女子高調征婚,要男方180有肌肉刪光異性月薪過萬并上交

      搗蛋窩
      2026-05-13 12:35:35
      美專機還沒抵華,伊朗甩出兩個神預測,每一個都不是特朗普想聽的

      美專機還沒抵華,伊朗甩出兩個神預測,每一個都不是特朗普想聽的

      司馬平邦
      2026-05-13 16:24:00
      15萬  !比亞迪又一款新車正式上市!

      15萬 !比亞迪又一款新車正式上市!

      科技堡壘
      2026-05-12 13:03:17
      森林北終于松口!回應與汪峰分手傳聞,原來寧靜早已把話說透

      森林北終于松口!回應與汪峰分手傳聞,原來寧靜早已把話說透

      老搽學科普
      2026-05-13 04:08:14
      一張定期存單,最好不要超過多少錢?

      一張定期存單,最好不要超過多少錢?

      說故事的阿襲
      2026-05-13 14:24:01
      隨著41歲C羅造險+勝利隊1-1,沙特聯最新積分榜出爐:爭冠白熱化

      隨著41歲C羅造險+勝利隊1-1,沙特聯最新積分榜出爐:爭冠白熱化

      側身凌空斬
      2026-05-13 04:19:51
      經濟復蘇的三個標志

      經濟復蘇的三個標志

      生命可以承受之輕
      2026-05-11 09:05:02
      1952年許世友返鄉,不顧老母親下跪勸阻,掏出槍對準三叔:斃了你

      1952年許世友返鄉,不顧老母親下跪勸阻,掏出槍對準三叔:斃了你

      云端小院
      2026-05-12 06:41:03
      當雷軍開始造電池,寧德時代慌了嗎?

      當雷軍開始造電池,寧德時代慌了嗎?

      藍鯨新聞
      2026-05-13 12:10:08
      為啥現在沒人買枇杷了?不是大家不愛吃,是這4個現實原因勸退

      為啥現在沒人買枇杷了?不是大家不愛吃,是這4個現實原因勸退

      椰青美食分享
      2026-05-13 00:55:06
      中國股市唯一賺錢最快的方法:持有一只股,保留50%倉位,長期做T

      中國股市唯一賺錢最快的方法:持有一只股,保留50%倉位,長期做T

      股經縱橫談
      2026-04-09 18:01:46
      國家一級女演員陳麗云被逮捕!

      國家一級女演員陳麗云被逮捕!

      許三歲
      2026-03-28 09:24:30
      麥迪:詹姆斯沒經歷過重大傷病,他會回歸再打一個賽季

      麥迪:詹姆斯沒經歷過重大傷病,他會回歸再打一個賽季

      懂球帝
      2026-05-13 13:57:10
      感謝特朗普!我國投入巨資建設的瓜達爾港,終于等來了大訂單

      感謝特朗普!我國投入巨資建設的瓜達爾港,終于等來了大訂單

      南生今世說
      2026-05-02 17:56:11
      萬億巨頭,漲停!

      萬億巨頭,漲停!

      證券時報
      2026-05-13 14:13:20
      重慶奔馳撞人后續:家屬發聲留下兩個年幼女兒,其本人很漂亮

      重慶奔馳撞人后續:家屬發聲留下兩個年幼女兒,其本人很漂亮

      社會日日鮮
      2026-05-12 14:15:13
      敗光王寶強5千萬后,馬蓉定居國外近況曝光,超市打工只是其中一點

      敗光王寶強5千萬后,馬蓉定居國外近況曝光,超市打工只是其中一點

      可樂談情感
      2026-05-13 13:11:25
      大學生當上村官執行力太強了!網友:任憑你撒潑耍滑,不吃這一套

      大學生當上村官執行力太強了!網友:任憑你撒潑耍滑,不吃這一套

      夜深愛雜談
      2026-05-12 20:25:13
      2026-05-13 17:08:49
      追問Nextquestion incentive-icons
      追問Nextquestion
      科研就是不斷探索問題的邊界
      745文章數 37關注度
      往期回顧 全部

      科技要聞

      谷歌劇透安卓重大升級 Gemini深度集成底層

      頭條要聞

      出租車司機被兩老外"拐跑":3萬車費從海南開到黑龍江

      頭條要聞

      出租車司機被兩老外"拐跑":3萬車費從海南開到黑龍江

      體育要聞

      14年半,74萬,何冰嬌沒選那條更安穩的路

      娛樂要聞

      白鹿掉20萬粉,網友為李晨鳴不平

      財經要聞

      盤中最高4041.99點!創業板創歷史新高

      汽車要聞

      4月BBA無一款車型銷量破萬 新能源滲透率首破60%

      態度原創

      游戲
      藝術
      健康
      旅游
      軍事航空

      ?不思議迷宮風策略肉鴿《一方降妖錄》Steam商店頁公開,走格子也能玩出百般花樣!

      藝術要聞

      乾隆 “翻車” 名畫刷屏!

      干細胞能讓人“返老還童”嗎

      旅游要聞

      愛上海|一籬月季一闌香 來共青森林公園邂逅初夏浪漫

      軍事要聞

      沙特被指3月曾對伊朗發動多次“報復性”空襲

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 色吊丝中文字幕在线观看| 国产农村妇女毛片精品久久| 欧美 日韩 国产 成人 在线观看| 中文字幕精品亚洲二区| 久久日韩在线观看视频| 亚洲av岛国片在线观看| 国产又色又爽又黄的在线观看| 漂亮人妻中文字幕丝袜| 亚洲精品乱码免费精品乱| 精品熟女少妇免费久久| 黑河市| 欧美在线aaaaaaaaa视频| 无码中出人妻| 日韩一区二区在线看精品| 国产粗大| 天天干曰| 欧美日韩亚洲一区二区精品| 国产三级精品三级在线专1| 在线观看AV永久免费| 免费无码黄十八禁网站| 91福利国产成人精品导航| 国产美女免费的| 成人午夜爽爽爽免费视频| 天天拍夜夜添久久精品大| www色色| 亚洲另类色综合网站| 久久精品国产99精品最新| 国产无遮挡免费视频免费| 亚洲狠狠婷婷综合久久蜜芽| 欧美亚洲国产丝袜在线| 国产精品福利自产拍在线观看 | www.com黄色| 国内自拍视频在线一区| 在线熟女| 乱人伦xxxx国语对白| 999久久久无码国产精品| 99热精品国产三级在线观看| 成全我在线观看免费第二季| 亚洲激情国产一区二区三区| 亚洲欧美人成网站aaaa| 精品成a人无码|