![]()
![]()
論文:Tokenization Allows Multimodal Large Language Models to Understand, Generate and Edit Architectural Floor Plans
DOI:https://doi.org/10.11918/202505066
項目主頁:https://housemind.github.io
線上試用:https://housemind.ai-structure.com(參考推送:)
2分鐘視頻介紹:
0
太長不看版
建筑平面戶型圖設計需要同時推理幾何、語義和空間層級,這對現有AI系統仍是一個巨大挑戰。雖然擴散模型和大語言模型提升了視覺保真度,但在連貫的空間推理和可控生成方面仍存在困難。
因此我們提出了HouseMind,一個多模態大語言模型,在統一框架內實現了建筑平面戶型圖的理解、生成和編輯三大任務。通過引入離散的房間實例token構建統一詞匯表,橋接布局和符號推理。經過多模態對齊和指令微調,模型可以根據文本指令合成連貫、可控的布局。
實驗表明,該框架在幾何有效性和可控性方面均優于現有方法,保持高效并且可本地部署。
![]()
1
研究背景
你有沒有想過,為什么AI可以寫出流暢的代碼、畫出精美的畫作,卻難以設計一個“合理”的房子?這背后的原因是:建筑平面戶型圖不是簡單的圖像,它需要理解復雜的空間關系:廚房要靠近餐廳,臥室要遠離客廳,衛生間要通風采光……這些都需要層次化的空間推理能力。
這讓人不禁思考:能否讓AI真正理解“空間語言”,像搭積木一樣智能地設計和修改建筑平面布局?
![]()
(插圖由Nano Banana 2生成)
目前主流的方法存在幾個關鍵問題,包括:將建筑平面布局生成視為純視覺過程,沒有在房間實例層面進行顯式推理,導致生成的方案缺乏全局空間連貫性和細粒度房間理解能力;理解、生成、編輯通常需要不同的架構,難以在統一框架內完成;同時,大多數AI系統計算需求大,難以本地部署,限制了在實際設計流程中的應用。
2
研究方法
HouseMind的核心思想是將連續的幾何布局離散化為空間token,然后利用大語言模型進行多模態推理。這個框架由兩個核心組件組成:房間布局token化以及多模態對齊與多任務學習。
2.1 房間實例token化
在token化階段,我們使用VQ-VAE模塊學習建筑平面戶型圖輪廓和房間實例的離散表示。CNN編碼器從二進制輪廓掩碼中提取潛在特征,通過輪廓碼本進行向量量化,將幾何輪廓轉換為離散詞匯表。每個房間掩碼與對應的輪廓上下文共同編碼,模型學習到上下文感知的房間表示,捕獲幾何和空間鄰接關系。
![]()
2.2 多模態對齊與多任務學習
在多模態對齊與多任務學習階段,HouseMind通過三階段流程逐步增強空間推理、跨模態理解和可控生成能力。第一階段是嵌入初始化,將空間碼本整合到語言模型的詞匯表中,建立離散空間代碼與文本token的一一對應關系。第二階段是多模態預訓練,在包含文本描述、輪廓token和房間token的大規模配對數據上訓練模型,使語言和幾何之間的雙向對齊成為可能。第三階段是指令微調,在策劃的多模態指令數據上進行監督微調,覆蓋理解、生成和編輯三個核心任務。
![]()
3
實驗分析
我們構建了一個統一基準測試,在一致的幾何、文本和評估協議下聯合評估建筑平面戶型圖的理解、生成和編輯。
在理解任務上,HouseMind在所有指標上都達到優異性能。成功率和匹配率均達到100%,房間定位和鄰接準確率提高超過40個百分點,平均房間面積誤差從數平方米降低到0.6平方米以下。其關系推理準確率約為0.8,進一步展示了模型推斷復雜空間依賴關系的能力。
![]()
在生成任務上,HouseMind在像素級和圖級指標上持續優于現有方法。Micro/Macro IoU分數達到0.71/0.65,相比ChatHouseDiffusion ()提高了10%以上IoU,同時FID從11.3降低到1.9,顯著提升了真實感和空間精度。圖級指標進一步表明,HouseMind生成的布局在房間連通性和鄰接一致性方面表現更優。
![]()
在編輯任務上,HouseMind產生可控且空間一致的修改,編輯保真度顯著更高。近乎完美的Node F1表明房間類型的準確修改,而明顯更低的GED和更高的邊重疊證明HouseMind在編輯后產生更連貫和語義一致的空間關系。
![]()
值得一提的是,HouseMind在單張NVIDIA RTX 3090 GPU上即可運行,推理時間約為2-3秒,實現了高效且可本地部署的智能設計。
4
結語
本研究針對建筑平面戶型圖設計的三大核心任務,提出了HouseMind統一框架。
主要貢獻包括:提出房間實例token化方法,將幾何布局轉換為離散token序列,橋接符號推理與連續幾何表示;設計三階段多模態對齊和指令微調流程,實現理解、生成、編輯的統一建模;構建統一基準測試,涵蓋三大任務,推動領域標準化評估;實現輕量化架構,推理時間僅2-3秒,高效且可本地部署。
當然,受限于數據規模,目前研究在復雜空間結構上的泛化能力仍有一定局限,對復雜編輯任務的處理能力也仍有提升空間。也歡迎各位專家、老師和同學交流討論。
QQ群:
AI-structure-交流群:741840451
聯絡郵箱:
陸新征:luxz@tsinghua.edu.cn
覃思中:qsz23@mails.tsinghua.edu.cn
廖文杰:liaowj@swjtu.edu.cn
---End---
建筑結構生成式智能設計軟件:
3分鐘視頻演示剪力墻結構智能設計完整操作流程
1分鐘視頻建筑戶型平面生成與編輯流程
相關研究
學術報告視頻
專著
人工智能與機器學習
---結構智能設計
---其他土木工程領域人工智能研究
城市災害模擬與韌性城市
高性能結構與防倒塌
新論文:抗震&防連續倒塌:一種新型構造措施
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.