網易首頁 > 網易號 > 正文申請入駐

CVPR 2026 新論文 | HouseMind：讓大模型學會“空間語言”，統一建筑平面戶型理解、生成和編輯

2026-03-16 07:33:48　來源: 陸新征課題組

未填舉報

分享至

論文：Tokenization Allows Multimodal Large Language Models to Understand, Generate and Edit Architectural Floor Plans

DOI：https://doi.org/10.11918/202505066

項目主頁：https://housemind.github.io

線上試用：https://housemind.ai-structure.com（參考推送：）

2分鐘視頻介紹：

太長不看版

建筑平面戶型圖設計需要同時推理幾何、語義和空間層級，這對現有AI系統仍是一個巨大挑戰。雖然擴散模型和大語言模型提升了視覺保真度，但在連貫的空間推理和可控生成方面仍存在困難。

因此我們提出了HouseMind，一個多模態大語言模型，在統一框架內實現了建筑平面戶型圖的理解、生成和編輯三大任務。通過引入離散的房間實例token構建統一詞匯表，橋接布局和符號推理。經過多模態對齊和指令微調，模型可以根據文本指令合成連貫、可控的布局。

實驗表明，該框架在幾何有效性和可控性方面均優于現有方法，保持高效并且可本地部署。

研究背景

你有沒有想過，為什么AI可以寫出流暢的代碼、畫出精美的畫作，卻難以設計一個“合理”的房子？這背后的原因是：建筑平面戶型圖不是簡單的圖像，它需要理解復雜的空間關系：廚房要靠近餐廳，臥室要遠離客廳，衛生間要通風采光……這些都需要層次化的空間推理能力。

這讓人不禁思考：能否讓AI真正理解“空間語言”，像搭積木一樣智能地設計和修改建筑平面布局？

（插圖由Nano Banana 2生成）

目前主流的方法存在幾個關鍵問題，包括：將建筑平面布局生成視為純視覺過程，沒有在房間實例層面進行顯式推理，導致生成的方案缺乏全局空間連貫性和細粒度房間理解能力；理解、生成、編輯通常需要不同的架構，難以在統一框架內完成；同時，大多數AI系統計算需求大，難以本地部署，限制了在實際設計流程中的應用。

研究方法

HouseMind的核心思想是將連續的幾何布局離散化為空間token，然后利用大語言模型進行多模態推理。這個框架由兩個核心組件組成：房間布局token化以及多模態對齊與多任務學習。

2.1 房間實例token化

在token化階段，我們使用VQ-VAE模塊學習建筑平面戶型圖輪廓和房間實例的離散表示。CNN編碼器從二進制輪廓掩碼中提取潛在特征，通過輪廓碼本進行向量量化，將幾何輪廓轉換為離散詞匯表。每個房間掩碼與對應的輪廓上下文共同編碼，模型學習到上下文感知的房間表示，捕獲幾何和空間鄰接關系。

2.2 多模態對齊與多任務學習

在多模態對齊與多任務學習階段，HouseMind通過三階段流程逐步增強空間推理、跨模態理解和可控生成能力。第一階段是嵌入初始化，將空間碼本整合到語言模型的詞匯表中，建立離散空間代碼與文本token的一一對應關系。第二階段是多模態預訓練，在包含文本描述、輪廓token和房間token的大規模配對數據上訓練模型，使語言和幾何之間的雙向對齊成為可能。第三階段是指令微調，在策劃的多模態指令數據上進行監督微調，覆蓋理解、生成和編輯三個核心任務。

實驗分析

我們構建了一個統一基準測試，在一致的幾何、文本和評估協議下聯合評估建筑平面戶型圖的理解、生成和編輯。

在理解任務上，HouseMind在所有指標上都達到優異性能。成功率和匹配率均達到100%，房間定位和鄰接準確率提高超過40個百分點，平均房間面積誤差從數平方米降低到0.6平方米以下。其關系推理準確率約為0.8，進一步展示了模型推斷復雜空間依賴關系的能力。

在生成任務上，HouseMind在像素級和圖級指標上持續優于現有方法。Micro/Macro IoU分數達到0.71/0.65，相比ChatHouseDiffusion （）提高了10%以上IoU，同時FID從11.3降低到1.9，顯著提升了真實感和空間精度。圖級指標進一步表明，HouseMind生成的布局在房間連通性和鄰接一致性方面表現更優。

在編輯任務上，HouseMind產生可控且空間一致的修改，編輯保真度顯著更高。近乎完美的Node F1表明房間類型的準確修改，而明顯更低的GED和更高的邊重疊證明HouseMind在編輯后產生更連貫和語義一致的空間關系。

值得一提的是，HouseMind在單張NVIDIA RTX 3090 GPU上即可運行，推理時間約為2-3秒，實現了高效且可本地部署的智能設計。

結語

本研究針對建筑平面戶型圖設計的三大核心任務，提出了HouseMind統一框架。

主要貢獻包括：提出房間實例token化方法，將幾何布局轉換為離散token序列，橋接符號推理與連續幾何表示；設計三階段多模態對齊和指令微調流程，實現理解、生成、編輯的統一建模；構建統一基準測試，涵蓋三大任務，推動領域標準化評估；實現輕量化架構，推理時間僅2-3秒，高效且可本地部署。

當然，受限于數據規模，目前研究在復雜空間結構上的泛化能力仍有一定局限，對復雜編輯任務的處理能力也仍有提升空間。也歡迎各位專家、老師和同學交流討論。

QQ群：

AI-structure-交流群：741840451

聯絡郵箱:

陸新征：luxz@tsinghua.edu.cn

覃思中：qsz23@mails.tsinghua.edu.cn

廖文杰：liaowj@swjtu.edu.cn

---End---

建筑結構生成式智能設計軟件：

3分鐘視頻演示剪力墻結構智能設計完整操作流程

1分鐘視頻建筑戶型平面生成與編輯流程

相關研究

學術報告視頻

專著

人工智能與機器學習

---結構智能設計

---其他土木工程領域人工智能研究

城市災害模擬與韌性城市

高性能結構與防倒塌

新論文：抗震&防連續倒塌：一種新型構造措施

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.