網易首頁 > 網易號 > 正文申請入駐

多重信賴域貝葉斯優(yōu)化 (MTRBO)

2026-05-09 21:41:05　來源: CreateAMind

上海舉報

分享至

多重信賴域貝葉斯優(yōu)化 (MTRBO)

MTRBO: Multiple trust-region based Bayesian optimization

https://arxiv.org/pdf/2605.06618

摘要：

貝葉斯優(yōu)化（BO）是一種用于優(yōu)化黑盒函數的流行框架。盡管其有效，但由于搜索空間的指數級增長、目標函數的異質性以及較低的采樣預算，BO在高維問題上通常效率低下。為克服這些問題，本文提出了一種基于多信任域的貝葉斯優(yōu)化技術（MTRBO）。信任域是一個局部區(qū)域，在該區(qū)域內優(yōu)化模型被認為能夠準確地逼近目標函數。假設高斯過程（GP）作為關于目標函數的先驗信念，并基于后驗均值和方差函數，該方法在一個信任域內自適應地利用有前景的當前解附近區(qū)域，同時在另一個信任域內探索搜索空間中最不確定的區(qū)域。建立了所提方法的理論全局收斂性。隨后，該工作與當前其他最先進的基于信任域的貝葉斯優(yōu)化算法進行了基準對比，在多種非凸和高維測試函數上展現出優(yōu)越的性能。在采樣預算（即函數評估次數）內，所提方法在解的質量方面優(yōu)于其他方法。所提方法被應用于投資組合優(yōu)化問題，以驗證其在現實場景中的適用性。

關鍵詞：高斯過程；貝葉斯優(yōu)化；信任域；全局優(yōu)化

1 引言

在工程與科學研究領域，優(yōu)化問題通常涉及處理計算昂貴（難以評估、耗時、評估成本高等）的黑盒函數。由于缺乏關于連續(xù)性、可微性、凸性等已知數學性質的信息，傳統方法在此類問題上往往失效。貝葉斯優(yōu)化（BO）已成為應對這些場景的強大工具，通常使用高斯過程對復雜目標進行建模與優(yōu)化，且僅需有限的評估次數。貝葉斯優(yōu)化最早起源于Kushner（1964）的工作，該研究假設布朗運動隨機過程作為目標函數的先驗，并引入了改進概率（PI）采集函數，用于在存在噪聲的情況下尋找任意多峰曲線最大值點的位置。另一種采集函數“期望改進（EI）”由Mo?kus（1975）提出。盡管這些僅是早期工作，但貝葉斯優(yōu)化在Jones、Schonlau和Welch（1998）的研究之后獲得了更多關注，該研究提出了一種針對昂貴黑盒函數的高效全局優(yōu)化（EGO）算法。多年來，研究者提出了眾多貝葉斯優(yōu)化變體，Du等人（2022）、Lu等人（2023）以及Z. Wang等人（2024）為近期的相關工作。有關貝葉斯優(yōu)化最新進展的更多細節(jié)可參閱X. Wang等人（2023）的文獻。

盡管BO在超參數調優(yōu)、機器人學、材料科學等諸多領域取得了成功，但在高維搜索空間設置下，其可擴展性與效率面臨嚴峻考驗。正如Eriksson等人（2019）所指出的，優(yōu)化高維問題面臨若干挑戰(zhàn)。首先，隨著維度增加，搜索空間呈指數級擴大，使得從大量局部最優(yōu)中定位全局最優(yōu)變得更加困難。其次，函數本身通常具有異質性，這增加了構建有效全局代理模型的復雜度。最后，由于維度災難，搜索空間的增長速度遠快于采樣預算（即可能的函數評估總數），導致出現具有顯著后驗不確定性的區(qū)域。這通常導致常見的采集函數過度偏向探索，而以犧牲利用潛在有前景區(qū)域為代價。近期的研究進展旨在通過多種不同方法克服這些局限。許多技術利用了目標函數中潛在的可加結構，例如Kandasamy等人（2015）、Gardner等人（2017）以及Z. Wang等人（2018）的工作。這些方法通常涉及訓練大量高斯過程（GP），每個GP代表不同的可加結構，這使得它們在面對較大評估預算時可擴展性較差。另一些替代方法（如Z. Wang等人，2016；Nayebi等人，2019）則依賴于將高維空間映射至未知的低維子空間，從而能夠處理大量觀測數據。此外，為應對大量觀測數據，大規(guī)模貝葉斯優(yōu)化通常采用批量選點進行并行評估。盡管近期引入了多種批量采集函數（Chevalier & Ginsbourger，2013；Shah & Ghahramani，2015；González等人，2016），但這些方法在實踐中通常難以隨批量大小的增加而有效擴展。

盡管上述方法為克服傳統BO的局限提供了不同方向，但它們自身仍存在不足。基于可加結構的方法隨著評估預算的增加，往往會變得計算昂貴且效率低下。管理大量GP具有挑戰(zhàn)性，且在評估預算較大時易引發(fā)可擴展性問題。將高維空間映射至低維子空間的方法依賴于對目標函數結構的特定假設。這些假設在實踐中未必總是成立，可能導致代理模型出現偏差。盡管批量采集函數旨在并行評估多個點，但它們在處理大批量時常常面臨挑戰(zhàn)。針對大批量有效擴展這些方法仍存難題，因為計算需求的增加以及管理大量并行評估的困難，往往導致它們在實踐中表現不佳。

為克服BO的上述局限及近期應對方法的不足，本文提出了一種基于多信任域的貝葉斯優(yōu)化（MTRBO）算法。該算法在每次迭代中分別設置兩個信任域，獨立用于探索與利用。對于探索，選取在基于觀測值將高斯過程模型擬合至昂貴黑盒目標函數后，不確定性最高的區(qū)域。對于利用，選取當前最佳觀測值附近的信任域，并在該區(qū)域內進行若干次子迭代以尋找后驗均值函數的最大化點；該后驗均值函數在長期運行中本身會收斂于實際目標函數。因此，在每次迭代中，所提方法僅在遠小于完整搜索空間的極小區(qū)域內進行搜索，且不會在探索與利用之間做出妥協。該方法經過精細調整，避免了對高探索的過度敏感，而這正是傳統BO在高維設置下的一個缺陷。在每次迭代中，該方法首先預測下一次迭代的兩個可能查詢點。其一來自探索階段，即探索信任域內采集函數的最大化點；其二通過在接近當前最佳觀測值處進行利用獲得，該點基于實際增量（針對后驗均值）與預測均值（針對采集函數）的比率，在若干次子迭代中使用不同的信任域來最大化當前后驗均值函數。（注：原文“ration”應為“ratio”的筆誤，此處按“比率”譯出。）該做法是合理的，因為從長遠來看，后驗均值函數將收斂于實際目標函數。本文的主要貢獻包括： ? 提出了一種名為基于多信任域的貝葉斯優(yōu)化（MTRBO）的全局優(yōu)化方法。 ? 確立了該方法的理論全局收斂性。

近期，在該研究方向上已有若干進展（Regis，2016；Eriksson等人，2019；Diouane等人，2023；Li等人，2023）。這些方法與所提方法的比較將在第2節(jié)中進行。

本文其余部分組織如下：第3節(jié)介紹高斯過程與傳統貝葉斯優(yōu)化的基本概念。接著，第4節(jié)詳細討論所提出的基于多信任域的貝葉斯優(yōu)化算法，第5節(jié)提供對所提方法全局收斂性的理論分析。實驗結果以及與現有基于信任域的貝葉斯優(yōu)化方法的對比將在第6節(jié)中討論。最后，第7節(jié)給出對所提方法的整體結論。

2 相關工作

TRIKE (Regis, 2016) 采用了一種信任域策略，其中每次迭代通過在指定信任域內最大化期望改進（EI）函數來確定。該信任域的大小根據實際改進量與預測 EI 之間的比率進行調整。

TuRBO (Eriksson 等人, 2019) 算法構建了一組局部模型，并使用隱式多臂老虎機方法在這些模型之間策略性地分配樣本，以進行全局優(yōu)化。

在 TRLBO (Li 等人, 2023) 中，采用了兩個動態(tài)調整的信任域，旨在提高算法的利用能力，同時保持其探索潛力。具體而言，一個信任域有助于最小化高斯過程中的樣本數量，而另一個則限制了候選點的解空間。

TREGO (Diouane 等人, 2023) 在常規(guī)的高效全局優(yōu)化（EGO）步驟與信任域內的局部步驟之間交替進行。

除 TREGO 外，上述所有先前的工作主要集中于在當前最優(yōu)解附近進行利用，以抵達局部最優(yōu)。TRIKE 采用了一種重啟策略：當 EI 低于某一閾值時，會生成新的初始觀測值，并再次在當前最優(yōu)解附近進行利用。TuRBO 使用獨立的高斯過程（GP）模型同時進行多次貝葉斯優(yōu)化運行，每個模型位于不同的信任域內。TRLBO 使用一個信任域來減少 GP 模型中的觀測數量，并使用另一個信任域在當前最佳觀測值附近進行利用。該方法僅專注于局部優(yōu)化。盡管 TRIKE 和 TuRBO 具備一定的探索潛力，但探索仍無法得到保證。僅專注于利用背后的論點是：隨著搜索空間維度的增加，常見的采集函數主要傾向于探索。TREGO 確實考慮了探索，但該方法并未專門縮小搜索空間；默認情況下，在每次迭代中它都會在整個搜索空間上進行常規(guī)的全局搜索，僅在全局階段未能充分改進解的少數幾次迭代中除外。因此，根本問題——即貝葉斯優(yōu)化在高維搜索空間下表現不佳——并未得到妥善解決。某些方法未能恰當地探索搜索空間，某些方法忽略了利用，導致過度探索，而某些技術則需要目標函數具備額外的性質。

本文提出的 MTRBO 算法通過考慮兩個信任域克服了所有這些問題：一個用于探索不確定性最高的區(qū)域，另一個用于在當前最優(yōu)解附近進行利用。該算法經過精細調整，即使在探索階段提供了在最大化采集函數方面更好的查詢點，它也會通過在當前最優(yōu)解附近進行利用來避免過度探索（從而解決 TuRBO 中指出的問題）。在利用階段完成后，僅當該點仍然更優(yōu)時，算法才會在下一次迭代中轉移至該點。MTRBO 在探索與利用之間取得了平衡，并且搜索空間僅被縮減至信任域范圍內。

3 預備知識

在全文中，不失一般性，本文中的所有優(yōu)化問題均表述為最大化問題。如果遇到最小化目標，則通過對函數值取負在內部進行轉換。

3.1 高斯過程

高斯過程（Gaussian Process, GP）是將多元高斯分布推廣到無限多個變量的情形。它是定義在函數上的分布。形式上我們可以說：

定義 1. 高斯過程是一組隨機變量的集合，其中任意有限個隨機變量均服從多元高斯分布。

核函數必須是正定的，其含義是對于任意有限的點集，由成對評估形成的核矩陣是正定的。存在幾種核函數，但本工作將使用平方指數核（Squared exponential kernel），也被稱為徑向基核（Radial basis kernel），這是由于其平滑性質以及在 GP（高斯過程）文獻中的廣泛使用，并且它在計算上是高效的。如果已知關于目標的先驗知識表明其波動劇烈，那么 Matern 核將是一個更好的選擇。平方指數核定義為

其中 s 是縮放因子， l 是長度尺度。

3.2 貝葉斯優(yōu)化

迄今為止僅討論了統計模型，它主要是高斯過程，并代表了對未知目標函數的信念。然而，每次迭代中生成點序列的過程并未被描述。隨機選擇查詢點雖是可能的，但這將是一種浪費；相反，使用的是選擇策略（也稱為采集函數），該策略利用后驗模型來指導搜索選擇。

盡管文獻中這種早期的策略 PI (Kushner, 1964) 在目標已知的情況下表現良好，然而在一般情況下，PI 過度利用而探索不足，這可能導致搜索過程陷入局部最優(yōu)。為了解決這個問題，接下來的采集函數考慮了改進的期望。

3.3.2 期望改進 (EI)

期望改進采集函數被定義為當前函數值相對于當前最佳函數值的改進量為正時的期望值。

3.3.3 上置信界 (UCB)

上置信界是一種流行的樂觀方法，通過考慮后驗均值和方差的加權和來平衡探索與利用，定義如下：

3.4 基于信任域的優(yōu)化

信任域方法用于處理優(yōu)化問題，其通過將最優(yōu)解的搜索限制在一個模型被認為能準確表示目標函數的區(qū)域內。關于信任域方法的最早工作可追溯至 (Levenberg, 1944)，并在 (Marquardt, 1963) 的工作之后得到普及，該方法因此被命名為 Levenberg-Marquardt 方法。關于信任域方法的詳細綜述可見 (Yuan, 2015)。與線搜索方法不同（線搜索方法先選擇一個方向，然后決定沿該方向走多遠），信任域方法確定當前點周圍的一個區(qū)域，在該區(qū)域內模型是一個良好的近似，然后在該區(qū)域內進行優(yōu)化。在第 k 次迭代中，針對一般優(yōu)化問題的信任域算法

盡管信任域方法在解決導數可用的大規(guī)模非線性優(yōu)化問題時十分有用，但信任域方法的擴展也應用于無導數優(yōu)化中，在此類優(yōu)化中目標函數的導數不可用，并采用了代理模型。在本工作中，我們將重點關注后者。

4 提出的基于信任域的貝葉斯優(yōu)化技術

如第1節(jié)所述，如果搜索空間的維度較高（通常超過20），傳統貝葉斯優(yōu)化將無法表現良好。另一方面，在貝葉斯優(yōu)化中用于指導搜索的基礎采集函數本身會變?yōu)槎嗄B(tài)的，這使得優(yōu)化變得更加困難。因此，在每次迭代中，不再搜索整個空間，而是基于采集函數搜索兩個目標函數被認為可能包含最優(yōu)解的區(qū)域。這大幅縮小了搜索空間，同時在該區(qū)域內采集函數的多模態(tài)性也降低了，這使得搜索更加容易且有效。在每次迭代中考慮兩個信任域；一個用于探索，提供搜索空間中不確定性最高區(qū)域的信息，而另一個用于利用，專注于當前最優(yōu)解的鄰域。

此處，尋找實際目標函數值以計算實際增量是不可取的，因為目標函數是昂貴的，因此增量是在后驗均值函數上計算的，隨著觀測值數量的增加，該函數趨向于實際函數。

該算法在算法 (3) 中系統地給出。

5 收斂性分析

在本節(jié)中，對所提算法的收斂性質進行了分析。首先建立高斯過程模型的后驗均值收斂于真實目標函數 f ( x )的條件。然后檢查探索和利用階段的行為，展示算法如何有效地平衡探索和利用以覆蓋整個搜索空間并細化有希望區(qū)域周圍的搜索。最后，利用這些結果證明算法實現了全局收斂，確保隨著迭代次數的增加，目標函數的全局最優(yōu)最終被識別出來。

這一結果確保了隨著可用數據的增加，只要數據稠密地覆蓋該空間，GP 代理模型就能準確逼近目標函數。證明遵循經典核插值理論，可在 Berlinet 和 Thomas-Agnan (2004) 中找到。

在全文中，假設目標函數是一個昂貴但確定性的黑盒函數，且觀測到的函數值中沒有噪聲。在存在噪聲觀測的情況下，可以使用如 (Chowdhury & Gopalan, 2017) 中討論的集中不等式來證明收斂性。關于分類和混合搜索空間的全局收斂性已在 (Wan et al., 2021) 中展示。

注：定理 1 僅確立了所提方法的理論健全性，確保其非發(fā)散性，并非旨在驗證其優(yōu)越性。支持所提方法解決高維設置下標準貝葉斯優(yōu)化問題的有效性的主要證據，由下一節(jié)中的實證結果提供。

6 實驗與結果

實驗的主要目標是評估所提出的 MTRBO 算法在解決高維問題時的功效和性能。具體而言，旨在評估該算法在各種基準問題（包括非凸和不可微函數）上高效定位最優(yōu)或近優(yōu)解的能力。實驗結果還將提供關于 MTRBO 應用于復雜、昂貴的黑盒函數時的可擴展性和魯棒性的見解。實驗是多方面的：首先，使用不同維度的合成測試函數分析該方法的性能，并對該方法中使用的超參數進行敏感性分析；其次，進行消融研究，以深入了解探索和利用等組件對方法性能的影響；然后，將該方法應用于現實世界問題（如 MuJoCo 和投資組合優(yōu)化），以驗證其在實際應用中的可接受性。此外，還針對所提方法與基線方法進行了統計顯著性測試。所有已進行實驗的完整細節(jié)展示在表 1 中。所有實驗均在一臺運行 Windows 11 系統、配備 Intel(R) Core(TM) i5-6500 處理器和 16 GB 內存的 PC 上完成。

6.1 測試函數與對比算法

實驗使用了來自名為"OptimizationTestFunctions" (Pascal, 2020) 的 Python 庫中的 17 個合成測試函數，每個函數具有不同的維度（2、20、50、100、500），用于測試。待優(yōu)化的目標函數表達式見附錄 A。為驗證所提方法在現實世界中的應用，使用了來自 OpenAI Gym 庫的 MuJoCo HalfCheetah-v2 問題，以及投資組合優(yōu)化問題，其中股票價格的歷史數據收集自"yfinance"Python 庫。

6.2 測試函數實驗

由于貝葉斯優(yōu)化旨在適用于昂貴函數，因此低采樣預算是可取的，即通過極少量的函數評估，盡可能準確地預測實際目標函數。在本工作中，所有對比實驗的采樣預算均設定為 100，隨后進行敏感性分析以檢查其對所提方法的影響。因此，在對不同維度（2, 20, 50, 100, 500）的每個測試函數進行 100 次函數評估后，觀測所提方法（多信任域貝葉斯優(yōu)化，MTRBO）的目標函數值，以及高效全局算法（EGO）、基于克里金的期望改進優(yōu)化中的信任域實現（TRIKE）、信任域貝葉斯優(yōu)化（TURBO）、高效全局優(yōu)化的信任域框架（TREGO）、基于信任域的局部貝葉斯優(yōu)化（TRLBO）的目標函數值，并在所有獨立試驗中根據各方法觀測到的最小值和最大值范圍進行歸一化。對于所有實驗，基線方法的超參數設置如下：

6.3 討論

為了評估所提算法的有效性，我們在不同維度的一組多樣化的測試函數上，與幾種最先進的黑盒優(yōu)化方法進行了全面對比。不同維度下所有測試函數的各方法歸一化分數詳見表 3、4、5、6、7。

對于跨不同維度的大多數測試函數，所提 MTRBO 方法實現的平均歸一化分數（如表 1 所定義）優(yōu)于其他方法。
該方法的最差表現也接近于所有方法和運行中觀測到的整體最小值。
在許多情況下，所提方法獲得的最小值與相匹配。

為了理解所提方法中關鍵組件（即探索和利用）的單獨貢獻，我們進行了一項消融研究。這涉及系統地禁用算法的一個組件并觀察其對性能的影響。移除探索會導致全局搜索能力變差，而移除利用則會導致忽略潛在區(qū)域。在 MTRBO 中同時啟用探索和利用比單獨使用探索或利用能帶來更好的結果。詳細結果可見表 2。

所提出的 MTRBO 方法已被應用于兩個截然不同的問題領域：MuJoCo HalfCheetah 強化學習環(huán)境和金融領域的投資組合分配問題。在 MuJoCo HalfCheetah 任務中，其目標是學習一種控制策略以最大化隨時間推移的累積獎勵，MTRBO 的性能與幾種基線優(yōu)化方法進行了基準對比。如條形圖（圖 3）所示，它取得了比競爭方法更高的累積獎勵。在投資組合分配問題中，目標是在資產權重約束下最大化回報并最小化風險。盡管在測試函數的情況下未對每個變量進行歸一化，但對于大多數現實世界的問題，人們需要對每個變量進行歸一化，因為不同變量的范圍可能存在顯著差異，這可能會影響優(yōu)化性能。在此投資組合優(yōu)化問題中，假設權重范圍為 [0, 1]。表 8 中展示的對比結果表明，與其他方法相比，所提方法在大多數情況下既能獲得更高的目標函數值，也能獲得更好的夏普比率。

在圖 4 中，展示了每種方法在 100 次迭代中針對二維 Ackley 函數的進展，數據基于 30 次獨立試驗運行的均值及其離散程度，旨在深入了解不同方法如何逼近最優(yōu)或近優(yōu)解，以及它們各自的收斂速度。從圖中可以明顯看出，與基線方法相比，所提出的 MTRBO 方法表現出更快的收斂速度。盡管 TRLBO 在初始階段的表現優(yōu)于 MTRBO，但它傾向于陷入局部最優(yōu)。這主要是因為 TRLBO 過度側重于利用（exploitation），并且通過采用信任域來限制高斯過程中使用的樣本數量。雖然這增強了利用能力，但也可能導致該方法忽略潛在的更好探索區(qū)域。與許多貝葉斯優(yōu)化方法類似，MTRBO 在早期階段強調探索（exploration）。這解釋了為什么 TRLBO 最初可能優(yōu)于 MTRBO，但最終會遭受過早收斂至局部最優(yōu)的風險。

為了說明所提方法在針對少數基準函數的特定測試運行中如何搜索空間并逐漸收斂至最優(yōu)或近優(yōu)解，展示了圖 1 和圖 2。這些圖還區(qū)分了在探索階段選擇的點和在利用階段選擇的點。從這些圖中可以看出所提方法的一個局限性：它偏向于探索。然而，這可以通過增加利用階段的子迭代次數來緩解。另一個局限性是該方法的計算復雜度——在每次迭代中，都需要將高斯過程擬合到觀測數據上，這帶來了
的成本。

為了直觀展示每次迭代后探索階段的信任域半徑如何變化，提供了圖 5。這讓我們深入了解該方法是如何探索搜索空間的：隨著觀測到的樣本越來越多，信任域的半徑正在減小。

6.4 超參數敏感性分析

此處，公式 (9) 表示均值-方差投資組合分配問題的總期望收益，該收益期望被最大化。而公式 (10) 指的是作為風險度量的總相關方差，該方差需要被最小化。受約束條件限制，與資產相關的權重比例之和為 1，且所有權重均為正數或零。均值-方差投資組合優(yōu)化問題定義如下：

隨著資產數量的增加，搜索空間也隨之增大，這意味著優(yōu)化目標的問題正變得更加困難。隨后，所提出的優(yōu)化方法被用于解決這種高維情況下的問題。考慮了兩個數據集，一個包含來自印度國家證券交易所（Indian National Stock Exchange）的 100 只股票，另一個包含來自紐約證券交易所（New York Stock Exchange）的 200 只股票（數據時間為 2019 年 1 月 1 日至 2024 年 1 月 1 日）。所提出的方法以及本文討論的所有用于對比的方法都被用來解決這兩個數據集的投資組合優(yōu)化問題，結果提供在表 (8) 中。基于 30 次試驗的平均夏普比率（性能度量），所提方法在兩個數據集上均給出了最佳性能。

7 結論

本研究提出了一種基于信任域的貝葉斯優(yōu)化（BO）技術，該技術既在當前最佳目標函數值點附近利用高斯后驗均值函數，又在不確定性最高的區(qū)域進行探索。通過在每次迭代中進行若干次子迭代來利用后驗均值函數，該方法避免了在利用階段計算目標函數，同時能夠很好地了解該區(qū)域（因為從長遠來看，均值函數會逼近昂貴的目標函數）。利用與探索之間的平衡既提供了對目標函數局部特性的更好認知，又能有效地覆蓋搜索空間。隨后，將所提方法與最先進的基于信任域的貝葉斯優(yōu)化以及常規(guī)貝葉斯優(yōu)化在多種合成測試函數上進行了對比，這些測試函數具有非凸、不可微等特性，且維度從 2 變化到 500 不等。在預定義的采樣預算內，所提方法獲得的解更優(yōu)，這表明該方法能夠以較少的函數評估次數對未知的目標函數進行泛化，從而使其適用于計算昂貴的函數。為驗證其在現實問題中的適用性，所提方法被用于解決來自不同股票市場的 100 只和 200 只股票的投資組合優(yōu)化問題。與其他方法相比，該方法在夏普比率方面的性能同樣更為優(yōu)越。

盡管本研究有望取得巨大成功，但該方法仍存在局限性；該方法有推廣至目標存在本質沖突的多目標場景的空間，此外還存在計算復雜度較高的問題，且該方法略微偏向探索，但這可以通過增加利用階段的子迭代次數來加以解決。

原文鏈接：https://arxiv.org/pdf/2605.06618

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.