啞變量主要針對的是原始變量本身即為分類變量的情況,不管是無序多分類還是有序多分類變量,在引入模型時可以按照統(tǒng)計需要轉(zhuǎn)化為啞變量引入模型,并且通過SPSS即可實現(xiàn)對啞變量進行0或1的編碼。
對于連續(xù)型變量,在引入回歸模型時往往要考慮實際的臨床意義,若直接帶入原始的連續(xù)型變量,每變化一個單位水平所引起的因變量的變化效應(yīng)是很微弱的。同時當(dāng)我們無法很好地確定自變量和因變量之間的線性變化關(guān)系時,也需要考慮將連續(xù)型變量離散化,轉(zhuǎn)化為啞變量帶入模型。
那么提到連續(xù)型變量,應(yīng)該如何有效的進行分組,將其轉(zhuǎn)化為啞變量的形式呢?今天我們就來跟大家細數(shù)一下,在回歸模型中連續(xù)型變量轉(zhuǎn)化為啞變量的多種變化形式。
1、二分類分組
嚴(yán)格意義上,提到啞變量通常是指轉(zhuǎn)化為多分類的變量,但在這里我們首先介紹二分類分組,將連續(xù)型變量按照某個切點轉(zhuǎn)化為二分類變量,是因為二分類變量在某種意義上也是一種最為簡單的啞變量形式。二分類變量有2個分類屬性,我們選擇其中一個分類作為參照(通常設(shè)置變量=0),則另一個分類自動作為比較組(通常設(shè)置變量=1)。
那么如何確定二分類分組的切點呢?通常情況下,為了保證以切點劃分的兩組研究對象,在樣本量上能夠盡量保持一致,我們可以以該自變量的中位數(shù)為切點進行分組,即按照中位水平分為高、低兩組來進行比較;或者也可以按照臨床實踐中具有某種特殊意義的診斷切點作為分組標(biāo)準(zhǔn),將研究人群分為有無此類疾病特點的兩組來進行比較。
例如JACC期刊2016年發(fā)表的一篇文章[1],作者在構(gòu)建多因素Cox回歸模型時,將膽固醇外流能力(Cholesterol efflux)按照中位數(shù)水平為切點,轉(zhuǎn)化為二分類變量帶入到模型進行分析。結(jié)果顯示,膽固醇外流能力高的人群與膽固醇外流能力低的人群相比,動脈粥樣硬化性心血管疾病(ASCVD)的發(fā)生風(fēng)險降低了65%(HR=0.35,95% CI為0.23-0.54)。
而對于另一個指標(biāo),冠狀動脈鈣化積分(CAC) ,作者以0作為分組切點,是從臨床意義的角度考慮而進行的劃分。在臨床中,CAC=0表明冠狀動脈沒有發(fā)生鈣化,CAC>0則表明發(fā)生鈣化,CAC積分越高,鈣化程度就越嚴(yán)重。因此在本例研究中,結(jié)果顯示冠狀動脈鈣化 (CAC>0) 的人群與沒有發(fā)生鈣化(CAC=0)的人群相比,動脈粥樣硬化性心血管疾病(ASCVD)的發(fā)生風(fēng)險增加了1.19倍(HR=2.19,95% CI為1.22-3.93)。
![]()
2、等分位分組
將連續(xù)型變量進行二分類分組,這種方法固然簡單易行,也便于理解,但是在有些情況下,比如我們想要更多地觀察自變量與因變量之間復(fù)雜的變化關(guān)系,此時若僅分為二組,則會遺漏很多重要的信息,使得數(shù)據(jù)本身的價值沒有得到更充分的利用。
因此,在借鑒二分類分組思想的基礎(chǔ)上,我們可以對連續(xù)型變量進一步離散化,根據(jù)樣本量和分析的需要,通常可以按照該變量的三分位、四分位或者五分位等切點來進行分組。
進行等分位分組,其優(yōu)點在于不僅可以保證每一組的研究人群在樣本量上能夠保持相對一致,而且可以較為直觀的反映自變量與因變量之間復(fù)雜的變化關(guān)系,為進一步探討兩者之間的關(guān)聯(lián)性提供了一定的依據(jù)。
例如Am J Clin Nutr期刊2015年發(fā)表的一篇文章[2],研究人員將不同的營養(yǎng)素按照其攝入水平的5分位進行分組,并以攝入水平最低的1組作為參照。結(jié)果顯示,隨著水果纖維攝入水平的升高, 2型糖尿病發(fā)生的相對風(fēng)險RR值分別為1、0.93、0.91、0.82、0.73(Model 1),RR值的變化呈現(xiàn)一種逐漸下降的趨勢 (P-trend<0.0001),提示隨著水果纖維攝入量的升高,研究對象發(fā)生2型糖尿病的風(fēng)險逐漸降低。
![]()
3、等距分組
在進行等分位分組時,研究對象被均勻分組,基本上每一組研究人群的樣本量大致相同,但是組與組之間的間距卻很難保證是一致的。例如上述研究中,研究人員對水果纖維攝入水平進行5分位分組,每一組的中位數(shù)分別為1.45、2.55、3.55、4.69、6.68,相鄰兩組之間的間距是不相等的。
當(dāng)我們需要探討某個連續(xù)型自變量,在每增加固定間距的單位水平時,引起的因變量的變化效應(yīng),就可以將該自變量以一個設(shè)定好的固定間距,對其進行分組,然后再引入到模型中進行分析。
這樣分組轉(zhuǎn)換的好處在于,在實際的臨床應(yīng)用中,分析結(jié)果的臨床意義易于解釋和理解。等分位分組時,切點的選擇是依賴于當(dāng)前的研究人群,如果研究人群發(fā)生了變化,其分組的切點也會跟著發(fā)生變化;但是如果以固定的單位間距作為切點去分組,在進行臨床解釋時則更加便于病人理解和接受。
采用等距分組的方式進行轉(zhuǎn)換,實際上并不會改變該自變量對因變量的作用大小,只是相當(dāng)于放大了效應(yīng)值本身的數(shù)值,從而使得結(jié)果更為好看和直觀。
我們再來看一個實例,同樣是JACC期刊2015年發(fā)表的文章[3],研究人員在進行統(tǒng)計分析時,將研究對象的年齡進行了分組轉(zhuǎn)換,以60歲為起點,每間隔10歲為一組,分為<60、61-70、71-80、≥80歲共4組。結(jié)果顯示隨著年齡分組的增大,10年死亡率呈現(xiàn)逐漸上升的趨勢,從9.3%增加到66.7%。研究人員也同時進一步檢驗了年齡每增加10歲,10年死亡率風(fēng)險可增加3.43倍,OR=4.43,95% CI為3.63-5.41。
![]()
4、臨床界值分組
對連續(xù)型變量進行等分位分組或等距分組時,它們對于數(shù)據(jù)本身的依賴性較強,主要適用于那些較新的研究指標(biāo),這些指標(biāo)往往是探索性的,還沒有或者即將應(yīng)用的臨床實踐中,此時可以利用等分位或等距法作為分組切點的依據(jù)。
但是對于那些已經(jīng)在臨床中得到廣泛應(yīng)用的指標(biāo),指南對其已經(jīng)推薦了明確的診斷切點,為了更好的用于臨床解釋,我們可以直接將指南推薦的診斷切點作為分組的依據(jù)來進行劃分。
例如低密度脂蛋白膽固醇(LDL-C)這個指標(biāo),《中國成人血脂異常防治指南(2016年修訂版)》[4]中已經(jīng)明確推薦,在中國動脈粥樣硬化性心血管疾病一級預(yù)防人群中,LDL-C的分層標(biāo)準(zhǔn)為:理想水平(<100mg/dl)、合適水平(100-130 mg/dl)、邊緣升高(130-160 mg/dl)、升高(≥160 mg/dl),因此我們在對LDL-C進行分組轉(zhuǎn)換的時候,就可以參考這個切點進行劃分,做到分組的切點有理有據(jù),才能使得自己的結(jié)果更加有說服力,更加有臨床意義。
再例如在Lancet Diabetes Endocrinol期刊2017年發(fā)表的一篇文章中[5],對于維生素D這個主要研究指標(biāo),研究人員同樣按照臨床參考范圍將維生素D劃分為3組,分別為重度缺乏 (<25nmol/L) 、輕度缺乏(25-50 nmol/L)及充足水平(≥50 nmol/L),并以維生素D水平充足的一組作為參照,轉(zhuǎn)化為啞變量后再帶入到多重線性回歸中進行比較。
![]()
5、“Free Style”分組
當(dāng)然,除了按照上述分組的切點原則,將連續(xù)型變量轉(zhuǎn)換為啞變量的形式外,你也可以有自己的Free Style。
對于較新穎的、非常規(guī)的指標(biāo),臨床上并沒有給定參考的界值,此時你可以根據(jù)自身數(shù)據(jù)的特點和分析的需要,自行設(shè)置合理的分組切點,可以嘗試不同的切點分組方法,只要你的分組切點有理有據(jù),能夠說服大家,結(jié)果能夠被重復(fù)出來,我們都認(rèn)為這樣的切點是合理的,因為真理總是在不斷的嘗試中才能逐漸顯現(xiàn)出來。
就像是在制定指南的過程中,對于推薦合理的臨床界值這一關(guān)鍵問題,專家們肯定也是進行了很多次的嘗試,劃分了很多切點來不停探索,最終才找出來最適宜臨床應(yīng)用和推廣的切點值。
但是需要注意的是,當(dāng)我們在嘗試不同的分組切點時,如果忽然發(fā)現(xiàn)按照某一組的切點劃分后能夠得出陽性結(jié)果,P<0.05,此時也不要高興的太早,也要考慮假陽性出現(xiàn)的可能性,以及結(jié)果的外推性。
切點劃分的前提一定是要具有合理性,如果某種暴露/處理因素與結(jié)局之間存在一定的劑量反應(yīng)關(guān)系,那么理論上這種關(guān)聯(lián)性的變化趨勢,即使在不同的切點分組下也是可以被重復(fù)出來的,因此我們不能為了發(fā)表一篇論文,或者為了追求P<0.05的陽性結(jié)果,就忽略了分組的合理性和實際的臨床意義,F(xiàn)ree Style切不可盲目地不斷試錯。
本文介紹了多種連續(xù)型變量轉(zhuǎn)化為啞變量的分組形式,希望能夠幫助大家更好地利用手中現(xiàn)有的數(shù)據(jù),豐富自己的結(jié)果。
參考文獻:
[1] J Am Coll Cardiol. 2016 May 31;67(21):2480-7
[2] Am J Clin Nutr. 2015 Dec;102(6):1543-53
[3] J Am Coll Cardiol. 2015 Aug 4;66(5):511-20
[4]《中國成人血脂異常防治指南(2016年修訂版)》
[5] Lancet Diabetes Endocrinol. 2017 May;5(5):367-376
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.