多變值邏輯模式的存活機率分析
文: 張國柱(Chang,Kuo-Chu)
台大名譽教授
日期:2023/02/06
臨床療效常用的評估法:接受 Y 方法治療的 X 疾病患者共有 x 位,其中成效良好者有 y 位,那麼 Y 方法對 X 疾病的治癒率便為 y/x。舉例來說,100 位患有嚴重心疾的病人,經葉克膜(Extracorporeal Membrane Oxygenation,ECMO)處置之後,允許離院時仍存活者有 50 位,那麼研究者便可宣稱 ECMO 治療的成功率為 50%。然而疾病治療的成功與否,受多種生理病理參數所影響。文獻指出:高心跳(heart rate,HR)與全因死亡率有著顯著的相關性;此外低體溫(body temperature,BT)與嚴重心臟疾病的不良預後習習相關。因此 ECMO 治療的成敗是否與病人的心跳、體溫有所關連,值得關注。
疾病治療的成效,本質上是機率論的概念。因此如何確立有用的數學模式,融入重要的生理參數作為預測及改善療效的參考,很重要。母數機率模式(parametric probability model)是一種有用的工具,可用來評估療效的成果。母數機率模式可用分佈函數(distribution function)和機率密度函數(probability density function)表示,其分佈特徵可用動差(moment)𧗽量。分佈特徵係指趨中性(central tendency),以均值表示;分散度(dispersion)以標準差表示;歪度(skewness)以歪度係數表示;峯度(kurtosis)以峯度係數表示。這些特徵可檢視母數機率模式在臨床應用上的合宜性。本文將探討母數機率模式的數理基礎及其參數推定法,並檢定模式參數的有效性。
多變值邏輯模式(multivariate logistic model)
多變值邏輯模式是一種有用的母數機率模式,可令研究者評估單個或多個獨立變數(independent variables)對二元相依變數(binary dependent variable),如成功/失敗機率的預測。
為著討論方便起見,令 Y 為二元相依變數:Y = 1代表事件成功;Y = 0代表事件失敗。X 代表獨立變數向量,x 代表獨立變數向量之值。假設第j個病人之獨立變數向量為 Xj,相依變數為 Yj。設若 Yj = 1代表存活;Yj = 0代表死亡,那麼多變值邏輯模式的存活機率(probability of alive)表示如下
Pj = Pr(Yj = 1) = 1/(1+e-xj) ⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯ (1)
其死亡機率則為
Pr(Yj = 0) = 1 − Pj ⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯(2)
其中
xj = b0+b1x1j+b2x2j+⋯⋯+bkxkj
x1j⋯⋯xkj = 獨立變數 Xj 的 k 個觀察值
b0⋯⋯bk = 多變值邏輯模式的 k+1個廻歸係數
多變值邏輯模式 [公式(1)] 屬於累積分布函數(cumulative distribution function),其機率密度函數之特徵:對原點軸對稱,對稱軸兩旁單調下降(monotonic decreasing);均值 = 0,標準差 = 𝝅/√3,歪度係數 = 0,峯形比常態分佈低。因此多變值邏輯模式之形狀猶如「S」,以0及1為其漸近線。
重寫方程式(1)可得
LogitPj = ln[Pj/(1 − Pj)] = b0+b1x1j+b2x2j+⋯⋯+bkxkj ⋯⋯⋯⋯⋯⋯⋯⋯(3)
最大概似估計法(maximum likelihood method)
最大概似估計法是用來推測模式參數 b0⋯⋯bk 之估計值的方法。對第 j 個病人而言,其概似函數(likelihood function,L)為
Lj = {1! /[sj! (1 − sj) !]}Pjsj(1 − Pj) (1-sj) ⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯(4)
其中
sj = 1 = 存活
sj = 0 = 死亡
當病患數為 N 時,其概似函數 L 則為
L = L1*L2*⋯⋯*LN
= ∏ j=1,N Lj = ∏j=1,N {1! /[sj! (1 − sj) !]}Pjsj(1 − Pj)(1-sj) ⋯⋯⋯⋯⋯(5)
利用牛頓-拉弗森法(Newton-Raphson method)求得下列非線性聯立方程式之近似解,這些近似解就是多變值邏輯模式之參數的最大概似估計值(maximum likelihood estimates,MLEs)。
(∂lnL/∂bi) = 0 i = 0⋯⋯k ⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯(6)
MLEs是使概似函數達到最大值的模式參數值。
多變值邏輯模式獨立變數選擇的評準
(1) 首先令模式無任何獨立變數參與:
xj = b0
(2) 令獨立變數之值 x1j 進入 x 分量:
xj = b0 + b1x1j
此時
(a) 利用概似比率檢定法(likelihood ratio test,LRT)決定獨立變數的取捨。LRT統計量(statistics)愈大、P−值愈小,表示模式的預測值與觀察值之間有良好的適合度(goodness of fit),那麼變數便被留用。
(b) 當變數被取用時,將它留在模式裏,令下一個變數進入模式,此刻須留意自度(degree of freedom)的決定而重覆步驟(a)。
靈敏性(sensitivity)、專一性(specificity)分析
分類表(classification table)可用來評估多變值邏輯模式所預測的響應與實際的觀察之間的差距(請看附註說明)。決定模式所預測的響應為陽性(positive)或陰性(negative)的機率門檻可定為0.5 (機率門檻可由研究人員自行決定)。如果推測所得的機率高於0.5,那麼預測變數便可歸於陽性響應;如果推測所得的機率低於或等於0.5,那麼預測變數便可歸於陰性響應。因此分類表中的靈敏度,也就是真陽性率(true positive rate)可表示如下
Sensitivity = TP/(TP+FN)
其中 TP 代表真陽性(true positive)的病患數;FN 代表偽陰性(false negative)的病患數。
專一性,也就是真陰性率(true negative rate)可以下式計算之
Specificity = TN/(TN+FP)
其中 TN 代表真陰性(true negative)的病患數;FP 代表偽陽性(false positive)的病患數。
準確率(accuracy)之定義:二元分類表預測正確的筆數(TP+TN)佔所有様本(N)的比例,也就是
Accuracy = (TP+TN)/N
精確率(precision)之定義:真陽性(TP)對所有預測為陽性結果(TP+FP)的比值
Precision = TP/(TP+FP)
結語
多變值邏輯模式是一種有用的母數機率模式,可令研究者評估單個或多個獨立變數對二元相依變數,如成功/失敗機率的預測。以嚴重心臟病患者接受 ECMO 處置為例,研究人員可運用多變值邏輯模式分析 ECMO 治療之響應曲線,預測某個病人之生理病理參數(獨立變數)對治療成效(相依變數)的影響。文獻指出,心跳、體溫的變化與心臟疾病的預後習習相關。由於心跳及體溫的測量屬於非侵入式,穩定且具重覆性,成本低又容易取得。因此檢驗接受 ECMO 處置的病人,心跳與體溫對其存活率的預測,可提供臨床醫師低研究成本而又有意義的資訊。假設病人經 ECMO 處置後,住院第一天的前八個小時或十個小時是重要的關鍵期,那麼ECMO 團隊可於每個小時對病人進行一次心跳和體溫的測量,爾後採用心跳的平均值(HRm)、標準差(HRsd)和體溫的平均值(BTm)、標準差(BTsd)當為獨立變數,進行多變值邏輯模式分析,檢測心跳與體溫對 ECMO 治療成效的影響,提供改善療效的參考。
附註說明
TP:預測為陽性(P),預測正確(T)
TN:預測為陰性(N),預測正確(T)
FP:預測為陽性(P),預測錯誤(F)
FN:預測為陰性(N),預測錯誤(F)
留言
張貼留言