多變值邏輯模式的存活機率分析

2月 06, 2023

文：張國柱（Chang，Kuo-Chu）

台大名譽教授

日期：2023/02/06

臨床療效常用的評估法：接受 Y 方法治療的 X 疾病患者共有 x 位，其中成效良好者有 y 位，那麼 Y 方法對 X 疾病的治癒率便為 y/x。舉例來說，100 位患有嚴重心疾的病人，經葉克膜（Extracorporeal Membrane Oxygenation，ECMO）處置之後，允許離院時仍存活者有 50 位，那麼研究者便可宣稱 ECMO 治療的成功率為 50%。然而疾病治療的成功與否，受多種生理病理參數所影響。文獻指出：高心跳（heart rate，HR）與全因死亡率有著顯著的相關性；此外低體溫（body temperature，BT）與嚴重心臟疾病的不良預後習習相關。因此 ECMO 治療的成敗是否與病人的心跳、體溫有所關連，值得關注。

疾病治療的成效，本質上是機率論的概念。因此如何確立有用的數學模式，融入重要的生理參數作為預測及改善療效的參考，很重要。母數機率模式（parametric probability model）是一種有用的工具，可用來評估療效的成果。母數機率模式可用分佈函數（distribution function）和機率密度函數（probability density function）表示，其分佈特徵可用動差（moment）𧗽量。分佈特徵係指趨中性（central tendency），以均值表示；分散度（dispersion）以標準差表示；歪度（skewness）以歪度係數表示；峯度（kurtosis）以峯度係數表示。這些特徵可檢視母數機率模式在臨床應用上的合宜性。本文將探討母數機率模式的數理基礎及其參數推定法，並檢定模式參數的有效性。

多變值邏輯模式（multivariate logistic model）

多變值邏輯模式是一種有用的母數機率模式，可令研究者評估單個或多個獨立變數（independent variables）對二元相依變數（binary dependent variable），如成功/失敗機率的預測。

為著討論方便起見，令 Y 為二元相依變數：Y = 1代表事件成功；Y = 0代表事件失敗。X 代表獨立變數向量，x 代表獨立變數向量之值。假設第j個病人之獨立變數向量為 X_j，相依變數為 Y_j。設若 Y_j = 1代表存活；Y_j = 0代表死亡，那麼多變值邏輯模式的存活機率（probability of alive）表示如下

P_j = Pr(Y_j= 1) = 1/(1+e^-xj) ⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯ （1）

其死亡機率則為

Pr(Y_j= 0) = 1 − P_j ⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯（2）

其中

x_j = b₀+b₁x_1j+b₂x_2j+⋯⋯+b_kx_kj

x_1j⋯⋯x_kj = 獨立變數 Xj 的 k 個觀察值

b₀⋯⋯b_k = 多變值邏輯模式的 k+1個廻歸係數

多變值邏輯模式 [公式（1）] 屬於累積分布函數（cumulative distribution function），其機率密度函數之特徵：對原點軸對稱，對稱軸兩旁單調下降（monotonic decreasing）；均值 = 0，標準差 = 𝝅/√3，歪度係數 = 0，峯形比常態分佈低。因此多變值邏輯模式之形狀猶如「S」，以0及1為其漸近線。

重寫方程式（1）可得

LogitP_j= ln[P_j/(1 − P_j)] = b₀+b₁x_1j+b₂x_2j+⋯⋯+b_kx_kj ⋯⋯⋯⋯⋯⋯⋯⋯（3）

最大概似估計法（maximum likelihood method）

最大概似估計法是用來推測模式參數 b₀⋯⋯b_k之估計值的方法。對第 j 個病人而言，其概似函數（likelihood function，L）為

L_j= {1! /[s_j! (1 − s_j) !]}P_j^sj(1 − P_j)^(1-sj)⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯（4）

其中

s_j = 1 = 存活

s_j = 0 = 死亡

當病患數為 N 時，其概似函數 L 則為

L = L₁*L₂*⋯⋯*L_N

= ∏_j=1,NL_j= ∏_j=1,N{1! /[s_j! (1 − s_j) !]}P_j^sj(1 − P_j)^(1-sj)⋯⋯⋯⋯⋯（5）

利用牛頓-拉弗森法（Newton-Raphson method）求得下列非線性聯立方程式之近似解，這些近似解就是多變值邏輯模式之參數的最大概似估計值（maximum likelihood estimates，MLEs）。

(∂lnL/∂b_i) = 0 i = 0⋯⋯k ⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯（6）

MLEs是使概似函數達到最大值的模式參數值。

多變值邏輯模式獨立變數選擇的評準

（1）首先令模式無任何獨立變數參與：

x_j= b₀

（2）令獨立變數之值 x_1j進入 x 分量：

x_j= b₀+ b₁x_1j

此時

（a）利用概似比率檢定法（likelihood ratio test，LRT）決定獨立變數的取捨。LRT統計量（statistics）愈大、P−值愈小，表示模式的預測值與觀察值之間有良好的適合度（goodness of fit），那麼變數便被留用。

（b）當變數被取用時，將它留在模式裏，令下一個變數進入模式，此刻須留意自度（degree of freedom）的決定而重覆步驟（a）。

靈敏性（sensitivity）、專一性（specificity）分析

分類表（classification table）可用來評估多變值邏輯模式所預測的響應與實際的觀察之間的差距（請看附註說明）。決定模式所預測的響應為陽性（positive）或陰性（negative）的機率門檻可定為0.5 (機率門檻可由研究人員自行決定)。如果推測所得的機率高於0.5，那麼預測變數便可歸於陽性響應；如果推測所得的機率低於或等於0.5，那麼預測變數便可歸於陰性響應。因此分類表中的靈敏度，也就是真陽性率（true positive rate）可表示如下

Sensitivity = TP/(TP+FN)

其中 TP 代表真陽性（true positive）的病患數；FN 代表偽陰性（false negative）的病患數。

專一性，也就是真陰性率（true negative rate）可以下式計算之

Specificity = TN/(TN+FP)

其中 TN 代表真陰性（true negative）的病患數；FP 代表偽陽性（false positive）的病患數。

準確率（accuracy）之定義：二元分類表預測正確的筆數（TP+TN）佔所有様本（N）的比例，也就是

Accuracy = (TP+TN)/N

精確率（precision）之定義：真陽性（TP）對所有預測為陽性結果（TP+FP）的比值

Precision = TP/(TP+FP)

結語

多變值邏輯模式是一種有用的母數機率模式，可令研究者評估單個或多個獨立變數對二元相依變數，如成功/失敗機率的預測。以嚴重心臟病患者接受 ECMO 處置為例，研究人員可運用多變值邏輯模式分析 ECMO 治療之響應曲線，預測某個病人之生理病理參數（獨立變數）對治療成效（相依變數）的影響。文獻指出，心跳、體溫的變化與心臟疾病的預後習習相關。由於心跳及體溫的測量屬於非侵入式，穩定且具重覆性，成本低又容易取得。因此檢驗接受 ECMO 處置的病人，心跳與體溫對其存活率的預測，可提供臨床醫師低研究成本而又有意義的資訊。假設病人經 ECMO 處置後，住院第一天的前八個小時或十個小時是重要的關鍵期，那麼ECMO 團隊可於每個小時對病人進行一次心跳和體溫的測量，爾後採用心跳的平均值（HR_m）、標準差（HR_sd）和體溫的平均值（BT_m）、標準差（BT_sd）當為獨立變數，進行多變值邏輯模式分析，檢測心跳與體溫對 ECMO 治療成效的影響，提供改善療效的參考。

附註說明

TP：預測為陽性（P），預測正確（T）

TN：預測為陰性（N），預測正確（T）

FP：預測為陽性（P），預測錯誤（F）

FN：預測為陰性（N），預測錯誤（F）

台大張國柱

循環生理暨血行力學

多變值邏輯模式的存活機率分析

留言

張貼留言

這個網誌中的熱門文章

心臟篇（1）：認識心臟肥大

血流篇（2）：Poiseuille 定律 vs Murray 定律

血管力學篇（5）：心室後負荷之槪念