BrainTaiwan · MD
AAN 2025 Elevidys Evidence in Focus 導讀
DMD 基因治療(二):兩個 Class I 試驗都沒達到主要終點,療效到底如何?
① 藥物本身② 療效證據③ 類固醇與生標④ 安全監測⑤ 法規與成本

系列導讀.第 2 篇 根據美國神經學學會(AAN)2025 Evidence in Focus Oskoui M, Caller TA, Parsons JA, et al. Neurology 2025;104:e213604


療效是這份 Evidence in Focus 最核心、也最尷尬的部分。delandistrogene moxeparvovec 共有 6 個臨床試驗,其中 4 個具備同儕審查資料(包含 2 個 Class I 與 2 個 Class III),累計了 134 名男童的暴露資料。在這些受試者中,有 128 名為 ≥4 至 <8 歲的可行走男童。

重點先講結論:兩個 Class I 試驗,都沒有達到主要運動功能終點。


一、主要終點:North Star Ambulatory Assessment(NSAA)

NSAA 是一個包含 17 項可行走功能的量表,每項評分為 0–2 分(0 分為無法執行、1 分為勉強或需協助、2 分為可獨立完成),評估範圍涵蓋從地板起身、行走、跑步等日常動作。

在解讀試驗數據前,我們必須先了解 NSAA 的自然病程:

參考指標數值表現
健康男童 4 歲達高峰約 34 分
DMD 男童運動功能通常進步至約 6 歲;7 歲後平均每年下降約 3.7 分
最小臨床重要差異(MCID)2.3–3.5 分(依計算方式而定)

這個 MCID 數字是判斷療效的關鍵門檻——後續我們將看到,試驗組間的差異幾乎都落在這個門檻之下。


二、NSAA 療效數據總覽(≥4 至 <8 歲可行走男童)

試驗名稱試驗設計對照組證據等級評估時間點NSAA LSM 差異(95% CI)
101 cohort Bphase 1/2a 開放標籤外部對照Class III4 年9.4(2.02–16.78)p=0.0125
102 part 1phase 2 RCT安慰劑Class I(主要)48 週0.8(–0.95 to 2.55)p=0.37
102 part 1phase 2 RCT外部對照Class III96 週2.0(–0.50 to 4.50)p=0.12
102 part 2phase 2 RCT外部對照Class III48 週2.0(0.82–3.18)p=0.0009
103 cohort 1 (ENDEAVOR)phase 1b 開放標籤外部對照Class III1 年3.2(1.59–4.81)p<0.0001
301 part 1 (EMBARK)phase 3 RCT安慰劑Class I(主要)52 週0.65(–0.45 to 1.75)p=0.24

請特別留意數據背後的「證據等級」: 凡是採用安慰劑對照的 Class I 數據(102 part 1、301),組間差異不僅極小,且皆未達統計顯著(僅差 0.8 與 0.65 分)。相對地,那些看起來效果顯著的漂亮數字(如 9.4 分、3.2 分),全部來自採用外部對照(external control)的 Class III 試驗設計——這正是解讀此份報告時最容易踩入的陷阱。

💡 兩個 Class I 結果的統合分析: 在 48–52 週時,NSAA 的組間差異僅為 0.69 分(95% CI –0.24 to 1.62,I²=20%)——這個數值遠低於 2.3–3.5 分的 MCID 門檻。


三、次族群分析:4–5 歲病童看起來有效?

102 part 1 試驗中的次族群分析結果,經常被引用作為「基因治療對年幼者有效」的證據:

然而,原作者在此提出了明確的警示: 依年齡分層的隨機化過程,導致了基線運動功能分布的不均,且這種不均等偏向了安慰劑組(僅 4–5 歲組相對平衡)。換言之,這個次族群的差異極可能是受到基線不平衡的干擾,無法直接作為確鑿的療效證據。更重要的是,在規模更大的 EMBARK 試驗中,各個年齡次族群皆未觀察到組間差異


四、次要運動終點:數值微小,且皆未通過階層分析

在 EMBARK 試驗中,部分次要終點雖然顯示出偏向治療組的小幅度數值優勢,但在預設的階層分析(hierarchical analysis)標準下,全數未達統計顯著

次要終點指標LSM 差異(95% CI)
Time to rise(起身時間)−0.64 秒(–1.06 to –0.23)
10 公尺走 / 跑−0.42 秒(–0.71 to –0.13)
第 95 百分位步速(穿戴式裝置)0.1 m/s(0.00–0.19)
爬 4 階時間−0.36 秒(–0.71 to –0.01)
100 公尺走 / 跑無差異(–3.29,–8.28 to 1.70)
PROMIS 行動/上肢無差異

值得注意的是: TTR(起身時間)與 10MWR(10公尺走/跑)本身就與 NSAA 的評估項目高度重疊。這暗示了 NSAA 作為一個序數量表,可能不夠敏感,以至於無法精準捕捉組間極細微的差異。但反過來說,這些次要終點由於未經過多重比較校正,在嚴格的實證標準下,同樣不能直接被視為具備療效。


五、一個不可忽視的潛在解盲風險

「嘔吐」是此項治療中常見的不良反應。在 EMBARK 試驗中,治療組的嘔吐發生率高達 54%,而安慰劑組卻是 0%。如此懸殊的副作用比例,極可能導致病患與研究人員在實質上發生解盲(unblinding),進而嚴重影響主觀功能評估量表的客觀性。


臨床要點摘要


🩺 神經專科醫師 施懿恩・小評論

讀這種藥的療效數據,最重要的一課是:先看證據等級,再看數字大小。9.4 分聽起來很驚人,但那終究是只有 4 個人、採用外部對照、追蹤 4 年的 Class III 結果;反觀 63 人對 62 人、真正進行隨機分配並使用安慰劑的 EMBARK 試驗,組間只差了 0.65 分,且信賴區間還跨越了零。哪一個數據比較可信,不言而喻。

外部對照(external control)幾乎注定會「美化」療效,因為自然病程組並沒有經歷試驗組那套高劑量類固醇的治療,也沒有安慰劑效應的對沖——關於這個類固醇的干擾因子,我們下一篇專門來談。

還有那個 54% vs 0% 的嘔吐發生率,簡直是教科書等級的解盲問題。當受試者自己都猜得到被分到了哪一組,依賴主觀評估的功能量表分數,勢必就要打個折扣了。


本系列文章根據 Oskoui et al. (2025) AAN Evidence in Focus 撰寫,專供臨床教育參考,不可取代個別的臨床診斷判斷或原文文獻。文中表格皆為原創整理。