系列導讀.第 2 篇 根據美國神經學學會(AAN)2025 Evidence in Focus Oskoui M, Caller TA, Parsons JA, et al. Neurology 2025;104:e213604
療效是這份 Evidence in Focus 最核心、也最尷尬的部分。delandistrogene moxeparvovec 共有 6 個臨床試驗,其中 4 個具備同儕審查資料(包含 2 個 Class I 與 2 個 Class III),累計了 134 名男童的暴露資料。在這些受試者中,有 128 名為 ≥4 至 <8 歲的可行走男童。
重點先講結論:兩個 Class I 試驗,都沒有達到主要運動功能終點。
一、主要終點:North Star Ambulatory Assessment(NSAA)
NSAA 是一個包含 17 項可行走功能的量表,每項評分為 0–2 分(0 分為無法執行、1 分為勉強或需協助、2 分為可獨立完成),評估範圍涵蓋從地板起身、行走、跑步等日常動作。
在解讀試驗數據前,我們必須先了解 NSAA 的自然病程:
| 參考指標 | 數值表現 |
|---|---|
| 健康男童 4 歲達高峰 | 約 34 分 |
| DMD 男童 | 運動功能通常進步至約 6 歲;7 歲後平均每年下降約 3.7 分 |
| 最小臨床重要差異(MCID) | 2.3–3.5 分(依計算方式而定) |
這個 MCID 數字是判斷療效的關鍵門檻——後續我們將看到,試驗組間的差異幾乎都落在這個門檻之下。
二、NSAA 療效數據總覽(≥4 至 <8 歲可行走男童)
| 試驗名稱 | 試驗設計 | 對照組 | 證據等級 | 評估時間點 | NSAA LSM 差異(95% CI) |
|---|---|---|---|---|---|
| 101 cohort B | phase 1/2a 開放標籤 | 外部對照 | Class III | 4 年 | 9.4(2.02–16.78)p=0.0125 |
| 102 part 1 | phase 2 RCT | 安慰劑 | Class I(主要) | 48 週 | 0.8(–0.95 to 2.55)p=0.37 |
| 102 part 1 | phase 2 RCT | 外部對照 | Class III | 96 週 | 2.0(–0.50 to 4.50)p=0.12 |
| 102 part 2 | phase 2 RCT | 外部對照 | Class III | 48 週 | 2.0(0.82–3.18)p=0.0009 |
| 103 cohort 1 (ENDEAVOR) | phase 1b 開放標籤 | 外部對照 | Class III | 1 年 | 3.2(1.59–4.81)p<0.0001 |
| 301 part 1 (EMBARK) | phase 3 RCT | 安慰劑 | Class I(主要) | 52 週 | 0.65(–0.45 to 1.75)p=0.24 |
請特別留意數據背後的「證據等級」: 凡是採用安慰劑對照的 Class I 數據(102 part 1、301),組間差異不僅極小,且皆未達統計顯著(僅差 0.8 與 0.65 分)。相對地,那些看起來效果顯著的漂亮數字(如 9.4 分、3.2 分),全部來自採用外部對照(external control)的 Class III 試驗設計——這正是解讀此份報告時最容易踩入的陷阱。
💡 兩個 Class I 結果的統合分析: 在 48–52 週時,NSAA 的組間差異僅為 0.69 分(95% CI –0.24 to 1.62,I²=20%)——這個數值遠低於 2.3–3.5 分的 MCID 門檻。
三、次族群分析:4–5 歲病童看起來有效?
102 part 1 試驗中的次族群分析結果,經常被引用作為「基因治療對年幼者有效」的證據:
- 4–5 歲組:+2.5(0.44–4.56)
- 6–7 歲組:−0.7(–2.93 to 1.53)
然而,原作者在此提出了明確的警示: 依年齡分層的隨機化過程,導致了基線運動功能分布的不均,且這種不均等偏向了安慰劑組(僅 4–5 歲組相對平衡)。換言之,這個次族群的差異極可能是受到基線不平衡的干擾,無法直接作為確鑿的療效證據。更重要的是,在規模更大的 EMBARK 試驗中,各個年齡次族群皆未觀察到組間差異。
四、次要運動終點:數值微小,且皆未通過階層分析
在 EMBARK 試驗中,部分次要終點雖然顯示出偏向治療組的小幅度數值優勢,但在預設的階層分析(hierarchical analysis)標準下,全數未達統計顯著:
| 次要終點指標 | LSM 差異(95% CI) |
|---|---|
| Time to rise(起身時間) | −0.64 秒(–1.06 to –0.23) |
| 10 公尺走 / 跑 | −0.42 秒(–0.71 to –0.13) |
| 第 95 百分位步速(穿戴式裝置) | 0.1 m/s(0.00–0.19) |
| 爬 4 階時間 | −0.36 秒(–0.71 to –0.01) |
| 100 公尺走 / 跑 | 無差異(–3.29,–8.28 to 1.70) |
| PROMIS 行動/上肢 | 無差異 |
值得注意的是: TTR(起身時間)與 10MWR(10公尺走/跑)本身就與 NSAA 的評估項目高度重疊。這暗示了 NSAA 作為一個序數量表,可能不夠敏感,以至於無法精準捕捉組間極細微的差異。但反過來說,這些次要終點由於未經過多重比較校正,在嚴格的實證標準下,同樣不能直接被視為具備療效。
五、一個不可忽視的潛在解盲風險
「嘔吐」是此項治療中常見的不良反應。在 EMBARK 試驗中,治療組的嘔吐發生率高達 54%,而安慰劑組卻是 0%。如此懸殊的副作用比例,極可能導致病患與研究人員在實質上發生解盲(unblinding),進而嚴重影響主觀功能評估量表的客觀性。
臨床要點摘要
- 兩個採用安慰劑對照的 Class I 試驗(102 part 1、EMBARK),其主要終點 NSAA 皆未達標。
- Class I 數據統合後的組間差異僅 0.69 分,遠低於具備臨床意義的 MCID(2.3–3.5 分)。
- 看起來具有顯著療效的大數字(如 9.4、3.2 分)皆來自外部對照的 Class III 試驗,其證據力不可與 RCT 數據相提並論。
- 4–5 歲次族群看似「有效」的數據,受到了基線不平衡的干擾,且在更大規模的 EMBARK 試驗中未能被複製驗證。
- 治療組高達 54% 的嘔吐發生率(對比安慰劑組 0%),帶來了實質解盲的嚴重風險。
🩺 神經專科醫師 施懿恩・小評論
讀這種藥的療效數據,最重要的一課是:先看證據等級,再看數字大小。9.4 分聽起來很驚人,但那終究是只有 4 個人、採用外部對照、追蹤 4 年的 Class III 結果;反觀 63 人對 62 人、真正進行隨機分配並使用安慰劑的 EMBARK 試驗,組間只差了 0.65 分,且信賴區間還跨越了零。哪一個數據比較可信,不言而喻。
外部對照(external control)幾乎注定會「美化」療效,因為自然病程組並沒有經歷試驗組那套高劑量類固醇的治療,也沒有安慰劑效應的對沖——關於這個類固醇的干擾因子,我們下一篇專門來談。
還有那個 54% vs 0% 的嘔吐發生率,簡直是教科書等級的解盲問題。當受試者自己都猜得到被分到了哪一組,依賴主觀評估的功能量表分數,勢必就要打個折扣了。
本系列文章根據 Oskoui et al. (2025) AAN Evidence in Focus 撰寫,專供臨床教育參考,不可取代個別的臨床診斷判斷或原文文獻。文中表格皆為原創整理。