DMD 基因治療（二）：兩個 Class I 試驗都沒達到主要終點，療效到底如何？

系列導讀．第 2 篇 根據美國神經學學會（AAN）2025 Evidence in Focus Oskoui M, Caller TA, Parsons JA, et al. Neurology 2025;104:e213604

療效是這份 Evidence in Focus 最核心、也最尷尬的部分。delandistrogene moxeparvovec 共有 6 個臨床試驗，其中 4 個具備同儕審查資料（包含 2 個 Class I 與 2 個 Class III），累計了 134 名男童的暴露資料。在這些受試者中，有 128 名為 ≥4 至 <8 歲的可行走男童。

重點先講結論：兩個 Class I 試驗，都沒有達到主要運動功能終點。

一、主要終點：North Star Ambulatory Assessment（NSAA）

NSAA 是一個包含 17 項可行走功能的量表，每項評分為 0–2 分（0 分為無法執行、1 分為勉強或需協助、2 分為可獨立完成），評估範圍涵蓋從地板起身、行走、跑步等日常動作。

在解讀試驗數據前，我們必須先了解 NSAA 的自然病程：

參考指標	數值表現
健康男童 4 歲達高峰	約 34 分
DMD 男童	運動功能通常進步至約 6 歲；7 歲後平均每年下降約 3.7 分
最小臨床重要差異（MCID）	2.3–3.5 分（依計算方式而定）

這個 MCID 數字是判斷療效的關鍵門檻——後續我們將看到，試驗組間的差異幾乎都落在這個門檻之下。

二、NSAA 療效數據總覽（≥4 至 <8 歲可行走男童）

試驗名稱	試驗設計	對照組	證據等級	評估時間點	NSAA LSM 差異（95% CI）
101 cohort B	phase 1/2a 開放標籤	外部對照	Class III	4 年	9.4（2.02–16.78）p=0.0125
102 part 1	phase 2 RCT	安慰劑	Class I（主要）	48 週	0.8（–0.95 to 2.55）p=0.37
102 part 1	phase 2 RCT	外部對照	Class III	96 週	2.0（–0.50 to 4.50）p=0.12
102 part 2	phase 2 RCT	外部對照	Class III	48 週	2.0（0.82–3.18）p=0.0009
103 cohort 1 (ENDEAVOR)	phase 1b 開放標籤	外部對照	Class III	1 年	3.2（1.59–4.81）p<0.0001
301 part 1 (EMBARK)	phase 3 RCT	安慰劑	Class I（主要）	52 週	0.65（–0.45 to 1.75）p=0.24

請特別留意數據背後的「證據等級」： 凡是採用安慰劑對照的 Class I 數據（102 part 1、301），組間差異不僅極小，且皆未達統計顯著（僅差 0.8 與 0.65 分）。相對地，那些看起來效果顯著的漂亮數字（如 9.4 分、3.2 分），全部來自採用外部對照（external control）的 Class III 試驗設計——這正是解讀此份報告時最容易踩入的陷阱。

💡 兩個 Class I 結果的統合分析： 在 48–52 週時，NSAA 的組間差異僅為 0.69 分（95% CI –0.24 to 1.62，I²=20%）——這個數值遠低於 2.3–3.5 分的 MCID 門檻。

三、次族群分析：4–5 歲病童看起來有效？

102 part 1 試驗中的次族群分析結果，經常被引用作為「基因治療對年幼者有效」的證據：

4–5 歲組：+2.5（0.44–4.56）
6–7 歲組：−0.7（–2.93 to 1.53）

然而，原作者在此提出了明確的警示： 依年齡分層的隨機化過程，導致了基線運動功能分布的不均，且這種不均等偏向了安慰劑組（僅 4–5 歲組相對平衡）。換言之，這個次族群的差異極可能是受到基線不平衡的干擾，無法直接作為確鑿的療效證據。更重要的是，在規模更大的 EMBARK 試驗中，各個年齡次族群皆未觀察到組間差異。

四、次要運動終點：數值微小，且皆未通過階層分析

在 EMBARK 試驗中，部分次要終點雖然顯示出偏向治療組的小幅度數值優勢，但在預設的階層分析（hierarchical analysis）標準下，全數未達統計顯著：

次要終點指標	LSM 差異（95% CI）
Time to rise（起身時間）	−0.64 秒（–1.06 to –0.23）
10 公尺走 / 跑	−0.42 秒（–0.71 to –0.13）
第 95 百分位步速（穿戴式裝置）	0.1 m/s（0.00–0.19）
爬 4 階時間	−0.36 秒（–0.71 to –0.01）
100 公尺走 / 跑	無差異（–3.29，–8.28 to 1.70）
PROMIS 行動／上肢	無差異

值得注意的是： TTR（起身時間）與 10MWR（10公尺走/跑）本身就與 NSAA 的評估項目高度重疊。這暗示了 NSAA 作為一個序數量表，可能不夠敏感，以至於無法精準捕捉組間極細微的差異。但反過來說，這些次要終點由於未經過多重比較校正，在嚴格的實證標準下，同樣不能直接被視為具備療效。

五、一個不可忽視的潛在解盲風險

「嘔吐」是此項治療中常見的不良反應。在 EMBARK 試驗中，治療組的嘔吐發生率高達 54%，而安慰劑組卻是 0%。如此懸殊的副作用比例，極可能導致病患與研究人員在實質上發生解盲（unblinding），進而嚴重影響主觀功能評估量表的客觀性。

臨床要點摘要

兩個採用安慰劑對照的 Class I 試驗（102 part 1、EMBARK），其主要終點 NSAA 皆未達標。
Class I 數據統合後的組間差異僅 0.69 分，遠低於具備臨床意義的 MCID（2.3–3.5 分）。
看起來具有顯著療效的大數字（如 9.4、3.2 分）皆來自外部對照的 Class III 試驗，其證據力不可與 RCT 數據相提並論。
4–5 歲次族群看似「有效」的數據，受到了基線不平衡的干擾，且在更大規模的 EMBARK 試驗中未能被複製驗證。
治療組高達 54% 的嘔吐發生率（對比安慰劑組 0%），帶來了實質解盲的嚴重風險。

🩺 神經專科醫師施懿恩・小評論

讀這種藥的療效數據，最重要的一課是：先看證據等級，再看數字大小。9.4 分聽起來很驚人，但那終究是只有 4 個人、採用外部對照、追蹤 4 年的 Class III 結果；反觀 63 人對 62 人、真正進行隨機分配並使用安慰劑的 EMBARK 試驗，組間只差了 0.65 分，且信賴區間還跨越了零。哪一個數據比較可信，不言而喻。

外部對照（external control）幾乎注定會「美化」療效，因為自然病程組並沒有經歷試驗組那套高劑量類固醇的治療，也沒有安慰劑效應的對沖——關於這個類固醇的干擾因子，我們下一篇專門來談。

還有那個 54% vs 0% 的嘔吐發生率，簡直是教科書等級的解盲問題。當受試者自己都猜得到被分到了哪一組，依賴主觀評估的功能量表分數，勢必就要打個折扣了。

本系列文章根據 Oskoui et al. (2025) AAN Evidence in Focus 撰寫，專供臨床教育參考，不可取代個別的臨床診斷判斷或原文文獻。文中表格皆為原創整理。