非劣性試験とは何か？「”有意に劣性であった”とはいえない」との違い

参考

ICR臨床試験入門　がんを対象とした非劣性試験《講師：若林将史》　「非劣性」について、優越性試験と非劣性試験の比較をし、非劣性試験のデザイン（非劣性マージンの決め方、ハザード比と生存割合、解説対象集団）について解説。非劣性試験に関する topicの紹介。2023年10月に行われましたJCOG臨床試験セミナー中級編。

ChatGPTに訊いてみました。

非劣性試験とは？「劣性であることが有意には示されなかった」という意味ではないことについて

非劣性試験（Non-Inferiority Trial）は、医薬品や治療法の効果を比較する際に、新しい治療法が既存の標準治療よりも劣っていないことを証明するために設計される臨床試験です。

以下で、非劣性試験の概要と、「劣性であることが有意には示されなかった」という意味ではない理由について詳しく説明します。

1. 非劣性試験の目的

目的: 新しい治療法（例: 新薬）が、既存の治療法（例: 標準治療）と比較して、一定の範囲内で効果が同等または非劣性であることを確認する。
- 例: 新薬が副作用が少ない、投与が簡単であるなど、他の利点がある場合に、効果が十分であることを示すために非劣性試験が行われます。

2. 非劣性の基準（マージン）

非劣性マージン（Non-Inferiority Margin, Δ）:
- 新しい治療法が劣っていると判断される許容範囲を事前に定めます。
- このマージンは、臨床的に意味があるレベルで設定されます。
- 例えば、既存治療法が成功率80%で、新治療法が成功率75%以上なら非劣性とみなす場合、マージンは5%です。

3. 非劣性試験の結果の解釈

「劣性であることが有意には示されなかった」という誤解

誤解の背景:
- 非劣性試験の帰無仮説は、「新しい治療法が非劣性ではない（劣っている）」と設定されます。
- 結果として、帰無仮説が棄却されなかった場合、それは「新しい治療法が劣性であることが証明された」という意味ではありません。
正しい解釈:
- 「劣性であることが有意には示されなかった」という表現は、非劣性を証明するための試験では不適切です。
- 非劣性試験の結果は、次のいずれかで示されます：
  1. 非劣性が証明された（非劣性マージン内に収まった）。
  2. 非劣性を証明できなかった（信頼区間がマージンを超えた）。

4. 非劣性試験の結果例

例1: 非劣性が証明された

非劣性マージンが5%の場合、新治療法の効果と既存治療法の差の95%信頼区間が [-2%, +3%] の範囲に収まった。
結果:
- 新治療法の効果は既存治療法と統計的に差がないか、許容範囲内で非劣性である。

例2: 非劣性を証明できなかった

信頼区間が [-6%, +4%] の場合、下限が非劣性マージン（-5%）を超えている。
結果:
- 非劣性が証明されず、新治療法が劣性である可能性が排除できない。

5. 「劣性が有意ではない」と非劣性試験の違い

「劣性であることが有意ではない」という表現は、効果の差が統計的に有意かどうかを評価しているだけです。
非劣性試験では、統計的有意性だけでなく、信頼区間が非劣性マージン内に収まるかどうかが重要です。

結論

非劣性試験の結果は、単に「劣性でないこと」を示すものではありません。非劣性マージンを基準にして、新治療法が許容可能な劣性範囲内であるかどうかを検証するものです。「劣性であることが有意ではない」というのは非劣性試験の結果を正確に表しているとはいえません。

非劣性が言えなかった場合に「有意に劣性である」というわけではないことについて

非劣性試験で「非劣性が証明できなかった」場合でも、それが**「有意に劣性である」**ことを示しているわけではありません。この点が非劣性試験の解釈で重要なポイントです。

非劣性試験の結果の可能性

非劣性試験の結果には、主に以下の3つのシナリオがあります：

1. 非劣性が証明された

結果: 新治療法が非劣性マージン（Δ）の範囲内であり、既存治療法と同等の効果を持つと判断される。
解釈: 非劣性が統計的に示された。

2. 非劣性を証明できなかったが、有意に劣性とも言えない

結果: 信頼区間が非劣性マージンを超えたが、既存治療法と新治療法の差が統計的に有意とは言えない。
解釈: 非劣性が証明できなかったが、有意に劣性であるとは限らない。
- この場合、新治療法が標準治療より劣る可能性はあるが、それが統計的に確定していない状態。

3. 有意に劣性である

結果: 信頼区間の範囲が完全に非劣性マージンを超え、効果が明確に劣性である。
解釈: 新治療法が既存治療法より統計的に有意に劣っている。

例で理解する

非劣性マージン: -5%
効果の差: 新治療法の成功率 – 標準治療の成功率
信頼区間を基に判断：

効果の差 (95%信頼区間)	結果	解釈
[-3%, +2%]	非劣性が証明された	新治療法は標準治療と同等の効果がある。
[-6%, +3%]	非劣性を証明できなかった	劣性の可能性はあるが、有意に劣性とは言えない。
[-7%, -6%]	有意に劣性である	新治療法は標準治療より効果が劣ることが統計的に示された。

重要なポイント

非劣性試験で「非劣性が証明できない」=「有意に劣性である」ではない:
- 信頼区間が非劣性マージンを超えた場合、新治療法が標準治療より劣る可能性があることを示すが、それが統計的に確定しているわけではない。
有意に劣性であることを示すには:
- 信頼区間全体が非劣性マージンを超えて劣性側に偏る必要があります。

まとめ

非劣性試験の結果を正確に解釈するには、信頼区間が非劣性マージン内にあるか、マージンを超えたかを慎重に評価する必要があります。「非劣性が証明できない」と「有意に劣性である」は異なる概念です。

「有意に劣性」であれば非劣性マージンをしたまわったっということ

**「有意に劣性である」**とは、非劣性マージンを下回るだけでなく、統計的にその劣性が有意であることが示された場合を指します。具体的には、95%信頼区間全体が非劣性マージンの下限を超えて「劣る側」に位置している場合です。

非劣性試験における「有意に劣性」の意味

非劣性マージン（例: -5%）は、許容される範囲を設定したものです。
有意に劣性とは、効果の差の95%信頼区間全体がこのマージンを下回る場合を指します。
- つまり、「新治療法は既存治療法より統計的に有意に劣っている」と結論付けられます。

信頼区間による解釈の例

前提条件

非劣性マージン: -5%
効果の差: 新治療法の成功率 – 標準治療の成功率

例1: 有意に劣性でない場合

効果の差: [-6%, +2%]
- 信頼区間が非劣性マージン（-5%）を少し下回る部分を含むが、全体がマージンを下回るわけではない。
- 解釈: 非劣性が証明できないが、有意に劣性とは言えない。

例2: 有意に劣性である場合

効果の差: [-7%, -6%]
- 信頼区間全体が非劣性マージン（-5%）を下回っている。
- 解釈: 新治療法は既存治療法より有意に劣性である。

非劣性試験における結論のフレームワーク

非劣性が証明された:
- 信頼区間が非劣性マージン内に収まる。
- 新治療法が非劣性と判断される。
非劣性が証明できなかったが有意に劣性ではない:
- 信頼区間が一部非劣性マージンを下回るが、全体が下回るわけではない。
- 新治療法が劣る可能性はあるが、統計的に確定していない。
有意に劣性である:
- 信頼区間全体が非劣性マージンを下回る。
- 新治療法は既存治療法より劣ることが統計的に示される。

まとめ

「有意に劣性」とは、新治療法の効果が統計的に明確に非劣性マージンを下回る場合を意味します。非劣性試験では、この「劣性である」か「非劣性である」かを信頼区間を基に慎重に解釈することが重要です。

仮に非劣性マージンを設定しなかったら、「劣性」かどうかの判断はどうなるのかについて

非劣性マージンを設定しない場合、「劣性」かどうかの判断は以下のように通常の優越性試験の枠組みで行われます。つまり、比較する2つの治療法の効果の差が統計的に有意かどうかに焦点が当たります。

1. 非劣性マージンがない場合の試験

非劣性マージン（Δ）がない状態では、治療効果の差を評価する基準がなく、単に「劣性かどうか」を判断するためには、効果の差がゼロを基準に評価されます。

仮定される統計モデル

帰無仮説: 新治療法は標準治療法より劣るか同等（効果の差 ≤ 0）。
対立仮説: 新治療法は標準治療法より優れる（効果の差 > 0）。

2. 結果の解釈

信頼区間をゼロ基準で解釈:
- 95%信頼区間が0を完全に下回る場合：
  - 新治療法が統計的に劣性であると判断されます。
- 信頼区間が0を含む場合：
  - 新治療法が標準治療法より有意に劣性とは言えない。
- 信頼区間が0を完全に上回る場合：
  - 新治療法が統計的に優れていると判断されます。

3. 非劣性試験と優越性試験の違い

非劣性試験:
- 非劣性マージンを設定し、標準治療より一定の範囲内で劣っていないことを証明する。
- 信頼区間の下限が非劣性マージン（Δ）を超えることが非劣性の証明基準。
優越性試験:
- 効果の差が0を超えるかどうかに注目。
- 信頼区間全体が0を超えれば、統計的に優れていると判断。

4. 非劣性マージンがない場合のリスク

非劣性試験において非劣性マージンを設定しないと、以下のリスクが生じます：

曖昧な結論になる:
- 結果が劣性かどうか判断できない場合が多く、治療法の評価が不十分になります。
臨床的に意味のある基準を失う:
- 非劣性試験の目的は、新治療法が許容範囲内で効果があるかを判断することです。
- 非劣性マージンなしでは、「臨床的に重要な劣性かどうか」を評価できません。

5. 実際の試験設計では…

非劣性試験では、臨床的に意味がある基準を持たないと結論が曖昧になるため、ほぼ必ず非劣性マージンを設定します。そのため、非劣性マージンを設定しない場合、優越性試験として扱う方が合理的です。

まとめ

非劣性マージンを設定しない場合、「劣性」かどうかは、効果の差の信頼区間がゼロ基準で評価されます。しかし、非劣性試験の目的を達成するには非劣性マージンを設定するのが必須であり、設定しない場合は優越性試験として設計し直す方が適切です。

非劣性マージンを大きく設定しておけば、じつは有意に劣性だけど、非劣性ではなかったと言い張れるのかについて

理論的には、そのような解釈が可能です。ただし、非劣性試験で非劣性マージンを不適切に大きく設定することは科学的にも倫理的にも問題であり、通常は厳格な基準やガイドラインが適用されるため、簡単に「非劣性ではなかったと言い張る」ことは難しいです。

非劣性マージンの設定とその影響

非劣性マージンの意味:
- 非劣性マージンは、新治療法が既存治療法よりどの程度劣っていても「臨床的に許容できる」とみなされる範囲を示します。
- 大きすぎる非劣性マージンを設定すると、実際には新治療法が有意に劣性であっても、「非劣性ではない」と主張できる結果になりがちです。
不適切なマージン設定の影響:
- 非劣性マージンが臨床的な妥当性を欠いた場合、統計的に非劣性が証明されても、その結論は科学的・倫理的に信頼できません。

非劣性マージンの設定基準

非劣性マージンを恣意的に設定することを防ぐために、以下の基準が用いられます：

臨床的妥当性:
- マージンは臨床的な観点から、「患者にとって許容できる劣性の範囲」として設定されます。
- 例えば、治療成功率が既存治療法で90%の場合、非劣性マージンを20%（70%まで許容）とするのは臨床的に許容されません。
統計的根拠:
- 過去の臨床試験データやメタアナリシスを基に、標準治療法の効果の変動範囲を考慮して設定します。
規制当局のガイドライン:
- FDAやEMA（欧州医薬品庁）は、非劣性試験の設計やマージン設定に関する詳細なガイドラインを定めています。
- マージンが大きすぎる場合、承認を得ることが困難です。

マージン設定の不正使用のリスク

可能性として:
- マージンを大きく設定することで、新治療法が有意に劣性である場合でも、「非劣性ではない」と主張する余地が生まれる。
- ただし、このような設計は倫理的に問題視され、研究結果や論文が批判を受ける可能性が高いです。
現実的な制約:
- 審査機関や倫理委員会が試験設計の段階で非劣性マージンの妥当性をチェックするため、恣意的な設定は難しい。
- 読者や臨床医が試験結果を受け入れるかどうかも影響する。

例: 非劣性マージンの影響

シナリオ1: 適切なマージン（-5%）

効果の差: [-6%, -3%]
- 新治療法は標準治療法より劣性（非劣性マージンを下回る）。
- 結論: 非劣性ではない。

シナリオ2: 不適切に大きなマージン（-10%）

効果の差: [-6%, -3%]
- 非劣性マージン内に収まるため、「非劣性」と主張できる。
- 問題点: 実際には新治療法が標準治療法より劣性であることが隠される。

結論

非劣性マージンを不適切に大きく設定すれば、「有意に劣性」である場合でも「非劣性ではない」と主張する余地が生まれます。しかし、臨床試験におけるマージン設定には厳格な基準があり、恣意的な操作は倫理的にも科学的にも認められません。

非劣性試験導入の歴史

非劣性試験（Non-Inferiority Trials）は、医薬品や治療法の評価において比較的近年になって広く採用されるようになった試験デザインで、その背景には医療技術の進歩や倫理的な配慮、そして規制当局の要件の変化が大きく影響しています。以下にその歴史と普及の背景を説明します。

1. 非劣性試験の起源

起源と初期の試験デザイン:
- 非劣性試験の考え方は、優越性試験と対照試験の発展に伴って20世紀後半に登場しました。
- 初期の臨床試験では、新薬や治療法が既存治療より優れていることを示すことが主目的でした。しかし、新たな治療法が必ずしも「既存治療より優れる」必要がないケースも増えてきました。
特定の状況での必要性:
- 新治療法が、副作用の軽減、簡便性の向上、費用削減といった利点を持つ場合、効果が標準治療と同等であれば臨床的に価値があるとみなされることがあります。
- このような状況で、「既存治療より劣っていない」ことを証明する非劣性試験が必要になりました。

2. 非劣性試験の普及のきっかけ

20世紀末の変化:
- 非劣性試験が一般的になったのは、1990年代以降です。この頃、規制当局が新薬承認の基準として非劣性試験を受け入れ始めたことが大きな要因です。
規制当局のガイドライン:
- 米国食品医薬品局（FDA）や欧州医薬品庁（EMA）は、非劣性試験に関する明確なガイドラインを策定しました。
- これにより、非劣性試験の設計、非劣性マージンの設定、結果の解釈に関する標準化が進みました。

3. 非劣性試験が広がった理由

倫理的な配慮:
- 臨床試験において、プラセボ群を設けることが難しい疾患（例: がんや心血管疾患）では、標準治療を対照群とする非劣性試験が必要でした。
- 特に致命的な疾患や重篤な疾患では、プラセボを使用することが倫理的に許容されないため、非劣性試験が重要な役割を果たしました。
治療効果が確立された疾患:
- 新しい治療法が登場しても、既存治療が非常に効果的である場合、新治療法が既存治療より優れていることを証明するのは難しいケースがあります。
- このような場合、非劣性試験が選ばれることが増えました。
ジェネリック医薬品の増加:
- ジェネリック医薬品やバイオシミラー（バイオ医薬品の類似薬）の承認プロセスでは、非劣性試験が広く使われるようになりました。

4. 主な歴史的な出来事

1980年代: 非劣性試験の概念が臨床試験の文献で登場し始める。
1990年代: FDAやEMAが非劣性試験の設計に関するガイドラインを発行。
2000年代以降:
- 非劣性試験が新薬承認の標準的なデザインとして採用される。
- 特に、抗菌薬、抗ウイルス薬、抗がん剤の分野で広く利用。

5. 現在の状況

多様な疾患領域で採用:
- 非劣性試験は現在、感染症、心血管疾患、精神疾患、がん、免疫疾患など幅広い分野で利用されています。
非劣性試験の課題:
- 非劣性マージンの設定が臨床的に妥当でなければ、試験結果の信頼性が損なわれるリスクがあります。
- 被験者数が優越性試験より多くなる場合が多いため、コストと時間が増加することがあります。

まとめ

非劣性試験の一般化は、主に1990年代以降。
規制当局のガイドラインと倫理的な配慮が、非劣性試験の普及を促しました。
現在では、特定の条件下で新薬や治療法を評価する上で欠かせない試験デザインとなっています。