これらのPEDroチュートリアルを使って、エビデンスに基づいた実践のスキルを高めることができます:
1. どのように臨床的な質問をするか
臨床研究の検索を開始する前に、答えを得るためにどのような質問が適切かを考えることに時間をかけることが大事である。この理由として、質問を適切に構成することで望んでいる適切な答えを見つけることがより簡潔になるからである。このビデオチュートリアルはどのようにPICO(Patient(患者)ーIntervention(介入)ーComparison(比較対象)ーOutcome(評価項目))を決定するのを説明している。
2. その研究結果は妥当か?
低出力レーザーは外側上顆炎の治療に有効だろうか?ストレッチングは脳血管障害後の拘縮の進行を予防できるのだろうか?フラッターバルブの使用により、手術後の呼吸器合併症を軽減できるのだろうか?それらの問いに対する厳密な回答は、適切にデザインされ、適切に実施された臨床試験によってのみ得られます。残念ながら文献の中には、妥当な結論の適切な臨床試験と、妥当でない結論の不適切な臨床試験があります。読者はこれらを区別できなくてはなりません。このチュートリアルでは、妥当性のある臨床試験(または方法論的フィルター)の重要な特徴を挙げています。
理学療法の効果を決定することを目的とした研究には、ある症状を有する集団を集めて、治療前後の症状の重症度を測定しただけのものもあります。対象者が治療期間中に改善した場合、その治療は有効であったといわれます。このような方法論では、治療効果の十分な根拠を提供することはほとんどありません。なぜなら、その観察された改善は治療によるものであり、自然治癒や統計的な回帰(対象者の状態のばらつきの結果として、単に時間経過とともにより「極度」でなくなってしまうという統計的現象)、プラセボ効果、あるいはホーソン効果(対象者が、調査者がどのような結果を求めているかということを考慮することで結果が向上する)といった剰余変数によるものではないということが不確かなためです。これらに対する唯一の対処法は、対照群を設定し、治療を受けた対象者と治療を受けなかった対象者間の結果を比較することです。
比較試験の論理は、平均的に、剰余変数が治療群と対照群の両方に同程度作用するはずであり、試験終了時おける群間の違いはすべて治療によるものであると考えられるところにあります。一例として、多くの急性腰痛は治療しなくても、自然かつ急速に良くなることはよく知られており、対象者が治療過程において改善したことを示すだけでは、治療の効果を論証することにはなりません。治療群が対照群よりも改善したことを示した比較研究は、改善は治療によるものだという強い根拠となります。なぜなら、自然治癒効果は治療群と対照群の両方に作用するはずだからです。治療群が対照群よりも改善したという結果は、対象者の回復には自然治癒以外の要因があることを示しています。注)比較研究においては、対照群はどのような治療も受けないということではないということに注意してください。多くの場合、比較研究では、一般的な治療を受ける対照群と一般的な治療に加え、更なる治療を受ける実験群の間での比較が行われます。もしくは、一般的な治療を受ける対照群と、新しい治療を受ける実験群と比較する試験もあります。
重要な点は、治療群と対照群が類似している限りにおいて、対照群の役割は剰余変数の交絡因子を除外するだけであるということです。治療群と対照群が治療を受けるかどうかの違いを除いて、すべての点で同一であるときに初めて、実験者はその試験の終了時における群間の違いが治療によるものであると断言できるのです。臨床では、対象者を無作為に治療群と対照群に割りつけることによって可能になります。このことにより、自然治癒等の背景因子の効果は群間での違いがないと言えます。実際、対象者が無作為に割りつけられている場合、治療群と対照群の違いは治療による差か偶然による差かに限られ、もしその差がが十分に大きければ統計的検定によって偶然による差を除外することができます。注)この方法においてのみ、治療群と対照群の比較が可能であるということに注意してください。
対象者が無作為に割りつけられている場合でも、治療効果(あるいは効果の無さ)が観察者のバイアスによって歪められているのではないことを確認する必要があります。このことは、研究者が治療の効果を信じている場合に治療結果を無意識に歪めてしまう可能性に関連しています。観察者に「ブラインド」する、つまり結果を測定する人物が、対象者が治療を受けたかどうかを知らない状態にしておくことによってそのバイアスを防ぎます。患者と治療者にも、割り付けられた群を知らせていないことが一般的には望ましいとされます。患者がブラインドされている場合には、観察された治療効果がプラセボ効果やホーソン効果によるものではないと言えます。治療者のブラインドは、困難または不可能であることも多いですが、治療者が治療の有効性について知らされていない場合(例えば、低出力レーザーの臨床試験において、その器具が放射しているのがレーザーなのか色つきの光線なのかを知らされていないような場合)、治療効果は治療者の治療に対する意識によるものではなく、治療そのものである可能性ということができます。
臨床試験の途中で参加をやめてしまう対象者がいることにも、注意すべきです。というのも、この途中棄権は研究結果を歪めてしまう恐れがあるからです。もし、対照群の対象者が研究期間中に症状が悪化したために別の治療を求めて参加をやめてしまった場合、そのことによって対照群の平均結果が本来よりも良くなってしまう可能性があります。逆に、ある治療が対象者の症状を悪化させてしまい、その人が参加をやめてしまった場合には、その治療は本来よりも効果的に見えてしまう可能性があります。このように途中で参加をやめてしまう対象者がいると、臨床試験の有効性が不確実になってしまうのです。もちろん途中でやめてしまう参加者が多ければ多いほど、不確実性は増します。大まかに言うと、対象者の15%以上が棄権した場合、その研究結果には大きな欠陥がある可能性があります。途中で棄権した対象者の数を報告しない筆者もいますが、確立した科学的原則「推定有罪」に基づいて、そのような研究は無効である可能性があるとみなされます。
妥当な臨床試験とは:
- 対象者が無作為に治療群と対照群に割り付けられていること
- 観察者のブラインドがされていること。可能であれば患者および治療者もブラインドされていることが望ましい
- 途中で参加を辞める対象者が少ないこと。
これから理学療法の臨床試験を読むときには、これらの条件を満たしているかどうかを確かめてください。一般的に、以上の条件を満たしていない臨床試験は無効であるか、治療効果の有無に関する強いエビデンスとはみなされるべきではありません。これらの条件を満たす臨床試験は、注意深く読み、その結果をしっかりと覚えておくべきです。
臨床試験の妥当性評価についてもっとお知りになりたい場合は、
Guyatt GH, Sackett DL, Cook DJ, et al. Users’ guide to the medical literature: II. How to use an article about therapy or prevention: A. Are the results of this study valid? JAMA 1993;270:2598-601.
3. その治療は臨床的に有益か?
前のセクションでは、臨床試験が妥当かどうかを見分けるための条件を示しました。方法論的フィルターの多くを満たしていない研究は無視した方が良いでしょう。このセクションでは方法論的フィルターを満たしている研究を、治療者がどう解釈すべきかを考えます。治療効果の統計学的差だけでは十分ではないということです。その臨床試験が意味のある結果を測定しており、その治療効果は治療者が実践してみるに足るほど大きいものであると認める必要があります。また、治療効果を上げるためにも、治療による悪影響は稀であるか十分に小さいものでないといけません。最後に、その治療法の費用効果が高いものである必要があります。
もちろん、その臨床試験が有益であるためには、意味のある治療効果を調査していなければいけません。つまり、結果が妥当な方法で測定されていなければいけません。一般的に治療が患者の要求を満たしたかどうかによって治療価値は主に判断されるため、結果の測定方法は患者にとって意味のあるものであるべきです。つまり、低出力レーザーがセロトニンレベルを下げることを示した臨床試験よりも、痛みを軽減することを示したものの方がより実用的であり、運動トレーニングが痙縮を低減することを示した臨床試験よりは、機能的自立を向上させることを示したものの方が有益であるということです。
治療効果の大きさは当然重要ですが、見過ごされがちです。おそらく読者が臨床試験を読むときに「統計学的有意差」と「臨床的有意差」の区別を明確にしていないためでしょう。あるいは、多くの臨床試験の筆者が「p<0.05」かどうかということに気を取られているからかもしれません。統計学的有意差(p<0.05)とは、効果が単に偶然によるものよりも明らかに大きいことを示すものです。(観察された治療効果に対する確率の結果だけではなく)重要なことは、効果が実際にはどの程度であるかについては何も示していないことです。治療効果の最適な推定値は、群間の平均です。例えば、関節モビライゼーションの効果に関する研究仮説で、10cmのvisual analogue scale(VAS)にて治療群で平均4cm肩の疼痛が改善し、対照群で平均1cm改善したときに、我々は治療の平均効果はVASで3cmであるといえます。他の研究仮説として、スポーツ前にストレッチを行なった2%が受傷したのに対して、対照群では4%が受傷したとすします。この場合には、ストレッチが受傷の危険性を2%減少させることを示すものであると考えます(4%-2%=2%)。臨床的に治療効果が十分あるときには、読者は報告された臨床試験の治療効果の大きさを確認しなければなりません。患者は時折、治療のために理学療法に訪れるます(勿論、全ての臨床治療に当てはまる訳ではありませんが)、多くの患者は治療効果が小さい治療には興味を持たないはずです。
治療効果の大きさを見るときには細心の注意を払ってください。それは結果が二者択一の結果で測定される(二者択一の結果とは死と生、負傷か無傷、養護施設に入所するか否かなど、2つのうち1つの変数を持つものであり、0から10の結果がある痛みのVAS測定等の変数とは異なります)研究に適用されます。二者択一の結果で測定される場合、多くの研究では治療効果を差ではなく比率で報告します(その比率は「相対危険度」、「オッズ比」、「危険率」等と呼ばれることもあります)。この方法では、先程のストレッチに関する研究では負傷の危険度は50%減少した(2%は4%の半分です)と報告されます。通常、比率で治療効果を表した場合にはその治療法の効果が大きく見え、2つの群間の差の方がより良い尺度となります。(実際のところ、もっとも実用的な尺度は「治療を必要とする数(number needed to treat [NNT])」です。というのは、平均的に、ある有害事象を防ぐために何名の患者を治療する必要があるかということがわかるからです。ストレッチの例では、NNTは1/0.02=50なので、50名の対象者がストレッチすることによって1名の怪我を防げるということになります)。
治療法の悪影響(例:治療の副作用や合併症など)を報告しない研究も多くあります。残念ながら、有害な影響が報告されていない場合、その治療法は有害ではないと解釈されがちですが、そうとは限らないのは明らかです。Glaziou と Irwig (BMJ 1995;311:1356-9)では、もっとも重症の患者にその治療が施された場合に治療法の効果が最も顕著であると主張しています(たとえば、大量の痰の滞留の見られる頭部外傷の患者は、少量の痰の滞留のみられる患者に比べると、気管吸引によって呼吸停止の危険がより大きく減少することが期待されます)。一方、治療法の危険性(この場合は頭蓋内圧の上昇)は症状の重篤度に関わらず、比較的一定であると言えます。このように、ある治療法は重症の患者に適用された場合には害よりも効果が高くなることが多いにもかかわらず、治療者は軽症の患者に対して重い副作用の可能性がある治療法を適用したがらないはずです。
実際のところ、治療法の悪影響というのは起こる頻度も低く、それが起こった時に見つけられるほどのサンプルサイズが多くはない研究が多いので、臨床試験で悪影響を見つけるのは困難といえます。つまり、しっかりと無作為化された対照臨床試験の場合でも、重大な弊害がでないことを確認するために、多くの治療群の患者をフォローアップして大規模な「経過観察」を行うことは重要なのです。経過観察を含む研究が行われるまでは、特にその治療法で大きな改善が期待できない患者に対しては、有害となる可能性がある治療法を適用することは避けるべきです。
臨床試験の結果として推定された治療効果の大きさに関する信頼度については、より批判的に考える必要があります。臨床試験は、ある集団を代表するとされる対象者に対して実施されます。つまり、ひとつの臨床試験では、治療効果の(不完全な)推定値を示すのが精一杯であるということです。多数の対象者に対して実施された臨床試験の方が少人数に対して行われたものよりもより正確に治療効果を推定できます。臨床試験の意味を判断するときには、その推定値の信頼度をよく考えてください。これこそが、ある臨床試験から引き出された結論の信憑性に影響を与えるからです。治療効果の推定値の信頼区間が臨床試験の結論に明示されていない場合には、それを計算してみてください。効果の信頼区間の計算及び解釈方法のチュートリアルはを参考にして下さい:
- Herbert RD. How to estimate treatment effects from reports of clinical trials. I: Continuous outcomes. Aust J Physiother 2000;46:229-35。
- Herbert RD. How to estimate treatment effects from reports of clinical trials. II: Dichotomous outcomes. Aust J Physiother 2000;46:309-13。
信頼区間の計算に自信のある方は、ここをクリックしてエクセル形式のPEDroの信頼区間計算法をダウンロードが便利かもしれません。
その治療法が有益かどうかを判断する最後の条件は、その費用効果です。医療費が国庫により支払われたり補助を受けている場合には特に重要です。すべての医療技術革新に資金提供することは不可能なのです(恐らくすべての優れた技術革新に対しても無理でしょう)。その治療法に使われてしまったお金は他の医療費に使うことはできないのです。限りある資金をきちんと配分するということは、1ドルに対する効果が最大になるようにお金を使うことです。もちろん、その治療法自体が効果的でなければ費用効率は良くはなりません。しかし、効果のある治療法の費用効率を良くすることは可能です。費用効果の話は筆者の専門外ですので、別の専門家に話を譲ることにいたします。もし興味がある場合は以下の文献をご参照ください:
- Drummond MF, Richardson WS, O’Brien BJ, Levine M, Heyland D. Users’ guide to the medical literature: XIII. How to use an article on economic analysis of clinical practice: A. Are the results of the study valid? JAMA 1997;277:1552-7.
- O’Brien BJ, Heyland D, Richardson WS, Levine M, Drummond MF. User’s guide to the medical literature: XIII. How to use an article on economic analysis of clinical practice: B. What are the results and will they help me in caring for my patients? JAMA 1997;277:1802-6.
まとめ:
統計学的有意性は臨床的有益性と一致するものではありません。臨床的に有益な治療法とは:
- 患者にとって重要な結果に影響を与えること
- 価値があるほどの大きな治療効果があること
- 弊害よりも効果が大きいこと
- 費用効果が優れていること。
さらに、効果量についてさらに詳しく知りたい場合は、以下の文献を参照してください:
Guyatt GH, Sackett DL, Cook DJ, et al. Users’ guide to the medical literature: II. How to use an article about therapy or prevention: B. What were the results and will they help me in caring for my patients? JAMA 1994;271:59-63.