

RCTで得た結論が、実臨床の患者集団では再現しないケースが約40%に上るというデータがあります。
リアルワールドデータ(RWD)とは、日常診療の中で自然に蓄積されるデータの総称です。電子カルテ(EHR)、医療保険レセプトデータ、疾患レジストリ、ウェアラブルデバイスのデータなどが代表的な種類に挙げられます。これらは研究目的ではなく、診療や請求の記録として生まれるのが大きな特徴です。
従来の臨床研究では、厳格な組み入れ・除外基準のもとで患者を選定するランダム化比較試験(RCT)が「エビデンスの頂点」とされてきました。しかし現実には、RCTの対象患者は高齢者・合併症を持つ患者・多剤服用中の患者など、日常診療で多く出会う層が大幅に除外されています。これがRCT結果と実臨床とのギャップを生む主因です。
つまりRWDの役割はRCTを否定することではありません。
RCTが「この薬は有効か(efficacy)」を問うのに対し、RWDを用いたリアルワールドエビデンス(RWE)は「実際の患者にどれだけ効くか(effectiveness)」を問います。この2つは補完関係にあり、両方を組み合わせることでより信頼性の高い診療ガイドラインが作成できます。
日本では、医薬品医療機器法(薬機法)の改正を受け、2020年以降、RWDを用いた製造販売後調査や適応拡大申請での活用が規制当局(PMDA)から正式に認められています。国立がん研究センターや国立循環器病研究センターなどは、独自のレジストリデータを構築し、年間数十件規模のRWD研究を発表しています。
PMDA:リアルワールドデータの利活用に関するガイダンス(医薬品審査関連情報)
RWDにはいくつか種類があり、研究目的に応じて使い分けることが重要です。それぞれの特性を理解することが、研究設計の第一歩です。
日本のNDBは2020年時点で累計約200億件のレセプト情報を保有しており、その規模は東京ドーム約1,600杯分のデータ量に相当するといわれます。これが利用できれば、希少疾患や長期アウトカムの研究が現実的になります。
NDBの利用は研究機関・大学・学術学会などが申請できますが、審査から利用開始まで通常6〜12か月程度を要します。研究計画段階で早めに申請スケジュールを組み込む必要があります。申請手順は厚生労働省のNDB公開情報ページで確認できます。
厚生労働省:NDB(レセプト情報・特定健診等情報データベース)の利用について
RWD研究の最大の課題は、バイアスと交絡因子への対処です。これが甘いと、結論の信頼性が根本から揺らぎます。
RCTでは無作為割り付けにより既知・未知の交絡因子が均等に分散されます。しかしRWD研究では介入(例:ある薬の投与)は医師の判断や患者の状態によって決まるため、そもそも比較群の背景特性が揃っていません。これを「適応による交絡(confounding by indication)」と呼びます。
つまり比較群の作り方が命です。
この問題に対処する代表的な統計手法が以下の通りです。
PMDAが2022年に公表したRWD活用ガイダンスでも、交絡調整の方法論を事前に研究プロトコルへ明記することを求めています。後付けの解析では、査読時に重大な指摘を受けるリスクが高まります。事前登録(UMIN、ClinicalTrials.gov等)を積極的に行うことが研究の信頼性向上につながります。
UMIN:臨床試験登録システム(観察研究・RWD研究の事前登録にも対応)
RWD研究は有望ですが、倫理審査・個人情報保護の手続きを誤ると研究自体が中断に追い込まれます。手続きの全体像を把握しておくことが不可欠です。
2022年4月に施行された「改正個人情報保護法」と「改正人を対象とする生命科学・医学系研究に関する倫理指針(生命倫理指針)」により、RWDを用いた研究における情報管理の要件が大幅に厳格化されました。特に注目すべき変更点が2つあります。
倫理審査委員会(IRB)への申請では、データの取得方法・保管場所・アクセス権限・廃棄方法を明確に記載した「データ管理計画書(DMP)」の提出を求める施設が増えています。これが重要です。
また、2023年以降は厚生労働省の「医療情報基盤(医療DX)」政策の一環として、全国医療情報プラットフォームの整備が進んでいます。将来的には、施設横断的なRWD研究が現在より大幅に効率化される見通しです。倫理・法制度の動向は毎年変わるため、最新の指針を文部科学省・厚生労働省の合同ページで定期的に確認する習慣が求められます。
厚生労働省:人を対象とする生命科学・医学系研究に関する倫理指針(全文・Q&A)
RWD研究において、多くの医療従事者が「欠損値は除外すればよい」と考えています。しかしこの判断が、研究全体の結論を歪める最大の落とし穴になり得ます。
欠損値には大きく3種類あります。「完全ランダム欠損(MCAR)」「ランダム欠損(MAR)」「非ランダム欠損(MNAR)」です。電子カルテデータで起こりやすいのはMARとMNARで、例えば「重症患者ほど検査値が記録されていない」「高齢患者ほど来院記録が途切れる」といったパターンが典型的です。
欠損が情報を持っているということです。
このような欠損を単純除外すると、残ったデータは「比較的健康で定期受診できた患者」に偏り、実臨床を代表しなくなります。解決策として、多重代入法(Multiple Imputation)が標準的に推奨されています。これはRStudioやSASで実装可能で、欠損パターンを統計的にモデル化して複数の完全データセットを生成し、それぞれで解析したうえで結果を統合します。
さらに見落とされがちなのが「構造的欠損」です。例えばレセプトデータでは、院外で起きた副作用や他院受診による処方変更が記録に残りません。これは欠損ではなく「記録されない設計」であり、研究の限界として考察に必ず明記する必要があります。
この点を論文に明記するかどうかが、査読通過率に直結します。Lancet DigitalHealthやJAMAなどの高インパクトジャーナルでは、欠損値の処理方法と感度分析の有無が採否判断の主要チェック項目になっています。欠損値の扱いは後回しにせず、研究設計の段階から計画に組み込むことが信頼性の高いRWD研究への近道です。
日本臨床疫学会誌:RWD・疫学研究の方法論に関する査読付き論文(J-STAGE経由)