記事

2025年3月12日

医療AIのバイアスと公平性:主要研究の紹介と現状分析及び対策

医療AIの偏りと公平性

代表の植田です。当研究室が重点を置く分野の一つとしての医療AIの公平性について、ぜひ知っていただきたい重要な原著論文を紹介することを主座にしつつ、思うことも適宜加えていこうと思います。さらなる詳細に関しましては、当研究室が中心となってまとめた論文がありますので、英語になるのですがそちらも参照して下されば幸いです。

背景

近年、医療の現場にAI技術が導入され始めています。例えば画像診断支援や患者のリスク選別、診療方針の策定支援など、多岐にわたる応用が検討されています。しかし、その一方で「バイアス(偏り)」の問題が少しずつ明らかになりつつあります。医療AIのバイアスとは、特定の集団や施設でのみ高精度に機能する反面、別の集団や異なる背景をもつ患者に対しては精度が大幅に落ちたり、誤った結果を招いたりする現象を指します。こうした事態が放置されると、既存の医療格差をさらに拡大してしまう恐れがあります。以下では、このバイアスに関する重要な研究をいくつか紹介しながら、どのように理解し、どう解決に向けて取り組むべきかを大きく整理してみたいと思います。

多施設データで検証した胸部X線AIモデル

Variable generalization performance of a deep learning model to detect pneumonia in chest radiographs: A cross-sectional study. PLoS Med. 2018;15(11):e1002683.

 はじめに、AIがどれほど普遍的な性能を維持できるかを調べた研究を見てみましょう。胸部X線画像から肺炎を検出する深層学習モデルを異なる医療機関のデータでテストした結果、訓練した施設とは別の病院のデータだと精度が予想以上に低下する例が多いことが示されました。

 具体的には、NIHやMSH、IUといった三つの病院グループから集めた計158,323枚の胸部X線画像を活用し、内部(同施設)と外部(異施設)での診断性能を比較しています。すると、同じモデルでも評価データが変わるとAUC(精度指標)が大きく落ちる場合があり、特に病院ごとに患者層や撮影条件、さらには肺炎の陽性率が大きく異なる点が影響していると考えられました。また、病院固有の撮影や画像処理の特徴を深層学習が学習してしまい、異なる施設データにうまく対応できない恐れも指摘されています。

 実際の臨床では、画像機器の違いや患者背景のばらつきだけでなく、装着されているチューブや機器の種類など、施設ごとに異なる様々な要素が混在しています。そのため、単一施設で高精度を示すAIモデルでも、他の環境で同様に通用するとは限らないという教訓が得られます。

医療アルゴリズムに潜む人種的偏り

Dissecting racial bias in an algorithm used to manage the health of populations. Science. 2019;366(6464):447-453.

 次に、保険請求データを活用した人口健康管理アルゴリズムの事例を紹介します。ここでは同じリスクスコアを持つ患者でも、黒人患者のほうが白人患者より実際は合併症や慢性疾患の数が多いという事実が明らかにされました。つまり、アルゴリズムが黒人患者を過小評価していたのです。

 約6万人を対象とした分析では、介入の優先度を決める指標に医療費データが用いられていたことが、こうした人種的偏りの一因である可能性が示唆されました。医療費には、そもそも受診行動の違いや経済状況、制度上の格差などが反映されやすく、実際の病気の重症度とは必ずしも一致しないからです。さらに、「費用」ではなく「疾患の重症度」を予測対象に変更すると、追加ケアの対象になる黒人患者の割合が大幅に増えることも報告されました。

 これにより、医療AIの導入を考える際には、モデルが利用するデータの種類や背景要因を丁寧に検討しなければ、もともと存在する社会的不平等を増幅してしまうリスクがあるとわかります。

皮膚科AI研究におけるデータ不透明性と偏り

Lack of Transparency and Potential Bias in Artificial Intelligence Data Sets and Algorithms: A Scoping Review. JAMA Dermatol. 2021;157(11):1362-1369.

 医療AIが抱えるバイアスは、アルゴリズムの「中身」だけでなく、学習に使われるデータの不透明性からも生じます。皮膚科領域のAI研究に関するスコーピングレビューでは、2015年から2020年に発表された70件の研究を対象に調べた結果、データセットや患者情報が十分に公開されていない例が非常に多いことが示されました。

 たとえば、約100万枚以上の皮膚画像が用いられていたにもかかわらず、オープンアクセスとして利用できるデータは24.2%にとどまっていました。また、人種・民族情報がきちんと報告されていたのは全体の20%、肌色の分類(Fitzpatrick分類)が記載されていたのは10%程度と、偏りを検証するうえで重要な情報が大きく欠けていたのです。

 こうした不透明さは、実臨床に導入するときの汎用性や安全性を判断しにくくするだけでなく、特定の肌色や人種を十分にカバーできていないモデルが登場するリスクを高めます。つまり、データを公開する仕組みや報告基準の整備なしには、バイアスの程度を正確に把握しづらい現状があるといえるでしょう。

胸部X線AIアルゴリズムにおける過小診断の偏り

Underdiagnosis bias of artificial intelligence algorithms applied to chest radiographs in under-served patient populations. Nat Med. 2021;27(12):2176-2182.

 さらに進んで、特定の集団で誤診が増えるリスクにも目を向けましょう。この研究は、胸部X線画像を扱う複数の大規模データセットを横断的に分析し、女性や非白人、あるいは低所得層などで「過小診断(本当は病気なのに健康と判定される誤り)」が増大する傾向を明確に示しました。

 若年層やBlack、Hispanicといった人種的マイノリティ、あるいはMedicaid保険の加入者など、社会的にケアが行き届きにくい人たちがAIの診断から漏れやすいというのは、医療格差をさらに拡大する深刻な要因となり得ます。モデルの開発に使うデータ自体が社会の不均衡を反映している場合、それをそのまま学習してしまうと、脆弱な集団を見落としてしまう危険性が高まるわけです。

 特に「No finding(異常なし)」という判定がAIによって下されると、医師による追加チェックの機会を失いやすく、治療の遅れにつながります。バイアスを検出し、補正する仕組みを導入しなければ、このような負の連鎖を防ぎにくいことがはっきりわかります。

医療画像から人種を識別するAI

AI recognition of patient race in medical imaging: a modelling study. Lancet Digit Health. 2022;4(6):e406-e414.

 AIがどのようにバイアスを学習するかを考えるうえで、興味深い発見もあります。なんと、胸部X線やCT、マンモグラフィなど、さまざまな医療画像からAIが患者の自己申告による人種を高精度に推定できることが示されました。これは人間の専門家の目だけでは見分けにくい特徴を、ディープラーニングが拾い上げている可能性を示唆します。

 実際、撮影条件や解像度を変えても、モデルの推定精度が大きく落ちなかったことから、人種にかかわる情報は画像の広い領域・多様な特徴に埋め込まれているのではないかと考えられています。こうした潜在的な属性情報が、知らないうちに診断やリスク評価の判断に影響を及ぼすとすれば、医療AIの公正性を担保するハードルは一層高くなるでしょう。

GPT-4の医療応用に潜む人種・性別バイアス

Assessing the potential of GPT-4 to perpetuate racial and gender biases in health care: a model evaluation study. Lancet Digit Health. 2024;6(1):e12-e22.

 最後に、大規模言語モデルにおけるバイアスの問題です。GPT-4を医療教育や診療推論に応用しようとする動きが世界的に広がっていますが、一部の検証では、人種や性別に関する固定観念を過剰に反映する傾向が指摘されました。

 たとえば、患者の背景を少し変えるだけで鑑別診断に挙げられる病名が変化したり、特定の検査・治療を受けるべきだと判断する頻度が変わったりするというのです。もしもモデルの学習過程で社会的偏見が取り込まれていれば、無自覚のうちにその偏見が医療現場での意思決定に影響しかねません。大規模言語モデルは汎用性が高いために期待も大きい一方、バイアスの評価と監視がこれまで以上に重要になると考えられます。

まとめ

 以上、さまざまな研究を俯瞰すると、医療AIがもつバイアスは多様な形で現れることがわかります。施設間の差異による精度低下から、人種や性別など特定の集団への過小診断、人間が意識できない情報まで拾い上げる高度な特徴学習、さらに大規模言語モデルのステレオタイプ再生産など、その広がりは想像以上に大きなものです。しかし、これらの知見から得られる教訓をもとに、対策を講じることも可能です。最後に、現時点で考えられる主な方策を箇条書きで挙げます。

  • 多施設・多様なデータ収集と評価
    単一施設や限定的な地域のデータだけでAIを開発・検証するのではなく、あらゆる属性や撮影環境を含む多施設・多国のデータを取り入れる。外部検証やドメイン適応(転移学習など)を考慮した開発プロセスを標準化する。

  • データセットの透明性向上
    患者のプライバシーを守りつつ、可能な範囲でデータやモデル情報を公開し、研究コミュニティ全体でバイアスを検証できる体制を整える。人種・肌色・年齢・性別など重要な属性情報の報告基準を明確にする。

  • モデル性能だけでなくバイアス指標をモニタリング
    AUCや感度・特異度だけでなく、特定の集団に対する過小診断率など、バイアスを捉える指標を定期的に評価するプロトコルを導入する。開発・運用の両フェーズで、継続的にチェックする仕組みを設ける。

  • アルゴリズムの解釈可能性と説明責任
    AIモデルが何に着目して判断しているかを可視化する技術(例:熱マップや特徴重要度の分析)を適切に導入し、想定外の情報(施設固有要素や社会的属性など)に過度に依存していないかを確認する。

  • 大規模言語モデルへの慎重な導入
    GPT-4などの汎用モデルを医療領域で使用する場合、学習元の偏見を取り込んでいないかを具体的シナリオで検証する。医療教育や診断推論への応用では、専門家のレビューやフィードバックを欠かさず行う仕組みが必要。

  • 規制・ガイドラインの整備
    臨床現場におけるバイアス発生リスクを前提にしたレギュレーションや評価基準を策定し、開発者と医療従事者の責任範囲を明確化する。モデルの導入時や運用後もバイアス対策を義務づける制度を検討する。

 医療AIは大きな可能性を秘めていますが、バイアスの存在は無視できません。だからこそ、研究者はデータやアルゴリズムの透明性を高めつつ、多様な患者集団を取りこぼさない仕組みを作る必要があります。さらに、臨床の現場で実際にどのような影響が出るのかを見極め、必要に応じてアルゴリズムを補正・更新しながら、公平な医療提供の実現を目指す。医療AIが今後も発展していくためには、このような継続的な取り組みと社会的な連携が欠かせないと考えます。