記事

2024年6月10日

医学における深層学習のデータセット用語の歴史的整理と提案

医学における深層学習のデータセット用語をめぐる歴史的整理と提案

医療分野と深層学習分野で用いられてきた「validation」の解釈を中心に、データセット用語の歴史的変遷と混乱の原因を検証し、両領域が共有できる解決策を示しました。

論文

Data set terminology of deep learning in medicine: a historical review and recommendation

Japanese Journal of Radiology

https://doi.org/10.1007/s11604-024-01608-1

著者談

もともとは2023年の日本医学放射線学会総会で、深層学習のデータセット用語、とりわけvalidationという言葉の使われ方が医学と工学で大きく異なることに対して多くの反響をいただきました。「なぜこんなに呼び方や意味合いがバラバラなのか」という疑問が相次ぎ、学会関係者から論文化を強く勧められ、今回の執筆に至りました。私たち自身、医療の世界とAI技術の世界を行き来する中で、同じ言葉を使っていても意図がすれ違う場面を何度も目にしてきました。本論文はそうした現場の声を受け止め、歴史や事例から整理した内容をまとめたInvited Reviewとして、日本医学放射線学会誌(Japanese Journal of Radiology)の2024年6月号に掲載されました。

論文概要

本論文では、深層学習の発祥である工学分野が蓄積してきたデータセットの扱い方と、医学分野が従来から重視してきた検証(validation)の概念を対比する形で整理しました。特に「validation」という言葉が、医学では最終的な精度の確認の場面を指す一方、深層学習の世界ではパラメータ調整のための途中段階を指すことが多い点に着目しました。そこに生じる誤解が、実際の研究報告や臨床応用の評価に影響するリスクがあると考え、歴史的経緯を踏まえながら分野横断的な用語整理を行うことにしました。

論文詳細

私たちはまず、医学論文で歴史的に使われてきた「validation」の意味を振り返り、診断精度の最終確認としての「検証」の概念が強調されてきた背景を探りました。それに対し、深層学習では「training(学習)」「validation(検証)」「test(評価)」という3区分が早くから定着しており、validationが最終評価ではなくモデルの過学習を防ぐための中間的役割として機能している実情を解説しました。さらに、最終的な評価のために用いられるtestセットの内部・外部データの使い分けや、時間的・地理的に分割された外部データセットの意義についても紹介し、どのような分割方法が妥当かを示しています。結論として、「training」「validation(あるいはtuning)」「test」という3区分を医学でも標準化し、論文中で明確に定義づけることが両領域の研究をスムーズに繋ぐ重要な方策になる、と提言しました。こうした整理によって、医療現場とAI研究者の間で意図しない誤解が減り、さらに成果の再現性やモデルの汎用性も高まると期待しています。今後も深層学習が医療分野で広く用いられるようになるにつれ、用語の標準化はますます重要になると感じており、本論文がその足がかりとなれば幸いです。