AIは人間と同じくらい病気の診断に優れています

この種の最初の系統的レビューとメタアナリシスは、人工知能(AI)が医療専門家と同じように医用画像に基づいて病気を診断するのに優れていることを発見しました。ただし、より質の高い研究が必要です。

AIと医療専門家は、医用画像に基づいて病気を診断するのに等しく効果的である、と新しい研究が示唆しています。

新しい記事では、AIが医療専門家と同じくらい効果的に病気を診断できるかどうかを判断するために、既存の証拠を調べています。

著者の知る限り、つまり、英国の大学病院バーミンガムNHS財団トラストのアラステアデニストン教授が率いる膨大な研究者チームは、AIのパフォーマンスをすべての疾患の医療専門家と比較する最初の系統的レビューです。

デニストン教授とチームは、2012年1月1日から2019年6月6日までに公開されたすべての研究についていくつかの医療データベースを検索しました。チームは分析結果をジャーナルに公開しました。 ランセットデジタルヘルス.

医療専門家と同等のAI

研究者たちは、深層学習アルゴリズムの診断効果を、医用画像に基づいて診断したときの医療専門家の診断効果と比較した研究を探しました。

彼らは、上記の研究における報告の質、それらの臨床的価値、および研究のデザインを調べました。

さらに、医療専門家の診断パフォーマンスと比較したAIの診断パフォーマンスの評価に関して、研究者は2つの結果、つまり特異性と感度を調べました。

「感度」は、診断ツールが病気を患っている人々に肯定的な結果をもたらす確率を定義します。特異性とは、感度測定を補完する診断テストの精度を指します。

選択プロセスでは、分析に含めるのに十分な品質の14件の研究しか得られませんでした。デニストン教授は、「私たちは20,500を超える記事をレビューしましたが、これらの1%未満が設計と報告において十分に堅牢であり、独立したレビューアが彼らの主張に高い信頼を寄せていると報告しています。」

「さらに、(異なる母集団からの医用画像を使用して)AIモデルを外部で検証した研究は25件のみであり、同じテストサンプルを使用してAIと医療専門家のパフォーマンスを比較した研究はわずか14件でした。」

「その一握りの質の高い研究の中で、ディープラーニングは実際に癌から眼疾患に至るまでの病気を医療専門家と同じくらい正確に検出できることがわかりました。ただし、AIは人間の診断を大幅に上回っていなかったことに注意することが重要です。」

アラステア・デニストン教授

より具体的には、分析により、AIは87%の症例で疾患を正しく診断できるのに対し、医療専門家による検出では86%の正解率が得られたことがわかりました。深層学習アルゴリズムの特異性は93%でしたが、人間の91%でした。

バイアスはAIのパフォーマンスを誇張する可能性があります

デニストン教授と同僚は、AI診断のパフォーマンスを調べる研究で見つけたいくつかの制限にも注意を向けています。

まず、ほとんどの研究では、通常の臨床診療を模倣していない隔離された環境でAIと医療専門家の診断精度を調べています。たとえば、医師が通常診断に必要な追加の臨床情報を奪っています。

第二に、研究者によると、ほとんどの研究はデータセットのみを比較しましたが、診断パフォーマンスの質の高い研究では、人々でそのような比較を行う必要があります。

さらに、すべての研究は不十分な報告に苦しんでおり、分析は前述のデータセットから欠落している情報を考慮していないと著者は述べています。 「ほとんどの[研究]は、欠測データがあるかどうか、これがどの程度の割合を表しているか、および欠測データが分析でどのように処理されたかを報告していませんでした」と著者は書いています。

その他の制限には、一貫性のない用語、感度と特異性の分析のしきい値を明確に設定していないこと、サンプル外の検証がないことが含まれます。

「新しい、命を救う可能性のある診断を使用したいという願望と、臨床診療において患者と医療システムに利益をもたらすことができる方法で高品質のエビデンスを開発する必要性との間には固有の緊張関係があります」バーミンガム大学。

「私たちの仕事からの重要な教訓は、AIでは、ヘルスケアの他の部分と同様に、優れた研究デザインが重要であるということです。それがないと、結果を歪めるバイアスを簡単に導入できます。これらのバイアスは、現実の世界に変換されないAIツールの優れたパフォーマンスの誇張された主張につながる可能性があります。」

XiaoxuanLiu博士

「AIアルゴリズムが患者の転帰をどのように変化させるかについての証拠は、ランダム化比較試験における代替診断テストとの比較から得られる必要があります」と、英国ロンドンのムーアフィールズ眼科病院の共著者であるリビア・フェイズ博士は付け加えます。

「これまでのところ、AIアルゴリズムによって行われた診断決定に基づいて、タイムリーな治療、退院までの時間、さらには生存率など、患者にとって本当に重要な結果がどうなるかを確認するような試験はほとんどありません。」

none:  背中の痛み リンパ浮腫 血液-血液学